삽질/개발,엔지니어링

stanford alpaca 설치 (mac os)

maengis 2023. 3. 29. 21:11
git clone https://github.com/antimatter15/alpaca.cpp
cd alpaca.cpp

make chat
./chat

내 경우에는 아래와 같은 메시지가 나왔다.

main: seed = 1680091241
llama_model_load: loading model from 'ggml-alpaca-7b-q4.bin' - please wait ...
llama_model_load: failed to open 'ggml-alpaca-7b-q4.bin'
main: failed to load model from 'ggml-alpaca-7b-q4.bin'​

구글링 해서 찾아낸 거 보고 curl로 7B 받기

curl https://huggingface.co/Sosaka/Alpaca-native-4bit-ggml/resolve/main/ggml-alpaca-7b-q4.bin -L -o ggml-alpaca-7b-q4.bin

우분투 서버에서 돌렸는데 사양 때문인지 실행은 되는데 반응이 없어서 맥에서 다시 했다. 

main: seed = 1680158819
llama_model_load: loading model from 'ggml-alpaca-7b-q4.bin' - please wait ...
llama_model_load: ggml ctx size = 6065.34 MB
llama_model_load: memory_size =  2048.00 MB, n_mem = 65536
llama_model_load: loading model part 1/1 from 'ggml-alpaca-7b-q4.bin'
llama_model_load: .................................... done
llama_model_load: model size =  4017.27 MB / num tensors = 291

system_info: n_threads = 4 / 8 | AVX = 0 | AVX2 = 0 | AVX512 = 0 | FMA = 0 | NEON = 1 | ARM_FMA = 1 | F16C = 0 | FP16_VA = 1 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | VSX = 0 | 
main: interactive mode on.
sampling parameters: temp = 0.100000, top_k = 40, top_p = 0.950000, repeat_last_n = 64, repeat_penalty = 1.300000


== Running in chat mode. ==
 - Press Ctrl+C to interject at any time.
 - Press Return to return control to LLaMA.
 - If you want to submit another line, end your input in '\'.

> hi 
Hello! How can I help you?
>

특정 목적으로만 쓰려고 학습 후에 API화 시키려고 했는데, 이걸 위해 서버를 따로 꾸려야 되는 상황이라 일단 하는 방법만 적었다.

 

아래는 구글링 해서 찾은 내용.

 

시작하기(7B)

최신 릴리스 에서 운영 체제에 해당하는 zip 파일을 다운로드하십시오 . Windows에서는 다운로드 alpaca-win.zip, Mac(Intel 또는 ARM 모두)에서는 다운로드 alpaca-mac.zip, Linux(x64)에서는 다운로드 를 다운로드하십시오 alpaca-linux.zip.

ggml-alpaca-7b-q4.bin을 다운로드하고 chatzip 파일의 실행 파일 과 동일한 폴더에 넣습니다 . 몇 가지 옵션이 있습니다.

chat모델 가중치를 다운로드하여 또는 실행 파일 과 동일한 디렉터리에 배치한 후 다음을 chat.exe실행합니다.

./chat

가중치는 에서 게시된 미세 조정을 기반으로 수정된 스크립트를alpaca-lora 사용하여 pytorch 체크포인트로 다시 변환 한 다음 일반적인 방식으로 llama.cpp로 양자화합니다.

시작하기(13B)

램이 10GB 이상이면 더 높은 품질의 13B ggml-alpaca-13b-q4.bin모델을 사용할 수 있습니다. 가중치를 다운로드하려면 다음을 사용할 수 있습니다.

# Any of these commands will work. 
curl -o ggml-alpaca-13b-q4.bin -C - https://gateway.estuary.tech/gw/ipfs/Qme6wyw9MzqbrUMpFNVq42rC1kSdko7MGT9CL7o1u9Cv9G 
curl -o ggml-alpaca-13b-q4.bin -C - https://ipfs.io/ipfs/Qme6wyw9MzqbrUMpFNVq42rC1kSdko7MGT9CL7o1u9Cv9G 
curl -o ggml-alpaca-13b-q4.bin -C - https://cloudflare-ipfs.com/ipfs/Qme6wyw9MzqbrUMpFNVq42rC1kSdko7MGT9CL7o1u9Cv9G 

# BitTorrent
magnet:?xt=urn:btih:053b3d54d2e77ff020ebddf51dad681f2a651071&dn=ggml-alpaca-13b-q4.bin&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A6969%2Fannounce&tr=udp%3A%2F%2F9.rarbg.com%3A2810%2Fannounce
https://btcache.me/torrent/053B3D54D2E77FF020EBDDF51DAD681F2A651071  
https://torrage.info/torrent.php?h=053b3d54d2e77ff020ebddf51dad681f2a651071

가중치를 다운로드한 후 다음 명령을 실행하여 채팅에 들어갈 수 있습니다.

./chat -m ggml-alpaca-13b-q4.bin

시작하기(30B)

32GB 이상의 RAM(및 강력한 CPU)이 있는 경우 더 높은 품질의 30B alpaca-30B-ggml.bin모델을 사용할 수 있습니다. 가중치를 다운로드하려면 다음을 사용할 수 있습니다.

git clone https://huggingface.co/Pi3141/alpaca-30B-ggml

가중치를 다운로드한 후 다음 명령을 실행하여 채팅에 들어갈 수 있습니다.

./chat -m ggml-model-q4_0.bin
반응형