Open Interpreter やっと試せました。
公開 2023/12/25 16:12
最終更新
-
Open Interpreter、簡単に試せるという記事がいくつもあって、それらがだいたいmacというお話。
Windowsでは使えたという人はいたりいなかったり、WSLを使ったり、Open Interpreterのバージョンが変わって使い方が変わってしまったりと散々な思いをしてきましたが、やっと安定して使えるようになりました。
(正確にはローカルではなかなかLLMが安定して回答してくれなかったりするものだから、安定しているとは言えないのですけれども。)
現状のハードウェアは以下。
DELL Precision 5820 Tower
CPU: Xeon W-2125
MEM: 32GB
GPU: Quadro P5000(VRAM:16GB)
OS: Windows11 Pro
5~6年前ならずいぶんと高価そうなシステムですが、中古でOfficeも抱き合わせで約10万円也。
P600~P2200あたりならすぐに見つかりますが、P5000となるとなかなかお代わりは難しそうで。
ソフトウェア:
Python 3.10.13 (Open Interpreterが対応すればなんでもいいです。minicondaで環境をつくっています。)
Open Interpreter 0.1.17
LM Studio 0.2.10 (https://lmstudio.ai/)
あと、CUDA11.8が利用できるようにしてあります。
ほんの少し前まで、Pytorchが11.8までしか対応しなかったので。
LM Studioでは、とりあえずmmnga/ELYZA-japanese-Llama-2-7b-instruct-q6_K.gguf
これをLM Studioの検索画面からdownloadしておいて、Chat画面できちんと使えることを確認。
GPU Offloadも試して、n_gpu_layersはよくわからないなりに50あたりで。GPUのメモリ消費量に影響するようですね。Modelによって上限はあるようですし、数字が小さいとGPUの効果があるのかどうかわかりにくくなったりと。適正値は調べていないのでなんとも。
Context Lengthは可能なら多めにしたいところではありますが、利用するpromptの長さを想定して決めてよいのではないでしょうかね。お試し中なので、1500とか2000あたりで使っています。
Chatでそれなりに動くことが確認出来たら、Serverモードにします。"←→"という感じのアイコンで示されています。
1. Chatモードと同じように画面上部で使用するモデルを選択
2. 右のほうのServer Model SettingsでPreset("MetaAI Llama 2 Chat"でとりあえずいいんじゃないでしょうか。)を選択し、GPU Offloadを設定。
左のほうのLocal Inference Serverを確認して、"Reload to Apply Changes"が出ていたら、それをクリック。(GPU Offloadの設定値を変えるとReloadボタンが出てくる様子。)
モデルがリロードされたら"Start Server"ボタンを押す。
あとはOpen Interpreterが利用できるコマンドプロンプトあたりから、
interpreter --local --api_base http://localhost:1234/v1 -y
を実行、するとServerモードで待機しているLM Studioのモデルに接続されますので、Chatしてみてください。interpreterのほうのコンソールからです。
> hi! who are you?
Hello! I am LLaMA, an AI assistant developed by Meta AI that can understand and respond to human input in a
conversational manner. What would you like to talk about or ask me?
という感じでレスポンスがあったらうまくいきました、Open Interpreterを使っている記事通りにはうまく動かないかもしませんが、ある程度ユーザ側でフォローしてやれば、それなりには使えますよ。
まあ、gpt-3.5 / gpt-4みたいな期待をすんなって書いてありますように、そこそこではありますがね。
Windowsでは使えたという人はいたりいなかったり、WSLを使ったり、Open Interpreterのバージョンが変わって使い方が変わってしまったりと散々な思いをしてきましたが、やっと安定して使えるようになりました。
(正確にはローカルではなかなかLLMが安定して回答してくれなかったりするものだから、安定しているとは言えないのですけれども。)
現状のハードウェアは以下。
DELL Precision 5820 Tower
CPU: Xeon W-2125
MEM: 32GB
GPU: Quadro P5000(VRAM:16GB)
OS: Windows11 Pro
5~6年前ならずいぶんと高価そうなシステムですが、中古でOfficeも抱き合わせで約10万円也。
P600~P2200あたりならすぐに見つかりますが、P5000となるとなかなかお代わりは難しそうで。
ソフトウェア:
Python 3.10.13 (Open Interpreterが対応すればなんでもいいです。minicondaで環境をつくっています。)
Open Interpreter 0.1.17
LM Studio 0.2.10 (https://lmstudio.ai/)
あと、CUDA11.8が利用できるようにしてあります。
ほんの少し前まで、Pytorchが11.8までしか対応しなかったので。
LM Studioでは、とりあえずmmnga/ELYZA-japanese-Llama-2-7b-instruct-q6_K.gguf
これをLM Studioの検索画面からdownloadしておいて、Chat画面できちんと使えることを確認。
GPU Offloadも試して、n_gpu_layersはよくわからないなりに50あたりで。GPUのメモリ消費量に影響するようですね。Modelによって上限はあるようですし、数字が小さいとGPUの効果があるのかどうかわかりにくくなったりと。適正値は調べていないのでなんとも。
Context Lengthは可能なら多めにしたいところではありますが、利用するpromptの長さを想定して決めてよいのではないでしょうかね。お試し中なので、1500とか2000あたりで使っています。
Chatでそれなりに動くことが確認出来たら、Serverモードにします。"←→"という感じのアイコンで示されています。
1. Chatモードと同じように画面上部で使用するモデルを選択
2. 右のほうのServer Model SettingsでPreset("MetaAI Llama 2 Chat"でとりあえずいいんじゃないでしょうか。)を選択し、GPU Offloadを設定。
左のほうのLocal Inference Serverを確認して、"Reload to Apply Changes"が出ていたら、それをクリック。(GPU Offloadの設定値を変えるとReloadボタンが出てくる様子。)
モデルがリロードされたら"Start Server"ボタンを押す。
あとはOpen Interpreterが利用できるコマンドプロンプトあたりから、
interpreter --local --api_base http://localhost:1234/v1 -y
を実行、するとServerモードで待機しているLM Studioのモデルに接続されますので、Chatしてみてください。interpreterのほうのコンソールからです。
> hi! who are you?
Hello! I am LLaMA, an AI assistant developed by Meta AI that can understand and respond to human input in a
conversational manner. What would you like to talk about or ask me?
という感じでレスポンスがあったらうまくいきました、Open Interpreterを使っている記事通りにはうまく動かないかもしませんが、ある程度ユーザ側でフォローしてやれば、それなりには使えますよ。
まあ、gpt-3.5 / gpt-4みたいな期待をすんなって書いてありますように、そこそこではありますがね。