1ビットLLM bonsai-8B、LM Studioで動くようになっていた
公開 2026/04/15 16:24
最終更新
2026/04/17 16:11
1ビットLLMというbonsai-8B。
いくつかの記事で公表された当時はLM Studioで利用できなかった。
その後、engine(llama.cpp)が何度かアップデートされたうちに利用できるようになった様子。
ただねぇ、自分の環境のせいとは思うんだけれども、まともに動かん。
いや、動くんだけれども、CUDAが利用されない環境では遅すぎる。(Quadro P5000でLM StudioだとVulkan llama.cppが使われる。少なくともpytorchなんかではcuda11は利用できるはずなんだけれどもLM Studioではcuda llama.cppもcuda12 llama.cppも対応しないみたい。)
Vulkanではbonsaiには最適化されないのかも。自分の環境では「GPUとは?」に対して、0.24トークン/秒。メインメモリの消費量も10GB以上持っていく。GPU側のメモリは減らない。
CUDA12対応の環境でもRTX 3050(6GB)だと快適とはいいがたい。(cuda12 llama.cppが利用されるようなんだけれども。)
※RTX3060の環境で試したら、しっかり回答してくれるようになったので、CUDA12 llama.cppならマシなのだろうけれども、2.20トークン/秒。
メモリの消費量はメインメモリが1GB程度、GPU側が500M程度増えているみたい。で、一応GPUも処理しているが、CPUの負荷もそこそこある。同じ機械でCPU llama.cppに変更したら、遅くなったので、cuda12 llama.cppは確かに効いていることは分かる。
これだと、Gemma4 E2Bのほうが快適だし、出てくる情報量も多い。
iPhoneで使えているみたいなお話があるから、それはそれで狙い通りなのだろうけれども、記事でいわれるほど軽いものには見えないし、期待したほどではないなぁとか思ったり。
専門家ではないから、見込み違いしているだけなんだろうとは思うんだが、自分の環境で快適でない以上、選択肢としてはなしだなぁと思う。
軽くて快適なら、ありがたいと思っていたのだけれども。
それともNPU環境ならありなのかね?まだ、手持ち環境にNPUがないんだけれども。
(スマホはスナドラ8sGen4なので、NPUがあるっちゃあるけれどもなぁ。)
ちなみに、lfm2.5-1.2bなら、RTX3060環境で187トークン/秒。これは早い。
Quadro P5000(Vulkan)環境だと、60.47トークン/秒。十分早い、英語回答だけれども。
いくつかの記事で公表された当時はLM Studioで利用できなかった。
その後、engine(llama.cpp)が何度かアップデートされたうちに利用できるようになった様子。
ただねぇ、自分の環境のせいとは思うんだけれども、まともに動かん。
いや、動くんだけれども、CUDAが利用されない環境では遅すぎる。(Quadro P5000でLM StudioだとVulkan llama.cppが使われる。少なくともpytorchなんかではcuda11は利用できるはずなんだけれどもLM Studioではcuda llama.cppもcuda12 llama.cppも対応しないみたい。)
Vulkanではbonsaiには最適化されないのかも。自分の環境では「GPUとは?」に対して、0.24トークン/秒。メインメモリの消費量も10GB以上持っていく。GPU側のメモリは減らない。
CUDA12対応の環境でもRTX 3050(6GB)だと快適とはいいがたい。(cuda12 llama.cppが利用されるようなんだけれども。)
※RTX3060の環境で試したら、しっかり回答してくれるようになったので、CUDA12 llama.cppならマシなのだろうけれども、2.20トークン/秒。
メモリの消費量はメインメモリが1GB程度、GPU側が500M程度増えているみたい。で、一応GPUも処理しているが、CPUの負荷もそこそこある。同じ機械でCPU llama.cppに変更したら、遅くなったので、cuda12 llama.cppは確かに効いていることは分かる。
これだと、Gemma4 E2Bのほうが快適だし、出てくる情報量も多い。
iPhoneで使えているみたいなお話があるから、それはそれで狙い通りなのだろうけれども、記事でいわれるほど軽いものには見えないし、期待したほどではないなぁとか思ったり。
専門家ではないから、見込み違いしているだけなんだろうとは思うんだが、自分の環境で快適でない以上、選択肢としてはなしだなぁと思う。
軽くて快適なら、ありがたいと思っていたのだけれども。
それともNPU環境ならありなのかね?まだ、手持ち環境にNPUがないんだけれども。
(スマホはスナドラ8sGen4なので、NPUがあるっちゃあるけれどもなぁ。)
ちなみに、lfm2.5-1.2bなら、RTX3060環境で187トークン/秒。これは早い。
Quadro P5000(Vulkan)環境だと、60.47トークン/秒。十分早い、英語回答だけれども。
