1ビットLLM bonsai-8B、LM Studioで動くようになっていた
公開 2026/04/15 16:24
最終更新 2026/04/17 16:11
1ビットLLMというbonsai-8B。
いくつかの記事で公表された当時はLM Studioで利用できなかった。

その後、engine(llama.cpp)が何度かアップデートされたうちに利用できるようになった様子。
ただねぇ、自分の環境のせいとは思うんだけれども、まともに動かん。
いや、動くんだけれども、CUDAが利用されない環境では遅すぎる。(Quadro P5000でLM StudioだとVulkan llama.cppが使われる。少なくともpytorchなんかではcuda11は利用できるはずなんだけれどもLM Studioではcuda llama.cppもcuda12 llama.cppも対応しないみたい。)
Vulkanではbonsaiには最適化されないのかも。自分の環境では「GPUとは?」に対して、0.24トークン/秒。メインメモリの消費量も10GB以上持っていく。GPU側のメモリは減らない。

CUDA12対応の環境でもRTX 3050(6GB)だと快適とはいいがたい。(cuda12 llama.cppが利用されるようなんだけれども。)
※RTX3060の環境で試したら、しっかり回答してくれるようになったので、CUDA12 llama.cppならマシなのだろうけれども、2.20トークン/秒。
メモリの消費量はメインメモリが1GB程度、GPU側が500M程度増えているみたい。で、一応GPUも処理しているが、CPUの負荷もそこそこある。同じ機械でCPU llama.cppに変更したら、遅くなったので、cuda12 llama.cppは確かに効いていることは分かる。

これだと、Gemma4 E2Bのほうが快適だし、出てくる情報量も多い。
iPhoneで使えているみたいなお話があるから、それはそれで狙い通りなのだろうけれども、記事でいわれるほど軽いものには見えないし、期待したほどではないなぁとか思ったり。

専門家ではないから、見込み違いしているだけなんだろうとは思うんだが、自分の環境で快適でない以上、選択肢としてはなしだなぁと思う。
軽くて快適なら、ありがたいと思っていたのだけれども。
それともNPU環境ならありなのかね?まだ、手持ち環境にNPUがないんだけれども。
(スマホはスナドラ8sGen4なので、NPUがあるっちゃあるけれどもなぁ。)

ちなみに、lfm2.5-1.2bなら、RTX3060環境で187トークン/秒。これは早い。
Quadro P5000(Vulkan)環境だと、60.47トークン/秒。十分早い、英語回答だけれども。
最近の記事
Copilot Keyboardの挙動が気に入らん
株式会社の略で(株)という書き方がある。個人的によく使うので、これは重要。 Chromeを使っているとき、これがスペースキー…
2026/05/08 15:25
1ビットLLM bonsai-8B、LM Studioで動くようになっていた
1ビットLLMというbonsai-8B。 いくつかの記事で公表された当時はLM Studioで利用できなかった。 その後、engine(llama.cpp…
2026/04/15 16:24
いつの間にかPoeが使いにくくなった
Poe( https://poe.com/ ) Quoraが提供するサービスらしいのだけれども、これ以前はAssistantだけでも結構長く会話できたんだが…
2026/04/14 10:59
AI比較:GeminiとCopilot、ChatGPT、Claude甲乙つけがたい
ちょっと遠出のドライブプラン(ルートと休憩2回)を作成させてみた。 詳細は省くけど、印象としては、Gemini/Copilot/ChatGP…
2026/03/17 10:48
訃報:池田昌子さん(享年87)
あまりこういうことは残したくないんだけれども、この方のことは覚えていたい。 3月3日永眠。合掌。 でも、割と往生だった…
2026/03/13 16:51
いわゆる非公式アップグレード
DELLのInspiron 15 3525。個人的には十分高性能で、十分使えるのにと思っていたんだけれども、やむを得ない事情でリプレースし…
2026/03/12 09:46
CarbonOS on Redmi Note 5
ちょっと、昔のスマホを引っ張り出してきた。 UnofficialなFirmwareが入らないかと思って。使えそうなら、カメラとか専用機と…
2026/03/07 11:56
AI...こそっと間違いを入れるのは困る。
「与えた表面積の値を利用して、ニッケルメッキの重量を求めよ。」 2問、問い合わせたところ、2つ目が異常に小さい結果にな…
2026/03/04 16:38
永代供養...事実上の無縁仏だなぁ
昨日、叔父の火葬を行ってきた。 本日、お骨を近所の葬祭ホールとの契約で樹木葬してくるとのこと。 叔父は財産もなく、妻…
2026/02/26 11:20
ローカルLLMに18トークン/秒は遅いかと聞いてみた。
NVIDIA製Nemotron-Nano-9b-v2に聞いてみた。 Xeon W-2125/Quadro P5000(16GB)搭載機でNemotron-Nano-9b-Japanese(Q4-K-S)、LM …
2026/02/23 10:46
社内で古いノートPCをゲット
Windows11へのリプレースは順調とか言っても、Windows10からのアップグレードでそれなりに利用できていたパソコンはそのままに…
2026/02/18 09:43
antigravity: Gemini3 Flashでいいんじゃないか?
antigravityで、コーディング以外にもいろいろな仕事を任せられることがわかって、日々使っているとGemini3 ProだとLowでもHigh…
2026/02/17 13:43
自分の中で固まっていないことをやろうとすると困る
課金していても、一番低い料金だと、やはり使えるトークンが少ない。 やりたいことがAIに伝わらないとき、試行回数が増える。 …
2026/02/13 14:51
選挙結果をAIに総括させてみた。
履歴の続きを利用して、「過去の予想を踏まえて総括してください。」と問い合わせてみた。 結果、履歴内容を踏まえてきちん…
2026/02/13 09:19
おそらくこれがサブスク(Google AI Plus)の恩恵
Google AI Plusに課金して、はじめてAntigravityを使用した時。 おお、これが課金した効果かと感じた。 無課金のとき、Anti…
2026/02/11 08:44
Google AI Plusに乗り換えた
Googleのクラウドストレージサービス(Google Drive)を増量するだけの名目でGoogle One(月額290円)に加入していたのだけれども、…
2026/01/29 09:22
旧PCでLinuxは動くが...(というよりCore i3の罠?)
ZorinOS18、若干貧弱なPCでも快適に使えるので、結構重宝しているんだけれども、環境を整えて本格的に使おうとしたら挫折した話…
2026/01/27 08:43
AIに議席数予測させてみた:2026年衆院選
今回はFelo、Gemini(Gemini3 Fast)、Gemini Deep Research(Gemini3 Fast)、Perplexity。 ただし、中道改革連合の支持率が出て…
2026/01/22 16:41
これは確かに不満が出るわ。Inspiron 15 3525
なんか、使っている人が不満そうなんだけど、どう不満なのか言えないみたいな微妙なパソコン。 でも、ちょっと触ってみて、…
2026/01/20 17:52
ちょっと困っていた問題が解決した話
pythonを使ってRPA的な処理を作成しようとするとき、重宝するのがSelenium。 2025年7月頃から困ってたことが、最新リリース向…
2026/01/13 13:57
もっと見る
タグ
AI(39)
IT(20)
雑感(9)
AI,(6)
IoT(6)
IT,(6)
愚痴(5)
日記(3)
RPA(2)
アニメ(2)
ChatGPTで遊ぶ(1)
Windows11(1)
自動処理(1)
もっと見る