Qwen3.6-35B-A3B Terminal-Bench登場 3Bで35B級の衝撃

Alibaba Cloudが公開したQwen3.6-35B-A3BがTerminal-Bench 2.0リーダーボードに登場。アクティブパラメータわずか3Bで35B級の総パラメータを持つMoEモデルが、ローカルLLM界隈に新たな衝撃を与えています。

📰 ソース：Reddit r/LocalLLaMA / 海外AI技術コミュニティ

📌 この記事のポイント

Qwen3.6-35B-A3Bは総パラメータ35Bながらアクティブパラメータ3BのMoE（Mixture of Experts）モデル
Terminal-Bench 2.0（ターミナル操作・コード実行の実務的ベンチマーク）に公式登録
9Bモデルも同時にリーダーボードに登場し、軽量ローカルLLM市場の競争が激化

Qwen3.6-35B-A3Bとは何か

Alibaba Cloud（阿里雲）が開発するQwenシリーズの最新世代「Qwen3.6」から、35B-A3Bおよび9Bの2モデルがTerminal-Bench 2.0リーダーボードに公式登録されました。Reddit r/LocalLLaMAコミュニティを中心に、ローカルLLMユーザーの間で大きな注目を集めています。

MoE（Mixture of Experts）アーキテクチャの強み

「35B-A3B」という命名が示す通り、このモデルはMoE（Mixture of Experts）アーキテクチャを採用しています。総パラメータ数は約350億（35B）ですが、推論時にアクティブになるパラメータはわずか約30億（3B）です。これにより、35Bクラスの知識量を持ちながら、3Bモデル並みの推論速度とメモリ消費で動作することを目指した設計となっています。

Terminal-Bench 2.0とは

Terminal-Bench 2.0は、LLMのターミナル操作能力——つまりコマンドライン操作、シェルスクリプト生成、システム管理タスク、コード実行といった実務的なスキルを評価するベンチマークです。一般的なコーディングベンチマーク（HumanEval等）とは異なり、実際の開発者がターミナルで行う作業に近いタスクで評価される点が特徴です。具体的なスコアについては、Terminal-Bench公式リーダーボードで最新の結果を確認してください。

Qwen3.6-35B-A3B Terminal-Benchでの詳細分析

Qwen3.6世代の位置付け

Qwenシリーズはバージョン2.5、3.0と着実に進化を重ねてきました。Qwen3.6は「3」世代のマイナーアップデートに位置しますが、MoEモデルのラインナップ拡充という点で重要なリリースです。特に35B-A3Bは、Qwen3で導入されたMoE路線をさらに洗練させたモデルと位置付けられます。

アクティブパラメータ3Bの意味

アクティブパラメータが3Bであることの実務的な意味は非常に大きいです。一般的に、3Bクラスのモデルであれば8GB程度のVRAMで動作可能です（量子化の手法により変動します）。つまり、RTX 3060やRTX 4060といったコンシューマー向けGPU、さらにはApple Silicon搭載のMacBookでも十分に動作する可能性があります。

ただし、MoEモデルの場合はモデルファイル全体（35B分）をメモリに読み込む必要があるため、ディスク容量と初期ロード時のメモリ使用量は通常の3Bモデルより大きくなります。量子化（GGUF形式でのQ4_K_M等）を適用した場合のファイルサイズについては、公式リポジトリまたはHugging Faceで確認することを推奨します。

9Bモデルとの使い分け

同時にリーダーボードに登録された9Bモデル（Denseモデル、つまり非MoE）は、MoEの複雑さを避けたいユーザーや、よりシンプルな推論パイプラインを求めるケースに向いています。9BモデルはRTX 4070以上であれば快適に動作する範囲であり、MoEモデルとは異なるトレードオフを持っています。

モデル比較：同クラスとの立ち位置

モデル名	総パラメータ数	アクティブパラメータ数	アーキテクチャ	推定VRAM目安（量子化時）
Qwen3.6-35B-A3B	35B	3B	MoE	公式ドキュメント参照
Qwen3.6-9B	9B	9B	Dense	約6〜8GB（Q4量子化時）
Llama 3.1-8B	8B	8B	Dense	約5〜7GB（Q4量子化時）
Mistral Small 3.1 24B	24B	24B	Dense	約14〜16GB（Q4量子化時）
Qwen3-30B-A3B	30B	3B	MoE	公式ドキュメント参照

※VRAM目安は量子化手法やコンテキスト長により大きく変動します。実際の数値は各ツールの公式ドキュメントを参照してください。

実践：ローカル環境での始め方

Qwen3.6-35B-A3Bをローカルで試す方法を、代表的な3つのツール別に紹介します。

ステップ1：実行環境を選ぶ

Ollama — CLIベースでシンプル。サーバーとして起動し、API経由で利用可能
LM Studio — GUIで直感的。モデルの検索・ダウンロード・チャットが一画面で完結
Jan — オープンソースのデスクトップアプリ。ChatGPT風UIでローカルモデルを利用可能

ステップ2：Ollamaで試す場合

# Ollamaのインストール（macOS/Linux）
curl -fsSL https://ollama.com/install.sh | sh

# Qwen3.6モデルの実行（モデルが公開されている場合）
ollama run qwen3.6:35b-a3b

# ※モデル名はOllama公式ライブラリでの登録名を確認してください

ステップ3：LM Studioで試す場合

LM Studioを起動し、検索バーに「Qwen3.6-35B-A3B」と入力します。GGUF形式の量子化モデルが表示されたらダウンロードし、チャット画面でそのまま利用できます。量子化レベルは、自身のVRAMに合わせてQ4_K_MやQ5_K_Mを選択してください。

ステップ4：Janで試す場合

Jan公式サイトからアプリをダウンロード後、Hugging Face連携機能でモデルをインポートできます。Jan経由であればGGUF形式のモデルを直接読み込め、OpenAI互換のローカルAPIサーバーとしても機能します。

ステップ5：動作確認

いずれのツールでも、まずは簡単なプロンプト（「Pythonで素数判定関数を書いて」等）で応答速度と品質を確認しましょう。MoEモデルは初回ロードに時間がかかる場合がありますが、推論自体はアクティブパラメータ分の速度で動作します。

🇯🇵 日本での活用ポイント

日本語対応状況

Qwenシリーズは中国Alibaba Cloud発のモデルですが、多言語対応を重視しており、日本語の処理能力は歴代バージョンで高い評価を受けてきました。Qwen2.5やQwen3の時点で日本語のチャット・翻訳・要約タスクにおいて実用的な品質が確認されています。Qwen3.6でも同等以上の日本語性能が期待されますが、Terminal-Benchはターミナル操作（英語ベースのコマンド）を主に評価するため、日本語での詳細な性能は別途検証が必要です。

日本のエンジニアにとっての活用シナリオ

ローカルコーディングアシスタント — VS CodeやNeovimからAPI経由で接続し、クラウドに送信できない社内コードの補完・レビューに利用。MoEの軽量推論により、8GBクラスのGPUでも実用的な速度が見込めます
ターミナル操作の自動化 — Terminal-Benchでの評価が示す通り、シェルスクリプトの生成やLinuxコマンドの提案をローカルで安全に行えます。特にサーバー管理業務でクラウドLLMを使えないケースに最適です
社内ドキュメントの検索・要約 — RAG（Retrieval Augmented Generation）パイプラインの生成部分にローカルLLMを組み込むことで、機密情報を外部に出さずにAI活用が可能です
オフライン環境での開発支援 — 工場やデータセンターなど、インターネット接続が制限される現場での技術支援ツールとして

日本企業でのローカルLLM導入の背景

日本では個人情報保護法や各業界のセキュリティガイドラインにより、顧客データや社内機密をクラウドLLMに送信することに慎重な企業が多くあります。ローカルで動作するMoEモデルは、こうしたコンプライアンス要件を満たしながらAI活用を進めるための有力な選択肢です。アクティブパラメータ3Bという軽量さは、大規模なGPUインフラを持たない中小企業にとっても導入のハードルを大きく下げるものです。

💡 pikl編集部の視点

pikl編集部は、Qwen3.6-35B-A3BのTerminal-Bench 2.0登場を「MoEモデルの実用化が新たなフェーズに入った」ことを示すマイルストーンと考えます。これまでMoEアーキテクチャは、Mixtral 8x7Bの登場以降ローカルLLMユーザーの間で広く認知されてきましたが、「ファイルサイズが大きい割にDenseモデルと大差ない」という評価も少なくありませんでした。しかし、Qwenシリーズが3.0世代のQwen3-30B-A3Bに続き3.6世代でも積極的にMoEを展開していることは、このアーキテクチャの実用性に対するAlibaba Cloud側の強い確信を示していると読み取れます。

特に注目すべきは、Terminal-Benchという「実務寄り」のベンチマークに公式エントリーしている点です。HumanEvalやMMLUといった汎用ベンチマークでのスコア競争は飽和状態にあり、実際の開発現場での有用性を測るベンチマークへの関心が高まっています。Qwenチームがターミナル操作という具体的なユースケースでの評価を公式に受けに行ったことは、「汎用スコアより実務性能」というトレンドの表れと考えます。これはLlama系モデルやGemma系モデルとの差別化戦略としても効果的でしょう。

日本の開発者コミュニティにとって最も重要なのは、「どのモデルがどの実務タスクで使えるか」という情報です。r/LocalLLaMAでは新モデルが出るたびにユーザーベースの検証レポートが大量に投稿されますが、日本語環境での検証はまだ限られています。Qwenの日本語性能は競合モデル（Llama 3.1、Gemma 2等）と比較して高い水準にあるとされてきましたが、Qwen3.6世代での日本語Terminal操作（日本語コメント付きスクリプト生成等）の品質については、コミュニティでの検証結果を注視する必要があると考えます。ローカルLLMの選択肢が増えること自体は歓迎すべきことであり、OllamaやLM Studioで手軽に試せる環境が整っている今、ぜひ実際に手を動かして検証されることを推奨します。

まとめ

MoEの軽量推論が進化 — Qwen3.6-35B-A3Bはアクティブパラメータ3Bで35B級の知識量にアクセスでき、コンシューマーGPUでの実行可能性が大きく広がります
実務ベンチマークへの注力 — Terminal-Bench 2.0への公式エントリーは、汎用スコアから実務性能評価へのシフトを象徴しています
ローカルLLMの選択肢拡大 — Ollama・LM Studio・Jan等のツールで手軽に試せる環境が整っており、日本語でのコーディング支援やターミナル操作自動化への活用が期待されます

ツール名	特徴	対応OS	公式サイト
Ollama	CLIベース、APIサーバー機能、モデル管理が簡単	macOS / Linux / Windows	ollama.com
LM Studio	GUIで直感操作、GGUF対応、モデル検索内蔵	macOS / Windows / Linux	lmstudio.ai
Jan	オープンソース、ChatGPT風UI、OpenAI互換API	macOS / Windows / Linux	jan.ai

よくある質問

Q: Qwen3.6-35B-A3Bの「A3B」とは何を意味しますか？

「A3B」はActive 3B（アクティブパラメータ3B）の略です。MoE（Mixture of Experts）アーキテクチャにおいて、総パラメータ35Bのうち推論時に実際に活性化されるのは3B分のみであることを示しています。これにより軽量かつ高速な推論が可能になります。

Q: どのくらいのスペックのPCで動かせますか？

アクティブパラメータは3Bですが、MoEモデルはモデルファイル全体をメモリ/VRAMに読み込む必要があります。量子化（Q4_K_M等）を適用すればファイルサイズは圧縮されますが、具体的なVRAM要件はOllamaやLM Studioでの公式対応状況を確認してください。Apple Silicon搭載のMac（16GB以上のユニファイドメモリ）でも動作が期待されます。

Q: 日本語には対応していますか？

QwenシリーズはAlibaba Cloudが多言語対応を重視して開発しており、過去のバージョン（Qwen2.5、Qwen3等）で日本語の実用的な品質が確認されています。Qwen3.6でも日本語対応が継続されていると考えられますが、最新のベンチマーク結果は公式ドキュメントで確認することを推奨します。

Q: Terminal-Bench 2.0はどこで確認できますか？

Terminal-Bench 2.0のリーダーボードはプロジェクトの公式サイトで公開されています。「Terminal-Bench 2.0 leaderboard」で検索すると最新のスコアとランキングを確認できます。

Q: Qwen3-30B-A3Bとの違いは何ですか？

Qwen3-30B-A3Bは前バージョン（Qwen3）のMoEモデルで総パラメータ30B/アクティブ3B、Qwen3.6-35B-A3Bは新バージョン（Qwen3.6）で総パラメータ35B/アクティブ3Bです。総パラメータ数の増加によりExpert層の知識量が拡充されていると推測されますが、詳細なアーキテクチャの違いは公式の技術レポートを参照してください。

Qwen3.6-35B-A3B Terminal-Bench登場 3Bで35B級の衝撃