ターミナルベースのAIコーディングツール「OpenCode」とローカルLLM「Qwen3.6-35B-A3B」の組み合わせが、Claudeに匹敵するコーディング性能を発揮するとRedditで大きな話題に。MacBook Pro M5 Max上での実行報告を中心に、その実力と始め方を解説します。
- OpenCodeとQwen3.6-35B-A3Bの組み合わせがReddit r/LocalLLaMAでスコア561の大反響
- 8bit量子化・64kコンテキストでMacBook Pro M5 Max 128GBメモリ上でローカル動作
- MoE(Mixture of Experts)構造により35Bパラメータのうち実際に活性化するのは約3B、省メモリで高性能
OpenCodeとQwen3.6の組み合わせが話題に

2025年7月、Redditのr/LocalLLaMAコミュニティで「OpenCode」を使ったローカルLLMの実行報告が大きな反響を呼んでいます。投稿者はMacBook Pro M5 Max(128GB統合メモリ)上で、Qwen3.6-35B-A3Bモデルを8bit量子化・64kコンテキスト長で実行し、「Claudeと同等のコーディング体験が得られた」と報告。この投稿はスコア561を獲得し、ローカルLLMコミュニティで大きな注目を集めました。
OpenCodeとは
OpenCodeは、ターミナル上で動作するオープンソースのAIコーディングアシスタントです。Claude CodeやGitHub Copilot CLIのような商用ツールと似たコンセプトですが、ローカルLLMを含む多様なバックエンドに接続できる点が大きな特徴です。APIキーに依存せず、自分のマシンで完結するAIコーディング環境を構築できます。
Qwen3.6-35B-A3Bの特徴
Qwen3.6-35B-A3Bは、Alibaba Cloudが開発したQwenシリーズの最新モデルです。「35B-A3B」という名称が示すように、総パラメータ数は350億(35B)ですが、MoE(Mixture of Experts)アーキテクチャにより推論時に活性化するパラメータは約30億(3B)に抑えられています。これにより、フルサイズの35Bモデルと比較して大幅に少ないリソースで実行可能です。
OpenCodeの詳細分析:なぜClaude級と評価されたのか
コーディング性能の躍進
r/LocalLLAMAでは、Qwen3.6-35B-A3Bに関する複数の報告が寄せられています。スコア278を獲得した別の投稿では、「Qwen3.6-35B-A3BがQwen3.5-27Bでは解けなかったコーディング問題を解決した」と報告されており、前世代からの明確な性能向上が確認されています。
OpenCodeを経由してこのモデルを利用する最大のメリットは、ツール呼び出し(tool use)やファイル操作などのエージェント機能をローカル環境で実現できる点です。Claude Codeではクラウド上のClaude APIを利用しますが、OpenCodeならローカルで動くLLMに対して同様のワークフローを適用できます。
ハードウェア要件と実行環境
今回の報告で使用されたのはMacBook Pro M5 Max(128GB統合メモリ)です。Apple Silicon搭載MacはCPUとGPUが統合メモリを共有するため、ディスクリートGPUのVRAM制限を受けずに大きなモデルを展開できます。8bit量子化の35Bモデルであれば約35〜40GB程度のメモリを使用すると想定され、128GBメモリなら64kコンテキスト長を確保しても十分余裕があります。
量子化の選択肢
LM Studioでの実行報告(スコア6)では「qwen3.6-35b-a3bのレスポンスが最高レベル」との評価が寄せられています。また、Q5_K_S vs Q4_K_XLの量子化比較に関する投稿もあり、コミュニティでは最適な量子化設定についての議論が活発に行われています。
Qwen3.6-35B-A3Bの量子化比較
| 量子化方式 | 推定モデルサイズ | 品質傾向 | 推奨用途 |
|---|---|---|---|
| 8bit(Q8_0) | 約35GB前後 | 最高品質(元モデルに近い) | 128GB以上のメモリがある環境 |
| Q5_K_S | 約25GB前後 | 高品質 | 64GB以上のメモリ環境 |
| Q4_K_XL | 約20GB前後 | 良好(軽量とのバランス) | 32〜64GBのメモリ環境 |
※サイズは推定値です。正確な数値はUnsloth等の配布元リポジトリで確認してください。
日本での活用ポイント
日本語対応状況
QwenシリーズはAlibaba Cloud開発のため、中国語・英語に加え日本語にも対応しています。Qwenの過去モデルでも日本語の理解・生成能力は比較的高い評価を受けており、Qwen3.6世代でも日本語でのコーディング指示やコメント生成が期待できます。ただし、具体的な日本語ベンチマーク結果については公式ドキュメントを参照してください。
国内でのハードウェア入手性
今回の報告に使われたMacBook Pro M5 Max 128GBモデルは日本のApple Storeでも購入可能です。Apple Siliconの統合メモリアーキテクチャは、ローカルLLM実行において大きなアドバンテージとなります。64GBモデルでも量子化設定を下げれば十分に動作する可能性があります。
クラウドAPI費用の削減
Claude CodeなどのAPIベースツールは従量課金制で、業務利用するとコストが積み上がります。OpenCodeとローカルLLMの組み合わせなら、初期のハードウェア投資以降は追加費用なしで利用でき、日本の開発現場でもコスト削減とプライバシー保護の両立が可能です。
実践:始め方
OpenCodeとQwen3.6-35B-A3Bをローカルで動かすまでの基本ステップを紹介します。
ステップ1:推論エンジンの導入
まず、ローカルLLMの推論エンジンをインストールします。代表的な選択肢は以下の通りです。
- Ollama:CLIベースでシンプル。OpenAI互換APIを自動で提供
- LM Studio:GUIでモデル管理が容易。初心者にもおすすめ
- Jan:オープンソースのデスクトップアプリ。チャットUIとAPI提供を両立
ステップ2:モデルのダウンロード
Unslothが公開しているQwen3.6-35B-A3Bの量子化版(GGUF形式)をダウンロードします。Ollamaの場合はコマンド一発で取得可能です:
ollama pull qwen3.6-35b-a3b
※モデル名は提供状況により異なる場合があります。公式サイトで最新の利用可能モデルを確認してください。
ステップ3:OpenCodeのインストール
OpenCodeはGoベースのCLIツールです。GitHubリポジトリからインストールします:
go install github.com/opencode-ai/opencode@latest
ステップ4:OpenCodeの設定
OpenCodeの設定ファイルで、ローカルのLLMサーバー(Ollamaの場合は通常 http://localhost:11434)をエンドポイントとして指定し、コンテキスト長を64kに設定します。
ステップ5:実行・検証
ターミナルでOpenCodeを起動し、コーディングタスクを指示してみましょう。ファイルの読み書きやコード生成が正常に動作するか確認します。
💡 pikl編集部の視点
OpenCodeとQwen3.6-35B-A3Bの組み合わせが注目を集める背景には、ローカルLLMの実用化における重要な転換点があると考えます。これまでローカル環境でのコーディング支援は、クラウド型のClaude CodeやGitHub Copilotと比べて性能面での差が顕著でした。しかしMoEアーキテクチャにより推論時のメモリ負荷を大幅に削減しながら、同等レベルのコーディング性能を実現できたことは、エンタープライズ環境における採用障壁を大きく低下させる可能性があります。特に情報セキュリティやコンプライアンスの理由からローカル運用を求める企業にとって、この動向は極めて重要です。
日本市場への影響を考えると、金融機関や製造業などの規制産業でのAIコーディング導入が加速する可能性に注目しています。APIキー管理の複雑さやデータ流出リスクを排除できるOpenCodeのアプローチは、日本企業の慎重なIT文化とも親和性が高いと考えます。ただし実装段階では、Qwen3.6の日本語コーディング能力やドキュメント整備、サポート体制の充実が課題となる見通しです。
まとめ
- OpenCode × Qwen3.6-35B-A3Bはローカルコーディングの新たな選択肢。API不要・追加費用なしで、Claude Code的なエージェント型コーディング体験が得られる可能性が示されました。
- MoEアーキテクチャが鍵。35Bパラメータ・活性化3Bの構造により、Apple Silicon搭載Macなど比較的手の届くハードウェアで高性能な推論が実現できます。
- 量子化・コンテキスト長の最適化が重要。8bit量子化と64kコンテキストの組み合わせが高評価を得ていますが、メモリ容量に応じてQ5やQ4も有力な選択肢です。
関連ツール
| ツール名 | 種別 | 特徴 | 公式サイト |
|---|---|---|---|
| Ollama | 推論エンジン(CLI) | コマンド一発でモデル取得・実行。OpenAI互換API対応 | ollama.com |
| LM Studio | 推論エンジン(GUI) | GUIでモデル管理・チャット。GGUFモデルに対応 | lmstudio.ai |
| Jan | チャットUI+API | オープンソース。ローカル実行とOpenAI互換APIを提供 | jan.ai |
よくある質問
Q: OpenCodeは無料で使えますか?
OpenCodeはオープンソースで公開されており、無料で利用可能です。ローカルLLMと組み合わせればAPI費用もかかりません。詳細はGitHubリポジトリを確認してください。
Q: Qwen3.6-35B-A3Bを動かすには最低どのくらいのメモリが必要ですか?
量子化方式によりますが、Q4_K_XLなら約20GB前後、8bitなら約35GB前後のメモリが目安です。コンテキスト長を伸ばすほど追加のメモリが必要になるため、快適に使うには64GB以上の統合メモリを搭載したApple Silicon Macが推奨されます。
Q: OpenCodeは日本語で指示できますか?
OpenCode自体は言語を問わず入力を受け付けます。バックエンドのLLM(Qwen3.6など)が日本語に対応していれば、日本語での指示やコード内コメントの日本語生成も可能です。
Q: NVIDIA GPUでも動かせますか?
はい。OllamaやLM StudioはNVIDIA GPU(CUDA)にも対応しています。VRAMが24GB以上あれば、Q4量子化で十分に動作が期待できます。複数GPUでの分割推論もサポートされている場合があります。
Q: Claude Codeと比べた場合のデメリットは?
ローカル実行のため、初期セットアップにある程度の技術知識が必要です。また、モデルのアップデートは手動で行う必要があります。一方、プライバシー保護やランニングコストゼロという明確なメリットもあります。


