Qwen3.5 Native MTP保持版が登場!785個のMTPを完全保持

Qwen3.5 35B A3Bの検閲解除・MTP完全保持版がリリースされました。785個のMulti-Token Prediction(MTP)ヘッドをすべて保持した状態で、Safetensors・GGUF・NVFP4・GPTQ-Int4など多様なフォーマットで公開。ローカルLLM界隈で大きな注目を集めています。

📰 ソース:Reddit r/LocalLLaMA

📌 この記事のポイント

  • Qwen3.5 35B A3B(MoEモデル)の検閲解除版が、785個のMTPヘッドを完全保持した状態でリリース
  • 27Bモデル(15MTP保持版)もあわせて公開、用途やVRAMに応じた選択肢が広がる
  • GGUF・NVFP4・GPTQ-Int4など複数の量子化フォーマットに対応し、ローカル実行のハードルが低下

Qwen3.5 Native MTP保持版とは何か

青紫グラデーションの未来技術アート

2025年7月、Reddit r/LocalLLaMAコミュニティにてスコア330を獲得した投稿が大きな話題になっています。Alibaba Cloudが開発したQwen3.5シリーズの35Bパラメータ・MoE(Mixture of Experts)モデルについて、「uncensored heretic」と銘打った検閲解除版が、ネイティブのMulti-Token Prediction(MTP)ヘッドをすべて保持したまま公開されたというものです。

MTP(Multi-Token Prediction)の重要性

通常のLLMは1トークンずつ予測を行いますが、MTPは一度に複数トークンを予測する仕組みです。これにより推論速度が大幅に向上する可能性があります。Qwen3.5 35B A3Bモデルには785個のMTPヘッドが搭載されていますが、量子化やファインチューニングの過程でこれらが失われるケースが多くありました。今回のリリースでは、これらを「完全に保持・保全」している点が最大の特徴です。

「uncensored heretic」とは

「heretic(異端者)」はローカルLLMコミュニティで使われる検閲解除ファインチューンの名称です。商用APIモデルに施されている出力制限を解除し、ユーザーが自由にモデルの能力を活用できるようにしたものを指します。制約のないモデルをローカルで動かしたいというニーズに応えるものです。

Qwen3.5 Nativeの詳細分析:MTPとは何が違うのか

35B A3Bモデルの構造

Qwen3.5 35B A3Bは、総パラメータ数35B(350億)のMoEモデルで、推論時にアクティブになるパラメータはおよそ3B(30億)です。この「A3B」の表記はActive 3 Billionを意味し、巨大な知識容量を持ちながら、実際の計算コストは3Bモデル並みに抑えられるという利点があります。

785個のMTPヘッドが保持されていることの意義は大きく、MTP対応の推論エンジン(vLLMやllama.cppのMTP対応ビルドなど)を使用することで、speculative decodingと同様の速度向上効果が期待できます。MTPヘッドが失われた量子化モデルでは、この高速化の恩恵を受けられません。

27Bモデルも同時リリース

r/LocalLLaMAでスコア57を獲得した別の投稿によれば、Qwen3.5 27Bモデル(非MoE、密なアーキテクチャ)の検閲解除版も、15個のMTPヘッドを完全保持した状態で公開されています。35B A3Bの785MTPと比べると数は少ないですが、これは元のモデルアーキテクチャにおけるMTPヘッド数の違いによるものです。

対応フォーマット

今回のリリースは多数のフォーマットをカバーしています:

  • Safetensors:フル精度での利用、ファインチューニングのベースに最適
  • GGUF:llama.cpp系ツール(Ollama、LM Studio、Jan等)で利用可能
  • NVFP4:NVIDIA GPU向け4bit浮動小数点量子化
  • NVFP4 GGUF:NVFP4のGGUFフォーマット版
  • GPTQ-Int4:GPU推論向けの4bit整数量子化

モデルバリエーション比較

項目 Qwen3.5 35B A3B Qwen3.5 27B
アーキテクチャ MoE(Mixture of Experts) Dense(密)
総パラメータ数 約35B 約27B
アクティブパラメータ 約3B 約27B(全パラメータ)
MTPヘッド数(保持済み) 785個 15個
VRAM目安(GGUF Q4) 比較的少量(公式ドキュメントで要確認) 16〜20GB程度(公式ドキュメントで要確認)
推論速度の優位性 MoE + 大量MTPで高速化が期待 密モデルの安定した品質
対応フォーマット Safetensors, GGUF, NVFP4, GPTQ-Int4 Safetensors, GGUF, NVFP4, GPTQ-Int4

実践:ローカルで動かす方法

Qwen3.5 Native MTP保持版をローカル環境で試すための基本的な手順を紹介します。

ステップ1:環境の確認

GGUF形式で利用する場合、最低でも8GB以上のVRAMを持つGPU、またはCPU推論であれば16GB以上のRAMが推奨されます。MoE版(35B A3B)はアクティブパラメータが3Bのため、27Bモデルより少ないリソースで動作する可能性があります。正確な必要VRAM量は、使用する量子化レベルに応じて公式リポジトリを確認してください。

ステップ2:ツールの選択

以下のツールがGGUFモデルの実行に対応しています:

  • Ollama:CLIベースでシンプルに動かしたい場合に最適。モデルのインポートが容易
  • LM Studio:GUIで直感的に操作したい場合。GGUF検索・ダウンロード機能内蔵
  • Jan:オープンソースのChatGPT風UI。ローカルモデルの管理が便利

ステップ3:モデルのダウンロード

Hugging Faceのリポジトリから、目的に合った量子化フォーマットのファイルをダウンロードします。VRAM節約を優先するならQ4_K_MやQ5_K_M、品質重視ならQ8_0を選択するのが一般的です。

ステップ4:Ollamaでの実行例

# GGUFファイルからModelfileを作成
echo 'FROM ./qwen3.5-35b-a3b-heretic.Q4_K_M.gguf' > Modelfile

# Ollamaにモデルを登録
ollama create qwen35-heretic -f Modelfile

# 実行
ollama run qwen35-heretic

ステップ5:MTP対応推論の確認

MTPヘッドの恩恵を最大限に受けるには、MTP対応の推論エンジンを使用する必要があります。llama.cppの最新ビルドやvLLMがMTPをサポートしているか、各プロジェクトのリリースノートを確認してください。MTP非対応の推論エンジンでもモデル自体は動作しますが、速度向上の効果は得られません。

🇯🇵 日本での活用ポイント

日本語対応と実用シナリオ

Qwen3.5シリーズはAlibaba Cloud(阿里雲)が開発しており、中国語・英語に加えて日本語を含む多言語に対応しています。Qwenシリーズは過去のバージョンから日本語の処理能力が比較的高いことで知られており、日本語での文章生成、要約、コード生成などの用途に活用できます。ただし、検閲解除版(heretic)の日本語品質については、元のファインチューニングが主に英語データで行われている可能性があるため、実際に試して確認することをお勧めします。

ビジネスでの具体的な活用シーン

  • 社内ドキュメントの分析・要約:機密情報を外部APIに送信せず、ローカルで処理できるため、日本企業の情報セキュリティポリシーに適合しやすい
  • コーディング支援:35B A3BモデルはMoEアーキテクチャにより、比較的少ないVRAMで大規模モデルの知識量を活用したコード生成が可能
  • チャットボットのプロトタイプ開発:検閲解除版は出力制限がないため、カスタマーサポート用途のチューニングベースとして柔軟に利用できる
  • 創作支援:小説や脚本など、制限なしの自由な文章生成が求められるクリエイティブ用途

日本のローカルLLM環境との相性

日本でローカルLLMを運用する場合、NVIDIA RTX 4090(24GB VRAM)やRTX 3090が主要なハードウェアとなります。Qwen3.5 35B A3BはMoEモデルのため、アクティブパラメータが約3Bと軽量であり、Q4量子化を使用すれば24GB VRAM環境でも十分に動作する可能性が高いです。コストパフォーマンスの観点から、日本の個人開発者や小規模チームにとって魅力的な選択肢と言えます。

なお、検閲解除モデルの利用にあたっては、生成されるコンテンツの責任はユーザー側にあります。特に商用利用の場合、Qwen3.5のライセンス条件を公式リポジトリで確認してください。

💡 pikl編集部の視点

今回のリリースで最も注目すべきは、「MTPヘッドの完全保持」が一つの価値として明確に認識され始めている点だと考えます。これまでのローカルLLMコミュニティでは、量子化時のビット数やモデルサイズの議論が中心でしたが、「推論速度を左右するアーキテクチャ要素をどこまで保持できるか」という新たな評価軸が生まれつつあります。r/LocalLLaMAでスコア330を獲得した事実は、コミュニティがこの観点を高く評価していることを示しています。

また、MoEモデルとMTPの組み合わせは、ローカルLLMの実用性を一段階引き上げる可能性を持っていると考えます。35Bの知識容量を持ちながらアクティブ3Bの計算コストで動作し、さらに785個のMTPヘッドによる推論高速化が加わるという構成は、消費者向けGPU(RTX 4070〜4090クラス)で「実用的な速度で賢いモデルを動かす」という目標に大きく近づくものです。類似のMoEモデルであるMixtralやDeepSeek系と比較しても、MTPヘッドの数(785個)は突出しており、MTP対応推論エンジンの成熟とともに速度面での優位性が顕著になるでしょう。

日本市場にとっての意味として、pikl編集部はQwenシリーズのCJK言語処理能力の高さに注目しています。MetaのLlamaシリーズやGoogleのGemmaと比較して、Qwenは中国語ベースのトレーニングデータの豊富さから、漢字文化圏の言語処理において一定の強みを持つと考えます。ただし「uncensored heretic」版はファインチューニングにより元のモデルから挙動が変化している可能性があるため、日本語タスクでの品質は個別に検証する必要があります。MTPヘッドの恩恵を受けるには推論エンジン側の対応も必要なため、現時点ではllama.cppやvLLMのMTPサポート状況を確認した上で導入を判断することを推奨します。

まとめ

  • MTP完全保持が新たな価値基準に:Qwen3.5 35B A3Bの785個のMTPヘッドをすべて保持した検閲解除版がリリースされ、量子化モデルの品質評価に「MTP保持」という新しい軸が加わった
  • MoE + MTPによる実用性の向上:アクティブ3Bの軽量さと35Bの知識容量、そしてMTPによる推論高速化の組み合わせにより、消費者向けGPUでの実用的なローカルLLM運用が現実的になりつつある
  • 多様なフォーマット対応:Safetensors・GGUF・NVFP4・GPTQ-Int4と幅広いフォーマットで公開されており、Ollama・LM Studio・Janなど主要ツールですぐに試せる環境が整っている

関連ツール

ツール名 特徴 対応OS 公式サイト
Ollama CLIベースで軽量・高速。GGUFモデルのインポートが簡単 macOS, Linux, Windows ollama.com
LM Studio GUI操作でモデル検索〜実行まで完結。初心者向け macOS, Linux, Windows lmstudio.ai
Jan オープンソースのChatGPT風UI。ローカルモデル管理に強み macOS, Linux, Windows jan.ai

よくある質問

Q: MTP(Multi-Token Prediction)とは何ですか?

MTPは、一度に複数のトークンを予測する仕組みです。通常のLLMが1トークンずつ順番に生成するのに対し、MTPヘッドを活用することで推論速度の向上が期待できます。ただし、MTPの恩恵を受けるには推論エンジン側がMTPに対応している必要があります。

Q: Qwen3.5 35B A3Bを動かすのに必要なスペックは?

MoEアーキテクチャでアクティブパラメータが約3Bのため、Q4量子化のGGUFであれば8〜16GB程度のVRAMで動作する可能性があります。正確な必要スペックは使用する量子化レベルとコンテキスト長に依存するため、公式リポジトリのドキュメントを確認してください。

Q: 検閲解除(uncensored)版は安全に使えますか?

検閲解除版はモデルの出力制限が解除されているため、不適切なコンテンツが生成される可能性があります。生成内容の責任はユーザーにあります。業務利用の場合は、出力フィルタリングの仕組みを別途実装することを推奨します。

Q: Qwen3.5は日本語に対応していますか?

Qwen3.5シリーズは多言語対応モデルであり、日本語の処理にも対応しています。ただし、検閲解除版のファインチューニングが日本語品質にどの程度影響するかは、実際に試して確認することをお勧めします。

Q: 785個のMTPヘッドと15個のMTPヘッドの違いは?

35B A3B(MoE)モデルには785個、27B(Dense)モデルには15個のMTPヘッドが元のアーキテクチャとして搭載されています。MTPヘッド数が多いほど、MTP対応推論エンジン使用時の速度向上効果が大きくなる可能性があります。この違いはモデル設計上のものであり、どちらも「完全保持」されています。

← 前の記事
PrismML Binaryが革命的—1bitでブラウザ画像生成

コメントする