Qwen3.6-27B-INT4がRTX 5090一枚で100トークン/秒を記録。256Kコンテキスト対応のローカルLLMが、ついに実用的な速度域に到達した。
📰 ソース:Reddit r/LocalLLaMA
- Qwen3.6-27B-INT4がRTX 5090×1枚・vLLM 0.19環境で100トークン/秒(tps)を達成
- 256Kトークンのコンテキスト長をサポートし、長文処理もローカルで現実的に
- INT4量子化により27Bパラメータモデルが約16GB程度のVRAMで動作可能に
Qwen3.6-27B-INT4が示すローカルLLMの新基準

Reddit r/LocalLLaMAコミュニティにて、Qwen3.6-27B-INT4をNVIDIA RTX 5090一枚で動作させ、vLLM 0.19を使って100トークン/秒(tps)の生成速度を達成したという報告が大きな注目を集めています(スコア199)。しかも256Kトークンのコンテキスト長に対応しており、API経由のクラウドサービスに依存せずとも、ローカル環境で高速かつ長文対応のLLM推論が可能になりつつあることを示しています。
なぜこの数値がインパクトを持つのか
100tpsという速度は、人間がテキストを読む速度をはるかに超えています。リアルタイムのチャット応答はもちろん、バッチ的なテキスト生成やRAG(検索拡張生成)パイプラインへの組み込みでも実用に耐える水準です。これがクラウドAPIではなく、手元のGPU一枚で達成されたことが、ローカルLLMコミュニティを沸かせている理由です。
Qwen3.6とは
Qwen3.6は、Alibaba Cloudのチームが開発するQwenファミリーの最新世代モデルです。27Bパラメータモデルは、コーディング、推論、多言語対応など幅広い能力を備えており、オープンウェイトで公開されています。INT4量子化版は、フルの精度を多少犠牲にしながらも、メモリ使用量を大幅に削減し、コンシューマGPUでの動作を現実的にするものです。
Qwen3.6-27B-INT4の性能を深掘りする
ハードウェア要件とベンチマーク構成
今回のReddit投稿で使用されたハードウェアはNVIDIA RTX 5090(32GB VRAM)です。推論エンジンにはvLLM 0.19が採用されており、このバージョンではBlackwellアーキテクチャ向けの最適化が含まれていると考えられます。
| 項目 | スペック・数値 |
|---|---|
| モデル | Qwen3.6-27B-INT4 |
| パラメータ数 | 約270億(27B) |
| 量子化 | INT4(4ビット整数) |
| コンテキスト長 | 256K トークン |
| 推論速度 | 約100 tps |
| GPU | NVIDIA RTX 5090(32GB VRAM)×1 |
| 推論エンジン | vLLM 0.19 |
INT4量子化の意味
27Bパラメータのモデルをフル精度(FP16)で動かすには約54GBのVRAMが必要ですが、INT4量子化によりおおよそ16GB前後まで圧縮できます。RTX 5090の32GB VRAMなら、モデル本体を載せた上でKVキャッシュ用のメモリも十分確保でき、256Kトークンという長大なコンテキストにも対応できる計算になります。
vLLM 0.19の役割
vLLMはPagedAttentionなどの技術でGPUメモリの効率的な管理を実現する推論エンジンです。バージョン0.19ではRTX 50シリーズ(Blackwell世代)への最適化が進められており、今回の高速動作の鍵を握っていると見られます。vLLMはOpenAI互換APIサーバーとしても機能するため、既存のアプリケーションとの統合も容易です。
類似構成との比較
| モデル / 構成 | パラメータ | 必要VRAM目安 | 速度感 |
|---|---|---|---|
| Qwen3.6-27B-INT4 (vLLM/5090) | 27B | ~16GB + KVキャッシュ | ~100 tps |
| Llama 3.1-8B-Q4 (一般的なGPU) | 8B | ~6GB | パラメータ数が小さく高速だが能力は限定的 |
| Qwen2.5-72B-INT4 (マルチGPU) | 72B | ~40GB以上 | 複数GPU必要、速度はGPU構成に依存 |
※速度の数値はReddit投稿に基づくものであり、再現には同一のハードウェア・ソフトウェア環境が必要です。他モデルの速度は環境により大きく異なるため、直接比較する場合は公式ベンチマークを参照してください。
実践:ローカルで動かす3つの方法
Qwen3.6-27B-INT4をローカルで試す方法はいくつかあります。技術レベルに応じて選択してください。
方法1:vLLM(上級者向け・最高性能)
今回のベンチマーク結果を再現するにはvLLMが最適です。Python環境とCUDA対応GPUが必要です。
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.6-27B-INT4 \
--max-model-len 262144 \
--gpu-memory-utilization 0.95
※具体的なオプションはvLLMの公式ドキュメントおよびモデルカードで確認してください。バージョンによって引数が変わる場合があります。
方法2:Ollama(初心者〜中級者向け・手軽さ重視)
Ollamaはワンコマンドでモデルのダウンロードから起動まで完結するツールです。GGUFフォーマットの量子化モデルに対応しており、Qwen3.6系のモデルがOllamaのライブラリに登録されていれば、以下のように起動できます。
ollama run qwen3.6:27b
※モデル名はOllama公式のモデルライブラリで最新の対応状況を確認してください。
方法3:LM Studio / Jan(GUI派向け)
LM StudioやJanはGUIベースのローカルLLM実行環境です。Hugging Faceからモデルを検索・ダウンロードし、設定画面からパラメータを調整して起動できます。コマンドラインに不慣れな方にはこちらがおすすめです。
- LM Studio:モデル検索機能が充実。GGUF形式に対応しており、Qwenシリーズも利用可能
- Jan:オープンソースのチャットUI。プラグイン拡張が可能で、ローカルモデルとクラウドAPIの切り替えも容易
🇯🇵 日本での活用ポイント
日本語性能への期待
Qwenファミリーはもともと多言語対応に力を入れており、特に中国語・英語・日本語のサポートに定評があります。Qwen2.5世代でも日本語での自然な応答生成やコーディング支援が確認されており、Qwen3.6ではさらなる改善が期待できます。ただし、INT4量子化による日本語品質への影響については、実際に試して確認することをおすすめします。公式のベンチマークでは英語・中国語中心の評価が多いため、日本語固有のタスク(敬語の使い分け、ビジネス文書生成など)はご自身の用途でテストするのが確実です。
日本企業でのユースケース
- 社内文書のAI処理:256Kトークンのコンテキスト長は、日本語の長文ドキュメント(議事録、契約書、マニュアルなど)をまるごと入力して要約・分析できる水準です。社外のクラウドAPIにデータを送信できないケースでも、ローカル実行なら情報漏洩リスクを低減できます
- コーディング支援:Qwenシリーズはコーディングベンチマークでも高い評価を得ており、社内のコード補完やレビュー支援に活用できます
- カスタマーサポートの自動化:100tpsの応答速度であれば、リアルタイムチャットのバックエンドとしても十分な速度です
コストに関する現実的な考慮
RTX 5090は2025年初頭の発売時点で約40万円前後(日本国内価格は販売店により異なります)と、個人にとっては大きな投資です。しかし、企業がOpenAIやAnthropicのAPIを月額数十万円規模で利用しているケースと比較すると、長期運用では十分にペイする可能性があります。特にデータのオンプレミス処理が求められる業界(金融、医療、法務など)では、ローカル実行のコスト優位性は高いでしょう。
RTX 4090やそれ以下のGPUでは?
RTX 4090(24GB VRAM)でもQwen3.6-27B-INT4の動作自体は可能ですが、256Kのフルコンテキスト長は利用できない可能性が高く、速度も100tpsには及ばないと考えられます。RTX 3090/4070 Ti Superなどの16GB VRAM環境では、より短いコンテキスト長に制限するか、より小さいモデル(7B〜14Bクラス)を選択する必要があるでしょう。
💡 pikl編集部の視点
pikl編集部は、今回の報告が示す最大のインパクトは「27Bクラスのモデルが、ついにコンシューマGPU一枚で”APIと遜色ない体験”を提供できるようになった」という点にあると考えます。これまでローカルLLMは、速度面でクラウドAPIに大きく劣るか、品質面で妥協するかの二択を迫られてきました。しかし100tps × 256Kコンテキスト × 27Bパラメータという組み合わせは、GPT-4クラスのクラウドAPIをメインで使っていたユーザーにも「ローカルで十分かもしれない」と思わせるだけのスペックです。
もう一つ注目すべきは、このパフォーマンスがvLLMという推論エンジンの最適化に大きく依存している点です。同じモデル・同じGPUでも、llama.cppやTransformersライブラリで直接動かした場合はここまでの速度は出ないはずです。つまり、今後のローカルLLMのパフォーマンスは「モデルの品質」と「推論エンジンの最適化」の掛け算で決まるフェーズに入ったと考えます。ユーザーはモデル選びだけでなく、推論エンジンの選定と設定チューニングにも注力する必要があるでしょう。
日本の開発者コミュニティへの影響として、pikl編集部はローカルLLMの「業務利用の本格化」が加速すると見ています。これまで「ローカルLLMは趣味の範囲」と見なされがちでしたが、27Bパラメータモデルが100tpsで動くとなれば、スタートアップや中小企業がAPI課金なしでAI機能を製品に組み込む選択肢が現実味を帯びます。特に日本では個人情報保護法の改正やデータローカライゼーションへの関心が高まっており、「データを外に出さずにAI処理を完結させる」需要は今後さらに増えるでしょう。Qwenシリーズの日本語品質が実用水準であれば、この流れの中核技術になる可能性があると考えます。
まとめ
- 圧倒的なスペック:Qwen3.6-27B-INT4はRTX 5090一枚で100tps・256Kコンテキスト長を実現し、ローカルLLMの性能水準を一段引き上げた
- 推論エンジンの重要性:vLLM 0.19の最適化が今回の結果の鍵であり、モデル選びと同じくらい推論環境の選定が重要になっている
- 実用フェーズへの移行:ローカルLLMが「趣味」から「業務利用」へ本格移行する転換点となりうる。特にデータをオンプレミスで処理したい日本企業にとって、有力な選択肢となる
関連ツール
| ツール名 | 特徴 | 対象ユーザー | 料金 |
|---|---|---|---|
| vLLM | 高速推論エンジン。OpenAI互換APIサーバー機能。PagedAttention対応 | 上級者・本番環境 | 無料(OSS) |
| Ollama | ワンコマンドでモデル実行。Mac/Linux/Windows対応 | 初心者〜中級者 | 無料(OSS) |
| LM Studio | GUIでモデル管理・チャット。HuggingFace連携 | GUI派・初心者 | 無料(個人利用) |
| Jan | オープンソースのChatGPT風UI。プラグイン拡張可能 | GUI派・カスタマイズ志向 | 無料(OSS) |
よくある質問
Q: Qwen3.6-27B-INT4を動かすのに最低限必要なGPUは?
INT4量子化モデルのため、モデル本体には約16GBのVRAMが必要です。RTX 4090(24GB)やRTX 5090(32GB)が推奨されます。RTX 3090(24GB)でも動作する可能性がありますが、256Kフルコンテキストの利用や100tpsの速度はRTX 5090+vLLM環境に依存する結果です。詳細はモデルのHugging Faceページを確認してください。
Q: Qwen3.6-27B-INT4は日本語に対応していますか?
Qwenファミリーは多言語対応モデルであり、日本語も対応言語に含まれています。ただし、INT4量子化による日本語品質への影響は公式に詳しく検証されていない可能性があるため、実際の用途でテストすることをおすすめします。
Q: vLLM以外でも100tpsは出ますか?
今回の100tpsという数値はvLLM 0.19 + RTX 5090の組み合わせで報告されたものです。llama.cppやTransformersなど他の推論エンジンでは異なる結果になる可能性が高いです。推論エンジンの最適化が速度に大きく影響するため、最高性能を求める場合はvLLMの利用が推奨されます。
Q: OllamaやLM Studioでも同じモデルを使えますか?
OllamaやLM Studioでも量子化されたQwen3.6モデルを利用できる可能性がありますが、対応フォーマット(GGUFなど)や量子化方式が異なる場合があります。各ツールの公式サイト・モデルライブラリで最新の対応状況を確認してください。
Q: 256Kコンテキスト長で何ができますか?
256Kトークンは日本語で約12万〜19万文字に相当します(トークナイザーにより変動)。書籍一冊分のテキストや、大量の社内ドキュメントを一度に入力して要約・分析・質問応答を行うことが可能です。RAG(検索拡張生成)のチャンク数を増やしたい場合にも有利です。


