Qwen3をローカルで動かす方法 - AI愛好家のための実践ガイド

約8分

Qwen3をローカルで動かす方法 - AI愛好家のための実践ガイド

先月、AlibabaのQwen3モデルがリリースされたと聞いて、すぐに触ってみたくなりました。素晴らしいベンチマーク結果や機能を眺めているうちに、多くの人が直面するあの疑問が浮かびました。「クラウドAPIを使うべきか、それともローカルで動かしてみるべきか？」

クラウドAPIは便利ですが、プライバシーの懸念、利用コスト、そして単純に挑戦として、自分のハードウェアでQwen3を動かす旅に出ることにしました。数週間の試行錯誤、無数の設定調整、GPUファンのパニックに見舞われた瞬間を経て、学んだことをまとめたこの包括的なガイドを作成しました。

データのプライバシーを守りたい、APIコストを抑えたい、モデルをカスタマイズしたい、あるいは最先端のAIを自分のマシンで動かす満足感を味わいたい方に、このガイドは役立つはずです。

Qwen3とは何か？

インストール手順に入る前に、まず何を扱っているのか理解しましょう。Qwen3（「クウェン」と発音）は、Qwenチームによる第3世代の大規模言語モデルで、2025年4月にリリースされました。軽量な0.6Bパラメータモデルから巨大な235Bパラメータモデルまで、さまざまなサイズがあります。

Qwen3の特に興味深い点は、二重のアーキテクチャアプローチです：

Denseモデル： 0.6Bから32Bパラメータまで、推論時に全パラメータがアクティブになります：

Qwen3-0.6B、1.7B、4B（32Kコンテキストウィンドウ）
Qwen3-8B、14B、32B（128Kコンテキストウィンドウ）

Mixture-of-Experts（MoE）モデル： 計算効率のためにスパースアーキテクチャを活用：

Qwen3-30B-A3B：総パラメータ30Bだが推論時には約3Bのみアクティブ
Qwen3-235B-A22B：235Bパラメータの巨人で、推論時には約22Bがアクティブ

MoEモデル名の「A」は「Active（アクティブ）」パラメータを意味します。これは賢いアプローチで、すべてを知っている一人の人を雇うのではなく（高コスト！）、専門家チームを持ち、タスクごとに最も関連性の高い専門家だけを呼び出すイメージです。これにより、パラメータ数に比べてはるかに効率的に動作します。

Qwen3の特徴の一つはハイブリッド思考能力で、内部でステップバイステップの推論（思考モード）を行うか、直接的な回答（非思考モード）を提供するかを切り替えられ、深い推論と高速応答のバランスを実現しています。

なぜQwen3をローカルで動かすのか？

クラウドAPIがあるのに、なぜローカルで動かすのか疑問に思うかもしれません。私が納得した理由は以下の通りです：

データプライバシー： すべてが自分のマシン内に留まり、データが外部に出ません。
コスト管理： 予期せぬ請求やトークンクォータなし。初期のハードウェア費用と電気代だけ。
オフライン対応： モデルを一度ダウンロードすれば、インターネット不要。
カスタマイズ自由度： 自分のデータでモデルをファインチューニング可能。
学習体験： 高度なAIシステムを自分のハードウェアで動かす満足感は格別。
低レイテンシ： ネットワーク往復がなく高速応答。

特にプライバシー面が大きな価値でした。機密データを外部サーバーに送る心配なく解析できるのは解放感があります。

ハードウェア要件 - 必要なもの

正直に言うと、特に大きなモデルをローカルで動かすのは簡単ではありません。どのモデルを動かすかで必要なハードウェアは大きく変わります。

モデル別の必要スペックは以下の通りです：

RAM要件

小型モデル（0.6B、1.7B）： 最低8GB、推奨16GB
中型モデル（4B、8B）： 最低16GB、推奨32GB
大型モデル（14B、32B）： 最低32GB、推奨64GB
MoEモデル（30B-A3B、235B-A22B）： 64GB以上、特に235Bは多めに

GPU/VRAM要件

ここが本番です。GPUメモリ（VRAM）がボトルネックになることが多いです：

Qwen3-0.6B： 2GB以上のVRAMで動作可能（古いGTX 1060でもOK）
Qwen3-1.7B： 4GB以上（GTX 1070以上推奨）
Qwen3-4B： 8GB以上（RTX 3060以上）
Qwen3-8B： 16GB以上（RTX 3090、4080、A4000など）
Qwen3-14B： 24GB以上（RTX 4090、A5000など）
Qwen3-32B： 40GB以上（A100や複数GPU）
Qwen3-30B-A3B： アクティブパラメータは少なくても24GB以上必要
Qwen3-235B-A22B： 複数のハイエンドGPU（例：A100 80GB×2以上、A6000×4以上）

朗報としては、量子化（Quantization）でこれらの要件を大幅に下げられます。例えば4ビット量子化を使えば、6GBのGPUでもQwen3-8Bが動く可能性がありますが、性能は多少犠牲になります。

実例として、最初にRTX 3080（10GB VRAM）でQwen3-14Bを動かそうとして「CUDA out of memory」エラーに直面しました。4ビット量子化を適用して動かせましたが、応答は遅めでした。その後RTX 4090（24GB VRAM）にアップグレードし、8ビット量子化で14Bモデルを快適に動かせています。

CPUのみでの動作は？

技術的には小型モデル（0.6B、場合によっては1.7B）ならCPUのみでも動かせますが…奇跡は期待しないでください。私がCore i7でQwen3-0.6BをGPUなしで動かしたところ、簡単な段落生成に約45秒かかりました。リアルタイム会話には程遠いです。

ストレージ要件

ディスク容量も忘れずに：

小型モデル： 2〜5GB/モデル
中型モデル： 8〜16GB/モデル
大型モデル： 30〜60GB/モデル
MoEモデル： 60〜120GB以上

SSD推奨です。HDDだとモデルのロードに非常に時間がかかります。私の最初の試みでは古い機械式ドライブでQwen3-8Bのロードに約10分かかりました！

ソフトウェア前提条件

インストール前に以下を準備してください：

Python 3.10以上：最新のMLライブラリと相性が良い
CUDA Toolkit：NVIDIA GPU使用時は11.8以上推奨
対応OS：Linux推奨（Ubuntu 22.04以上が最適）、Windowsもサポート
Git：リポジトリのダウンロード用
仮想環境ツール：Condaまたはvenvで依存関係管理

方法1：OllamaでQwen3を動かす（簡単ルート）

いくつか試した中で、Ollamaは初心者に最も優しい方法でした。複雑さを隠蔽し、使いやすいCLIを提供してくれます。

ステップ1：Ollamaをインストール

まず、公式サイトからダウンロードするか、ターミナルで：

curl -fsSL https://ollama.com/install.sh | sh

Windowsユーザーは公式サイトからインストーラーを入手してください。

ステップ2：Qwen3モデルを実行

最も簡単なコマンドは：

ollama run qwen3:4b

このコマンドは以下を行います：

モデルがなければダウンロード
メモリにロード
対話型チャットセッションを開始

4bは他のバリアント（0.6b、1.7b、8b、14b、32b、30b-a3b）に置き換え可能です。

初回はモデルのダウンロードに約15分かかりましたが、2回目以降はキャッシュされて速くなります。

ステップ3：チャットと実験

起動後、ターミナルで直接モデルと会話できます。例：

> LLMのMixture-of-Expertsアーキテクチャについて教えて。

Mixture-of-Experts (MoE)は、大規模言語モデル（LLM）で使われるアーキテクチャ手法で、入力ごとにネットワークの一部だけを選択的に活性化することで効率を高めます。

従来の「Dense」トランスフォーマーモデルでは、すべてのパラメータがすべてのトークン処理に使われ、計算コストが高くなります。MoEモデルは「専門家」と呼ばれるサブネットワークと、それらを選択するルーティング機構を組み合わせています。

例えばQwen3のMoEモデル（Qwen3-30B-A3BやQwen3-235B-A22B）では、各MoE層に128の専門家FFNがあり、トークンごとに8つだけが活性化されます。このスパースな活性化により、総パラメータ数が235Bでも、推論時には約22Bのみが使われます。

この手法の利点は：
1. 計算効率の向上 - 推論時に計算するパラメータが少ない
2. 容量の拡張性 - 巨大なモデル容量を維持しつつ計算コストを抑制
3. 専門化 - 専門家ごとに異なる知識やタスクに特化可能

MoE層の主要構成要素は：
- 専門家ネットワーク：特化したFFN
- ルーター：どの専門家を使うか決定
- ゲーティング関数：選択した専門家の出力を重み付けして統合

このアーキテクチャにより、計算資源の増加に比例しない大規模モデルの開発が可能になっています。

悪くないですよね？RTX 4090で約15秒で応答が返ってきました。

ステップ4：APIの利用（任意）

Ollamaはローカルサーバー（通常はhttp://localhost:11434）も起動し、OpenAI互換のAPI形式を提供します。curlやPythonクライアントからプログラム的に操作可能です。

Pythonの簡単な例：

import requests

response = requests.post('http://localhost:11434/api/generate', 
                       json={
                           'model': 'qwen3:4b',
                           'prompt': 'ニューラルネットワークについての短い詩を書いて。',
                           'stream': False
                       })
print(response.json()['response'])

これにより、ローカルQwen3モデルを使ったアプリケーション開発が容易になります。

方法2：vLLMでQwen3を動かす（高性能ルート）

より高いパフォーマンスを求めるなら、特に本番環境のような用途にはvLLMがおすすめです。PagedAttentionなどの技術でGPU利用率を最大化し、スループットとレイテンシを最適化しています。

設定はやや複雑ですが、適切に構築すればOllamaよりかなり高速です。

ステップ1：vLLMをインストール

仮想環境を使うのが良いでしょう：

python -m venv venv
source venv/bin/activate  # Windowsの場合: venv\Scripts\activate

pip install -U vllm

事前にCUDAドライバが適切にインストールされていることを確認してください。

ステップ2：Qwen3モデルをサーブ

例えばQwen3-7Bモデルをサーブするには：

vllm serve Qwen/Qwen3-7B \
    --enable-reasoning \
    --reasoning-parser deepseek_r1

大きなモデルで単一GPUに収まらない場合はテンソル並列を使います：

vllm serve Qwen/Qwen3-30B-A3B \
    --enable-reasoning \
    --reasoning-parser deepseek_r1 \
    --tensor-parallel-size 2

--enable-reasoningはQwen3のハイブリッド思考機能を有効化し、--reasoning-parser deepseek_r1はvLLMがモデルの思考フォーマットを正しく解釈するために重要です。

最初に驚いたのは、この--reasoning-parserフラグの重要性です。これがないと応答が途中で切れたり、変なフォーマットになることがありました。

ステップ3：vLLMサーバーと対話

起動後、vLLMはOpenAI API仕様に準拠したAPIサーバー（デフォルトはhttp://localhost:8000）を提供します。curlでの例：

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Qwen/Qwen3-7B",
        "prompt": "量子コンピューティングを簡単に説明して",
        "max_tokens": 150,
        "temperature": 0.7
    }'

PythonのOpenAIクライアントを使う例：

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.completions.create(
  model="Qwen/Qwen3-7B",
  prompt="階乗を再帰的に計算するPython関数を書いて",
  max_tokens=150
)
print(response.choices[0].text)

vLLMのパフォーマンス考察

私が気づいたポイント：

バッチサイズが重要：--max-batch-size 8などで複数同時リクエストのスループットが大幅向上
初回リクエストはウォームアップで遅い：サーバー起動直後は遅くなるのが普通
効率的なメモリ管理：PagedAttentionにより長いコンテキストも他のフレームワークより効率的に処理可能

量子化：大規模モデルを一般ハードウェアに適合させる

Qwen3-32Bを最初に動かそうとしたとき、PCに「無理だよ」と言われた気分でした。そこで量子化の出番です。

量子化はモデルの重みの精度を下げ、メモリ使用量を大幅に削減します。精度を少し犠牲にする代わりに、動作可能な環境が広がります。主な選択肢は：

FP16（16ビット）：デフォルトで最高精度だがVRAM消費大
INT8（8ビット）：VRAMを約半分に減らし、品質低下は最小限
INT4（4ビット）：VRAMを約75%削減、品質は目立つが許容範囲の場合も

Ollamaでの量子化利用

Ollamaは自動的に一部量子化を適用しますが、Modelfileでカスタム設定も可能：

# Modelfileを作成
FROM qwen3:14b
PARAMETER num_gpu_layers 35
PARAMETER quantization_method q4_0

これを使ってカスタム量子化モデルをビルド・実行：

ollama create qwen3-14b-quantized -f Modelfile
ollama run qwen3-14b-quantized

vLLMでの量子化利用

vLLMはコマンドラインフラグで複数の量子化方式をサポート：

vllm serve Qwen/Qwen3-14B \
    --enable-reasoning \
    --reasoning-parser deepseek_r1 \
    --quantization awq

awq、gptq、squeezellmなどが選べます。私はQwen3モデルにはAWQが圧縮率と品質のバランスで最適だと感じました。

実際のパフォーマンス：私のベンチマーク

私の環境（RTX 4090、32GB RAM、Ryzen 9 5900X）での非公式ベンチマーク：

モデル	量子化	トークン/秒	ロード時間	最大コンテキスト	VRAM使用量
Qwen3-0.6B	なし（FP16）	42.3	6秒	32K	1.9 GB
Qwen3-4B	なし（FP16）	28.7	18秒	32K	9.2 GB
Qwen3-4B	4ビット（Q4_0）	26.1	12秒	32K	3.4 GB
Qwen3-14B	8ビット（AWQ）	15.2	45秒	128K	11.3 GB
Qwen3-14B	4ビット（GPTQ）	12.8	38秒	128K	7.1 GB

これらはvLLM使用時の数値で、ハードウェアやタスクによって変動します。

面白いことに、創造的な文章やコード生成では4ビット量子化モデルでもかなり良好な性能を示しますが、複雑な推論タスクでは4ビット量子化による品質低下が目立ちます。

高度な機能：ハイブリッド思考モード

Qwen3の最も興味深い機能の一つがハイブリッド思考能力で、対話時に制御可能です。

Ollamaではプロンプトに特別なタグを使います：

/think この問題をステップバイステップで解きたい。f(x) = x^3 * ln(x) の導関数は？

これでモデルは内部推論モードを使います。

vLLMでは--enable-reasoningフラグでサーバー側で有効化しつつ、プロンプトの書き方で制御可能です。

思考モードは特に数学問題や論理的推論で有用で、モデルが思考過程を示しながら回答します。

よくある問題のトラブルシューティング

Qwen3を使う中で遭遇した問題と解決策：

CUDAメモリ不足エラー

問題： 「CUDA out of memory」や「RuntimeError: CUDA error: out of memory」エラーが出る
解決策：

より強力な量子化を試す
バッチサイズやコンテキスト長を減らす
実行間にCUDAキャッシュをクリア：torch.cuda.empty_cache()
また、GPUを使う他のアプリ（ブラウザのWebGLタブなど）を閉じることも重要です。

初回推論が遅い

問題： 最初のクエリだけ異様に遅い
解決策： これは正常です。モデルのロードと最適化が行われているためで、2回目以降は速くなります。

出力のフォーマットがおかしい

問題： 出力に変なフォーマットや途中切れがある
解決策： vLLMでは正しい--reasoning-parserフラグを使う。Ollamaではプロンプトの書き方を見直す。

インストール失敗

問題： 特にvLLMのライブラリインストールでエラー
解決策： CUDAバージョンの互換性を確認し、Python 3.10以上を使用。Linuxなら追加でシステムライブラリが必要な場合も：

sudo apt-get install python3-dev

結論：Qwen3をローカルで動かす価値は？

数週間ローカルでQwen3を試した結果、答えは「はい、価値あり」です。ただし条件付きで。

ローカルで動かすことで、前例のない制御性とプライバシー、そして最先端AIを自分のマシンで動かす満足感が得られます。Qwenチームはこれらのモデルを手に届くものにし、OllamaやvLLMのようなツールがローカル展開をより身近にしました。

ただし、特に大きなモデルを重い量子化なしで動かすには相応のハードウェアが必要です。多くのユーザーにとっては、Qwen3-4Bや8Bを適度な量子化でRTX 3080クラスのGPUで動かすのが最適解でしょう。

初心者には以下をおすすめします：

Ollamaから始めてシンプルに体験
小型モデル（0.6B、1.7B、4B）で試す
量子化を試して最適なバランスを探る
より高性能が必要になったらvLLMへステップアップ

ローカルAI展開の世界は急速に進化しており、1年前には不可能と思われたことが今や一般消費者向けハードウェアで可能になっています。最適化技術の進歩により、さらに大きなモデルのローカル運用も近い将来より手軽になるでしょう。

あなたもQwen3や他の大規模言語モデルをローカルで動かしてみましたか？経験や発見したコツをぜひ教えてください！

Qwen3をローカルで動かす方法 - AI愛好家のための実践ガイド

Qwen3をローカルで動かす方法 - AI愛好家のための実践ガイド

Qwen3とは何か？

なぜQwen3をローカルで動かすのか？

ハードウェア要件 - 必要なもの

RAM要件

GPU/VRAM要件

CPUのみでの動作は？

ストレージ要件

ソフトウェア前提条件

方法1：OllamaでQwen3を動かす（簡単ルート）

ステップ1：Ollamaをインストール

ステップ2：Qwen3モデルを実行

ステップ3：チャットと実験

ステップ4：APIの利用（任意）

方法2：vLLMでQwen3を動かす（高性能ルート）

ステップ1：vLLMをインストール

ステップ2：Qwen3モデルをサーブ

ステップ3：vLLMサーバーと対話

vLLMのパフォーマンス考察

量子化：大規模モデルを一般ハードウェアに適合させる

Ollamaでの量子化利用

vLLMでの量子化利用

実際のパフォーマンス：私のベンチマーク

高度な機能：ハイブリッド思考モード

よくある問題のトラブルシューティング

CUDAメモリ不足エラー

初回推論が遅い

出力のフォーマットがおかしい

インストール失敗

結論：Qwen3をローカルで動かす価値は？

FAQ：Qwen3ローカル展開に関するよくある質問

Qwen3はAMD GPUで動かせますか？

Qwen3の全モデルをローカルに置くにはどれくらいのディスク容量が必要ですか？

Qwen3をローカルでファインチューニングできますか？

Qwen3モデルはLlama 3やMistralなど他のオープンモデルと比べてどうですか？

ローカル展開は本番環境に適していますか？