Hướng Dẫn Cài Đặt DeepSeek-V4 Cục Bộ: Phiên Bản Pro và Flash

Khoảng 13 phút

Hướng Dẫn Chạy DeepSeek-V4 Cục Bộ: Phiên Bản Pro và Flash

DeepSeek-V4 là một trong những phát hành mô hình open-weight tham vọng nhất của DeepSeek cho đến nay. Gia đình này bao gồm DeepSeek-V4-Pro, một mô hình Mixture-of-Experts (MoE) với 1.6T tham số và 49B tham số kích hoạt, và DeepSeek-V4-Flash, một mô hình MoE nhỏ hơn với 284B tham số và 13B tham số kích hoạt. Cả hai mô hình đều hỗ trợ độ dài ngữ cảnh lên đến một triệu token.

Sự kết hợp này nghe rất hấp dẫn, nhưng cũng đặt ra một câu hỏi thực tế: liệu bạn có thể chạy DeepSeek-V4 cục bộ được không?

Câu trả lời là có, nhưng với một lưu ý quan trọng. DeepSeek-V4 không phải là mô hình dành cho laptop. Ngay cả phiên bản Flash cũng là một triển khai đa GPU nghiêm túc. Hướng dẫn này sẽ đi qua con đường cài đặt cục bộ sử dụng kho mô hình chính thức của DeepSeek trên Hugging Face, giải thích phần cứng bạn nên chuẩn bị, và chỉ cách sử dụng đúng các tệp suy luận và mã hóa chính thức.

Trang tham khảo mô hình:

DeepSeek-V4-Pro vs DeepSeek-V4-Flash

Trước khi tải xuống, hãy chọn biến thể mô hình phù hợp.

Mô hình	Tổng số tham số	Tham số kích hoạt	Độ dài ngữ cảnh	Độ chính xác	Phù hợp với
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 hỗn hợp	Thử nghiệm cục bộ nhanh hơn, phục vụ chi phí thấp, trợ lý lập trình, kiểm tra ngữ cảnh dài
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 hỗn hợp	Chất lượng tối đa, phòng nghiên cứu, cụm GPU lớn, các tác vụ suy luận và tác nhân nghiêm túc

Chi tiết quan trọng nhất là DeepSeek-V4 sử dụng kiến trúc Mixture-of-Experts (MoE). Chỉ một phần mô hình được kích hoạt cho mỗi token, giúp giảm chi phí tính toán. Tuy nhiên, bạn vẫn cần lưu trữ và tải trọng số mô hình. Điều này có nghĩa là yêu cầu bộ nhớ GPU và lưu trữ vẫn rất cao.

Đối với hầu hết nhà phát triển, DeepSeek-V4-Flash là điểm khởi đầu thực tế. DeepSeek-V4-Pro nên được xem như một triển khai quy mô cụm.

Điều Gì Làm DeepSeek-V4 Khác Biệt?

Theo thẻ mô hình của DeepSeek, dòng V4 giới thiệu một số nâng cấp lớn:

Kiến trúc Attention lai: DeepSeek kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA) để cải thiện hiệu quả ngữ cảnh dài. Trong thiết lập một triệu token, DeepSeek-V4-Pro được cho là sử dụng bộ nhớ đệm KV ít hơn nhiều so với DeepSeek-V3.2.
Manifold-Constrained Hyper-Connections (mHC): Cải thiện độ ổn định trên các mạng rất sâu đồng thời giữ nguyên dung lượng mô hình.
Muon Optimizer: DeepSeek sử dụng Muon trong quá trình huấn luyện để đạt hội tụ và ổn định tốt hơn.
Ngữ cảnh dài: Cả Pro và Flash đều hỗ trợ đến 1M token, với DeepSeek khuyến nghị ít nhất 384K ngữ cảnh cho chế độ Think Max.
Nhiều chế độ suy luận: DeepSeek-V4 hỗ trợ các kiểu sử dụng Non-think, Think High và Think Max.

Đối với triển khai cục bộ, hai thay đổi thực tế quan trọng nhất là độ chính xác hỗn hợp FP4/FP8 và định dạng mã hóa chat tùy chỉnh.

Yêu Cầu Phần Cứng

DeepSeek-V4 không được thiết kế cho GPU tiêu dùng như RTX 4090 trừ khi bạn chỉ thử nghiệm với các lượng tử hóa cộng đồng đã được chỉnh sửa mạnh trong tương lai. Đối với trọng số chính thức, hãy lên kế hoạch sử dụng GPU máy chủ.

Kế Hoạch Phần Cứng Thực Tế

Trường hợp sử dụng	Phần cứng đề xuất	Ghi chú
Triển khai thử nghiệm DeepSeek-V4-Flash	4-8 GPU NVIDIA bộ nhớ lớn	GPU loại H100/H200/A100 là mục tiêu thực tế
Phục vụ sản xuất DeepSeek-V4-Flash	8+ GPU bộ nhớ lớn	Nhiều GPU giúp tăng thông lượng và xử lý ngữ cảnh dài
Triển khai nghiên cứu DeepSeek-V4-Pro	Cụm GPU đa node lớn	Xem đây như hạ tầng cụm, không phải mô hình cho máy trạm đơn
Think Max với ngữ cảnh dài	Bộ nhớ GPU và ngân sách bộ nhớ đệm KV bổ sung	DeepSeek khuyến nghị ít nhất 384K ngữ cảnh cho Think Max

Yêu Cầu Lưu Trữ

Lên kế hoạch lưu trữ cục bộ lớn trước khi bắt đầu tải xuống:

Sử dụng ổ NVMe SSD khi có thể.
Giữ thêm không gian cho trọng số đã chuyển đổi.
Tránh tải trực tiếp vào ổ hệ thống nhỏ.
Dự kiến mô hình Pro sẽ cần lưu trữ nhiều hơn Flash rất nhiều.

Cấu trúc an toàn là:

/data/models/deepseek-v4-flash-hf      # tệp gốc Hugging Face
/data/models/deepseek-v4-flash-infer   # trọng số suy luận đã chuyển đổi
/data/cache/huggingface                # bộ nhớ đệm HF

Nếu bạn thuê máy chủ GPU đám mây, chọn instance có NVMe cục bộ hoặc gắn volume lớn có băng thông cao. Đối với kế hoạch triển khai kiểu VPS, bạn có thể so sánh các máy chủ GPU hoặc bộ nhớ lớn qua các nhà cung cấp như LightNode, nhưng đảm bảo instance thực sự có bộ nhớ GPU cần thiết cho loại mô hình này.

Yêu Cầu Phần Mềm

Bạn cần môi trường Linux với driver NVIDIA và CUDA mới nhất.

Khuyến nghị cơ bản:

Thành phần	Khuyến nghị
Hệ điều hành	Ubuntu 22.04 hoặc mới hơn
Python	3.10+
Driver GPU	Driver trung tâm dữ liệu NVIDIA mới nhất
CUDA	Ưu tiên CUDA 12.x
PyTorch	Phiên bản hỗ trợ CUDA
Git LFS	Cần thiết cho tệp mô hình
Hugging Face CLI	Cần thiết để tải xuống ổn định

Cài đặt các công cụ cơ bản:

sudo apt update
sudo apt install -y git git-lfs python3 python3-venv python3-pip

git lfs install
pip install -U huggingface_hub

Nếu bạn dùng môi trường ảo Python:

python3 -m venv dsv4-env
source dsv4-env/bin/activate
pip install -U pip wheel setuptools
pip install -U huggingface_hub torch transformers safetensors

Bước 1: Tải DeepSeek-V4-Flash

Đối với hầu hết người dùng, bắt đầu với Flash:

mkdir -p /data/models
cd /data/models

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir DeepSeek-V4-Flash \
  --local-dir-use-symlinks False

Nếu bạn muốn mô hình Pro:

huggingface-cli download deepseek-ai/DeepSeek-V4-Pro \
  --local-dir DeepSeek-V4-Pro \
  --local-dir-use-symlinks False

Nếu tải bị gián đoạn, chỉ cần chạy lại lệnh. Hugging Face sẽ tiếp tục tải.

Bước 2: Kiểm Tra Cấu Trúc Kho Chính Thức

Sau khi tải, kiểm tra thư mục mô hình:

cd /data/models/DeepSeek-V4-Flash
ls

Thẻ mô hình chỉ ra hai thư mục quan trọng:

inference/ - mã suy luận cục bộ chính thức, bao gồm chuyển đổi trọng số và script sinh văn bản
encoding/ - tiện ích mã hóa prompt và phân tích đầu ra cho DeepSeek-V4

Điều này quan trọng vì DeepSeek-V4 không đi kèm mẫu chat định dạng Jinja thông thường. Bạn không nên giả định mọi wrapper chat tương thích OpenAI đều định dạng prompt đúng ngay từ đầu.

Bước 3: Chuyển Đổi Trọng Số Cho Suy Luận Chính Thức

README suy luận chính thức sử dụng bước chuyển đổi trước khi chạy sinh văn bản.

Từ kho mô hình:

cd /data/models/DeepSeek-V4-Flash/inference

export HF_CKPT_PATH=/data/models/DeepSeek-V4-Flash
export SAVE_PATH=/data/models/DeepSeek-V4-Flash-infer
export EXPERTS=256
export MP=4
export CONFIG=config.json

python convert.py \
  --hf-ckpt-path ${HF_CKPT_PATH} \
  --save-path ${SAVE_PATH} \
  --n-experts ${EXPERTS} \
  --model-parallel ${MP}

Giải thích tham số:

Biến	Ý nghĩa
`HF_CKPT_PATH`	Đường dẫn đến tệp mô hình gốc trên Hugging Face
`SAVE_PATH`	Đường dẫn đầu ra cho trọng số suy luận đã chuyển đổi
`EXPERTS=256`	Số chuyên gia được dùng trong chuyển đổi suy luận DeepSeek-V4
`MP=4`	Kích thước song song mô hình; thường khớp với số GPU dùng cho chạy
`CONFIG`	Tệp cấu hình mô hình dùng trong script sinh văn bản

Nếu bạn dùng nhiều GPU hơn, điều chỉnh MP cho phù hợp. Ví dụ, trên node 8 GPU:

export MP=8

Tùy Chọn FP8 Expert

README suy luận chính thức ghi chú nếu bạn muốn dùng chuyên gia FP8 thay vì FP4, hãy xóa dòng này trong config.json:

"expert_dtype": "fp4"

Sau đó thêm --expert-dtype fp8 khi chuyển đổi:

python convert.py \
  --hf-ckpt-path ${HF_CKPT_PATH} \
  --save-path ${SAVE_PATH} \
  --n-experts ${EXPERTS} \
  --model-parallel ${MP} \
  --expert-dtype fp8

Đa số người dùng nên bắt đầu với thiết lập hỗn hợp FP4/FP8 mặc định. Chỉ thay đổi độ chính xác sau khi có baseline hoạt động.

Bước 4: Bắt Đầu Chat Tương Tác

Khi chuyển đổi xong, chạy script sinh văn bản chính thức:

cd /data/models/DeepSeek-V4-Flash/inference

export MP=4
export SAVE_PATH=/data/models/DeepSeek-V4-Flash-infer
export CONFIG=config.json

torchrun --nproc-per-node ${MP} generate.py \
  --ckpt-path ${SAVE_PATH} \
  --config ${CONFIG} \
  --interactive

Cho tệp đầu vào theo batch:

torchrun --nproc-per-node ${MP} generate.py \
  --ckpt-path ${SAVE_PATH} \
  --config ${CONFIG} \
  --input-file prompts.txt

Cho chạy đa node:

torchrun \
  --nnodes ${NODES} \
  --nproc-per-node $((MP / NODES)) \
  --node-rank $RANK \
  --master-addr $ADDR \
  generate.py \
  --ckpt-path ${SAVE_PATH} \
  --config ${CONFIG} \
  --input-file prompts.txt

Đảm bảo mỗi node có thể truy cập đường dẫn checkpoint đã chuyển đổi, hoặc sao chép tệp đã chuyển đổi vào cùng đường dẫn trên mỗi máy.

Bước 5: Sử Dụng Cài Đặt Sampling Đúng

DeepSeek khuyến nghị các tham số sampling sau cho triển khai cục bộ:

temperature = 1.0
top_p = 1.0

Nếu script sinh văn bản của bạn cho phép dùng cờ CLI, hãy dùng trực tiếp. Nếu không, đặt trong script hoặc config nơi định nghĩa tham số sampling.

Với chế độ Think Max, DeepSeek khuyến nghị dùng cửa sổ ngữ cảnh ít nhất:

384K tokens

Đừng bắt đầu với cửa sổ ngữ cảnh quá lớn trong lần thử đầu tiên. Bắt đầu nhỏ, xác nhận mô hình tải và sinh đúng, rồi tăng dần độ dài ngữ cảnh trong khi theo dõi bộ nhớ GPU.

Bước 6: Hiểu Mã Hóa Chat DeepSeek-V4

DeepSeek-V4 không bao gồm mẫu chat Jinja tiêu chuẩn. Thay vào đó, kho cung cấp thư mục encoding/ với tiện ích Python.

Cách dùng cơ bản như sau:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "system", "content": "Bạn là trợ lý hữu ích."},
    {"role": "user", "content": "2+2 bằng bao nhiêu?"},
]

prompt = encode_messages(messages, thinking_mode="thinking")
print(prompt)

Với chat không suy nghĩ, dùng chế độ chat:

prompt = encode_messages(messages, thinking_mode="chat")

Với chế độ suy nghĩ, mô hình dùng dấu phân cách suy luận rõ ràng:

<think> ... </think>

Bộ phân tích có thể chuyển văn bản sinh ra thành các tin nhắn trợ lý có cấu trúc:

completion = "Simple arithmetic.</think>2 + 2 = 4.<｜end▁of▁sentence｜>"
parsed = parse_message_from_completion_text(completion, thinking_mode="thinking")
print(parsed)

Điều này đặc biệt quan trọng nếu bạn muốn xây dựng wrapper API cục bộ riêng cho DeepSeek-V4.

Giải Thích Các Chế Độ Suy Luận

DeepSeek-V4 hỗ trợ ba kiểu suy luận thực tế:

Chế độ	Hành vi	Trường hợp sử dụng
Non-think	Trả lời nhanh, trực tiếp	Hỏi đáp đơn giản, tóm tắt, trợ giúp lập trình thường nhật
Think High	Trả lời có phân tích, suy luận cẩn thận	Gỡ lỗi, lập kế hoạch, toán học, quyết định kiến trúc
Think Max	Nỗ lực suy luận tối đa	Tác vụ lập trình khó, quy trình tác nhân, giải quyết vấn đề cấp nghiên cứu

Với server cục bộ, bạn có thể đặt tên mô hình riêng biệt cho từng chế độ, ví dụ:

deepseek-v4-flash-chat
deepseek-v4-flash-thinking
deepseek-v4-flash-max

Bên trong, mỗi route có thể dùng mã hóa prompt, giới hạn ngữ cảnh và tham số sinh khác nhau.

Có Thể Chạy DeepSeek-V4 Với vLLM hoặc SGLang Không?

Khi mới ra mắt, con đường an toàn nhất là dùng mã suy luận chính thức của DeepSeek trong kho mô hình. Các framework phục vụ chung có thể cần cập nhật để hỗ trợ đầy đủ kiến trúc DeepSeek-V4, độ chính xác hỗn hợp, hành vi ngữ cảnh dài và mã hóa tùy chỉnh.

Cách tiếp cận thực tế:

Trước tiên, chạy thành công đường dẫn inference/generate.py chính thức.
Xác nhận chất lượng đầu ra và định dạng prompt với tiện ích encoding/ chính thức.
Sau đó kiểm tra framework bạn thích đã hỗ trợ DeepSeek-V4 rõ ràng chưa.
Chỉ chuyển sang vLLM, SGLang, TensorRT-LLM hoặc framework phục vụ khác khi đã có hỗ trợ.

Điều này tránh lỗi phổ biến: mô hình tải được nhưng chất lượng chat kém vì mẫu prompt sai.

Xây Dựng Wrapper API Cục Bộ Đơn Giản

Nếu bạn muốn endpoint cục bộ kiểu OpenAI, có thể bọc đường dẫn sinh văn bản chính thức bằng FastAPI. Cách triển khai cụ thể tùy thuộc cách bạn tích hợp generate.py, nhưng quy trình tổng quát là:

Nhận messages tương thích OpenAI.
Chuyển đổi chúng bằng encoding_dsv4.encode_messages().
Gửi prompt đã mã hóa đến engine suy luận DeepSeek-V4.
Phân tích đầu ra bằng parse_message_from_completion_text().
Trả về phản hồi JSON tương thích OpenAI.

Mã giả:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "system", "content": "Bạn là trợ lý hữu ích."},
    {"role": "user", "content": "Giải thích KV cache một cách đơn giản."},
]

prompt = encode_messages(messages, thinking_mode="thinking")

# Gửi prompt đến worker suy luận DeepSeek-V4 cục bộ của bạn
raw_completion = run_deepseek_v4(prompt)

assistant_message = parse_message_from_completion_text(
    raw_completion,
    thinking_mode="thinking",
)

print(assistant_message["content"])

Với môi trường sản xuất, thêm:

hàng đợi yêu cầu
phát trực tiếp đầu ra
xử lý timeout
kiểm tra sức khỏe GPU
giới hạn ngữ cảnh tối đa
ghi log có cấu trúc
xác thực

Xử Lý Sự Cố

1. CUDA Hết Bộ Nhớ

Giảm áp lực bộ nhớ bằng cách:

giảm độ dài ngữ cảnh
giảm kích thước batch
tăng kích thước song song tensor/mô hình
dùng nhiều GPU hơn
bắt đầu với DeepSeek-V4-Flash thay vì Pro

Ngữ cảnh dài thường là thứ đầu tiên cần giảm khi gỡ lỗi.

2. Tải Xuống Bị Lỗi Hoặc Treo

Dùng huggingface-cli download thay vì tải qua trình duyệt. Chạy lại lệnh để tiếp tục tải.

Bạn cũng có thể đặt thư mục cache riêng:

export HF_HOME=/data/cache/huggingface
export HUGGINGFACE_HUB_CACHE=/data/cache/huggingface/hub

3. Mô Hình Sinh Ra Đầu Ra Chat Lạ

Kiểm tra định dạng prompt. DeepSeek-V4 không dùng mẫu chat Jinja tiêu chuẩn. Dùng triển khai encoding/ chính thức.

4. Chạy Đa GPU Bị Lỗi

Kiểm tra PyTorch có nhận đủ GPU không:

python - <<'PY'
import torch
print(torch.cuda.device_count())
for i in range(torch.cuda.device_count()):
    print(i, torch.cuda.get_device_name(i))
PY

Kiểm tra mạng NCCL cho chạy đa node:

export NCCL_DEBUG=INFO

5. Think Max Quá Chậm

Think Max thiết kế để dùng nhiều tính toán hơn cho suy luận khó. Chỉ dùng khi tác vụ xứng đáng. Với trợ lý bình thường, Non-think hoặc Think High thường thực tế hơn.

Chiến Lược Triển Khai Đề Xuất

Nếu bạn triển khai DeepSeek-V4 cục bộ lần đầu, làm theo trình tự:

Bắt đầu với DeepSeek-V4-Flash.
Dùng mã suy luận chính thức.
Dùng ngữ cảnh thử nghiệm nhỏ trước.
Xác nhận mã hóa chính thức hoạt động.
Tăng dần độ dài ngữ cảnh.
Thêm wrapper API chỉ khi sinh văn bản cục bộ ổn định.
Xem xét Pro khi có tài nguyên GPU quy mô cụm.

Lời Kết

DeepSeek-V4 rất mạnh mẽ, nhưng không phải mô hình cục bộ dùng chơi. Phiên bản Flash là điểm vào thực tế, còn Pro dành cho môi trường đa GPU hoặc đa node nghiêm túc. Chìa khóa để cài đặt thành công là tuân thủ quy trình chính thức: tải kho Hugging Face, chuyển đổi trọng số bằng công cụ suy luận, chạy sinh văn bản với torchrun, và dùng tiện ích mã hóa DeepSeek-V4 chuyên biệt thay vì giả định mẫu chat chung.

Nếu bạn chỉ cần thử nghiệm prompt, dịch vụ chat DeepSeek hoặc API hosted có thể dễ dàng hơn. Nhưng nếu bạn cần bảo mật dữ liệu, kiểm soát toàn bộ, không tính phí theo token, hoặc hạ tầng tùy chỉnh, chạy DeepSeek-V4 cục bộ sẽ là nền tảng vững chắc để xây dựng hệ thống AI ngữ cảnh dài riêng tư.