开源 LLM 模型选型
截至 2026 年,开源 LLM 生态已经非常成熟,多个模型在推理、编程、多语言等场景上接近甚至超过闭源模型。选型的关键不是找”最好”的模型,而是找最适合你的场景和预算的模型。
一、主流模型对比
| 模型 | 参数量 | 上下文 | 优势 | 典型用途 |
|---|---|---|---|---|
| DeepSeek-V3 | 671B (MoE, 37B活跃) | 128K | 中文最强、性价比极高 | 中文对话、编程、推理 |
| Qwen3 | 0.6B~235B | 128K~1M | 多尺寸覆盖、中文优秀、Agent能力强 | 中文场景、嵌入式Agent |
| Llama 4 | Scout 109B / Behemoth 2T | 10M | Meta生态、英文最强、长上下文 | 英文对话、长文档处理 |
| Mistral Large | 123B | 128K | 多语言、函数调用精准 | 企业级Agent、API场景 |
| Gemma 3 | 1B~27B | 128K | 轻量、端侧可部署 | 端侧、嵌入式 |
MoE 架构说明
DeepSeek-V3 使用 MoE(Mixture of Experts)架构——总计 671B 参数,但每个 token 只激活约 37B 参数。这带来质变的性价比:接近 405B 稠密模型的能力,但推理成本只有它的 1/10。
二、场景化选型
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 中文对话/客服 | DeepSeek-V3, Qwen3 | 中文能力突出 |
| 编程助手 | DeepSeek-V3, Qwen3-Coder | 代码生成精度高 |
| 英文长文档 | Llama 4 Scout | 10M 上下文窗口 |
| 低成本API | DeepSeek-V3 (API ¥1/百万token) | 性价比之王 |
| 本地部署 | Qwen3-7B/14B, Gemma 3-12B | 消费级显卡可运行 |
| Agent/工具调用 | Qwen-Agent, Mistral Large | 原生支持函数调用 |
三、部署方式
| 方式 | 工具 | 延迟 | 成本 |
|---|---|---|---|
| 云 API | DeepSeek/Qwen API | 100-500ms | ¥1-10/百万token |
| 自托管 | vLLM + A100/H100 | 20-100ms | $1-3/小时/GPU |
| 端侧 | llama.cpp + Qwen3-7B | 500ms-2s | 免费(MacBook即可) |
量化部署
消费级显卡跑大模型必须量化:
| 精度 | 显存(7B模型) | 显存(70B模型) | 质量损失 |
|---|---|---|---|
| FP16 | 14GB | 140GB | 无 |
| INT8 | 7GB | 70GB | 极小 |
| INT4 (GPTQ/AWQ) | 4GB | 40GB | < 3% |
| Q4_K_M (llama.cpp) | 4.5GB | — | < 5% |
四、上下文窗口
| 模型 | 窗口 | 关键词 |
|---|---|---|
| DeepSeek-V3 | 128K | 中文长文 |
| Qwen3-235B | 128K~1M | 超长文档 |
| Llama 4 Scout | 10M | 最强长上下文 |
| Gemini 2.5 Pro | 1M-2M | 闭源最大 |
长上下文的代价:注意力计算是 O(N²) 的。在实际使用中超过 32K 后推理速度明显下降、内存占用指数增长,建议非必要不要全量使用最大窗口。
五、小结
选型原则:场景 > 能力 > 成本。中文场景选 DeepSeek/Qwen,英文选 Llama/Mistral,端侧选量化后的 Qwen3-7B/Gemma-12B。没有”最好”的模型,只有最合适的。