开源 LLM 模型选型

截至 2026 年,开源 LLM 生态已经非常成熟,多个模型在推理、编程、多语言等场景上接近甚至超过闭源模型。选型的关键不是找”最好”的模型,而是找最适合你的场景和预算的模型。

一、主流模型对比

模型 参数量 上下文 优势 典型用途
DeepSeek-V3 671B (MoE, 37B活跃) 128K 中文最强、性价比极高 中文对话、编程、推理
Qwen3 0.6B~235B 128K~1M 多尺寸覆盖、中文优秀、Agent能力强 中文场景、嵌入式Agent
Llama 4 Scout 109B / Behemoth 2T 10M Meta生态、英文最强、长上下文 英文对话、长文档处理
Mistral Large 123B 128K 多语言、函数调用精准 企业级Agent、API场景
Gemma 3 1B~27B 128K 轻量、端侧可部署 端侧、嵌入式

MoE 架构说明

DeepSeek-V3 使用 MoE(Mixture of Experts)架构——总计 671B 参数,但每个 token 只激活约 37B 参数。这带来质变的性价比:接近 405B 稠密模型的能力,但推理成本只有它的 1/10。

二、场景化选型

场景 推荐模型 理由
中文对话/客服 DeepSeek-V3, Qwen3 中文能力突出
编程助手 DeepSeek-V3, Qwen3-Coder 代码生成精度高
英文长文档 Llama 4 Scout 10M 上下文窗口
低成本API DeepSeek-V3 (API ¥1/百万token) 性价比之王
本地部署 Qwen3-7B/14B, Gemma 3-12B 消费级显卡可运行
Agent/工具调用 Qwen-Agent, Mistral Large 原生支持函数调用

三、部署方式

方式 工具 延迟 成本
云 API DeepSeek/Qwen API 100-500ms ¥1-10/百万token
自托管 vLLM + A100/H100 20-100ms $1-3/小时/GPU
端侧 llama.cpp + Qwen3-7B 500ms-2s 免费(MacBook即可)

量化部署

消费级显卡跑大模型必须量化:

精度 显存(7B模型) 显存(70B模型) 质量损失
FP16 14GB 140GB
INT8 7GB 70GB 极小
INT4 (GPTQ/AWQ) 4GB 40GB < 3%
Q4_K_M (llama.cpp) 4.5GB < 5%

四、上下文窗口

模型 窗口 关键词
DeepSeek-V3 128K 中文长文
Qwen3-235B 128K~1M 超长文档
Llama 4 Scout 10M 最强长上下文
Gemini 2.5 Pro 1M-2M 闭源最大

长上下文的代价:注意力计算是 O(N²) 的。在实际使用中超过 32K 后推理速度明显下降、内存占用指数增长,建议非必要不要全量使用最大窗口。

五、小结

选型原则:场景 > 能力 > 成本。中文场景选 DeepSeek/Qwen,英文选 Llama/Mistral,端侧选量化后的 Qwen3-7B/Gemma-12B。没有”最好”的模型,只有最合适的。