开源 LLM 模型选型

发表于 2026-07-05 分类于 AI

截至 2026 年，开源 LLM 生态已经非常成熟，多个模型在推理、编程、多语言等场景上接近甚至超过闭源模型。选型的关键不是找”最好”的模型，而是找最适合你的场景和预算的模型。

一、主流模型对比

DeepSeek-V3 使用 MoE（Mixture of Experts）架构——总计 671B 参数，但每个 token 只激活约 37B 参数。这带来质变的性价比：接近 405B 稠密模型的能力，但推理成本只有它的 1/10。

消费级显卡跑大模型必须量化：

精度	显存（7B模型）	显存（70B模型）	质量损失
FP16	14GB	140GB	无
INT8	7GB	70GB	极小
INT4 (GPTQ/AWQ)	4GB	40GB	< 3%
Q4_K_M (llama.cpp)	4.5GB	—	< 5%

长上下文的代价：注意力计算是 O(N²) 的。在实际使用中超过 32K 后推理速度明显下降、内存占用指数增长，建议非必要不要全量使用最大窗口。

选型原则：场景 > 能力 > 成本。中文场景选 DeepSeek/Qwen，英文选 Llama/Mistral，端侧选量化后的 Qwen3-7B/Gemma-12B。没有”最好”的模型，只有最合适的。