AI选型的国产方案与开源替代

尽管 ChatGPT、Claude 或 Gemini 这类顶尖旗舰模型在许多场景中近乎不可用,并且企业或团队在现实部署中还必须面对严峻的合规约束,国产方案与开源替代并不因此失去意义。它们固然尚难抵达旗舰闭源模型的综合高度,却已经在相当多的任务中具备足够可用、且成本结构极具吸引力的实践价值。

DeepSeek 发布了最新的 v3.1 版本,延续了此前五月更新 R1 权重却不更改版本号的低调作风。尽管这个 3.1 版本也被批评为 benchmark 表现漂亮、实际体验却不够稳定的“做题家”,但其低廉价格、对 reasoning 路线的祛魅,以及 speed always wins 的工程判断,仍然体现出团队对于前沿技术节奏的独特品味:问题与其说在于模型本身是否“全能”,不如说在于能否为它找到恰当的使用场景。就 API 调用而言,它应付日常需求与通用任务已经相当从容。

如果目标是提升 coding 生产力,那么 Kimi K2 在 agentic abilities 上的亮眼表现,实际上会构成更具现实吸引力的选择。将 Claude Code 一类的 CLI 交互范式与 Kimi K2 结合,已经形成一种在价格与性能之间颇为稳健的折中方案;与此同时,Claude Pro subscription 的使用摩擦,以及它对于网络环境与支付环境的苛刻要求,也构成了事实上的准入壁垒。正如欧洲过度谨慎的安全政策一样,“宪法AI”有些时候也难免显得手脚受缚。

国产开源模型的另一个重要坐标是 Qwen,它与 Gemini 一并被视为某种管理层面的奇迹;反观 Meta 的 LLaMA,则实在开了一个并不值得艳羡的先例。Qwen 的 embedding 模型长期以来都是相当可靠的选择;若要构建增强检索生成(RAG)系统,或面向更广泛任务搭建向量数据库,它们完全值得被纳入优先考量。

另一个值得关注的方向是性能敏感型任务:OpenAI 发布了自己的开源模型 gpt-oss,其能力达到了 o4-mini 乃至 o3-mini 的水平。这一定位并不低;即便是更新权重后的 DeepSeek-R1-0528,与同为推理模型的 o4-mini 之间仍有距离,颇有一种事实上的“地板高于天花板”的意味。因此,对于性能需求明确的场景,购买并部署该开源模型的云服务,会是一条相当务实的路径。

至于那些规模细微却真实存在的需求,Gemma 3n 则提供了另一种解法。这个 mobile-first 的开源模型近乎反常识:其极限压缩到不到 1B 参数量的版本,依然保留了多模态能力。对于移动计算与即时翻译而言,这几乎就是一份毫不含蓄的福音。

总的来说,时间来到 2025 年 8 月,开源模型与闭源模型之争虽然早在去年便以一种直接而压倒性的方式告一段落,但这并不妨碍我们借助灵活的工程手腕与相对严谨的学术方法,重新构建属于自己的技术体系。比如 The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants 这篇文章,便通过聚类算法组织开源模型,取得了超越 GPT-4.1 的效果;其机制实际上近似于一种显式的 MoE 架构。它持续提醒我们所谓工程学的奥义:没有绝对完美,只有具体语境中的最适宜;在现实约束与可能性边界之间起舞,正是计算机科学的魅力所在。