AI选型的国产方案与开源替代

虽然 ChatGPT、Claude 或者 Gemini 这类顶尖旗舰模型几乎不可用,而且现实中面临着企业或者团队严峻的合规挑战,但是国产方案和开源替代并非没有可能性——虽然完全不能说做到这类旗舰的高度,但是足够好用而且物美价廉。

DeepSeek 发布了最新的v3.1版本,延续了之前五月份的时候更新R1权重而不更新版本号的低调作风。尽管这个3.1有被认为是 benchmark 跑分非常好看可实际拉跨的“做题家”,但低廉的价格、对于 reasoning 这个方向的祛魅、 speed always wins 的考量都体现了团队对于前沿技术的品味:更多是探讨合适使用场景的问题——其API调用应付日常性质的需求和通用任务非常不错。

如果要 coding 的生产力,实际上 Kimi K2 在 agentic abilities 上的亮眼表现会是更好的选择;Claude Code 一类的 CLI 交互搭配 Kimi K2 的成熟方案是价格和性能上一个合适的折中点,而且 Claude Pro subscription 的折磨程度、对网络环境和支付环境的要求构成了事实上非常劝退的壁垒——正如欧洲过于严苛的安全政策一样,“宪法AI”有些时候也不是很能放开手脚。

国产开源模型的另一个巨头是 Qwen,和 Gemini 一并被评价为管理上的奇迹:Meta 的 LLaMA 实在是开了一个不怎么好的先例。Qwen 的 embedding 一直是非常不错的选择,如果做增强检索生成(RAG)或者更广泛任务上的向量数据库,很可以选用他们的。

另外值得关注的是对于性能任务,有OpenAI 发布了他们自己的开源模型——gpt-oss,达到了 o4-mini 乃至 o3-mini 的水平(这相当高,即使是更新权重后的 DeepSeek-R1-0528 也和同为推理模型的 o4-mini 有一段距离,也是一种事实上的地板高于天花板)。所以对于性能需求,购买部署这个开源模型的云服务会是很不错的方式。

那么对于一些很细微但需求又实际在的需求,我们有 Gemma 3n;这个 mobile-first 的开源模型非常逆天:它很极限的不到1B参数量版本依然支持多模态!对于移动计算、即时翻译,这是完全的福音。

总的来说,时间来到2025年的8月,虽然开源模型与闭源模型之争早在去年就以一种直接而压倒性的方式结束了争论,但是事实上这不妨碍我们用灵活的工程手腕与学术方法构建起自己的体系。比如 The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants 这篇文章采用聚类算法搭配开源模型取得了超越 GPT-4.1 的效果(实际上类似于一种显式的 MoE 架构),这始终彰显着工程学的奥义——没有最完美,只有最合适;在现实约束下可能性的疆界内起舞,正是计算机科学的魅力所在。