马上整整 1 个月了!这一个月以来,全球大模型市场受 DeepSeek 搅动,无不方寸大乱。
中外大厂、初创公司都头好秃,全被追着问:你们对 DeepSeek 怎么看?DeepSeek 出来你们怎么办?
有避而不谈的,也有主动回应的。
国内,比如腾讯,刚刚在微信开启灰度测试“AI 搜索”功能,接入的就是 DeepSeek-R1;比如百度,当即宣布 4 月起文心一言免费用,下一代文心模型决定开源……
国外,比如 OpenAI,紧急发布 o3-mini、上新深度搜索、公开 o3 思维链条;比如谷歌 DeepMind,新发布的 Gemini 2.0 系列,新增模型型号 Gemini 2.0 Flash-Lite,其 API 砍价能力比 DeepSeek 还狠;
然而正当全球 AI 大模型格局重塑之际,放眼国内,不少人还很关心一件事:
六家已成为独角兽的大模型创业公司,零一万物、百川智能、阶跃星辰、智谱华章、月之暗面、MiniMax 江湖人称大模型六小强。
在 DeepSeek 猛烈的冲击波下,他们正在如何应对?
冲击之下,六小强都有啥“回应”
六小强中,没有任何一家站出来,正面表达对 DeepSeek 的看法。
但这不代表它们没有行动 —— 毕竟比起高谈阔论,落地的实际行动更值得用来证明。
注:以下均为六小强 1 月 20 日(含)后的动态
零一万物
DeepSeek-R1 问世之前,创始人李开复博士已公开表示,零一万物将不再追求训练超级大模型。
经过为期半年多的探索验证,他们明确表示,参数适中同时性能优异、推理速度更快、推理成本更低的轻量化模型更适合商用场景,“会成为 AI-First 应用爆发的催化剂”。
而 DeepSeek 问世之后,零一万物对外曝光的首个动作,选择了携手苏州 ——
2 月 14 日,零一万物与苏州高新区联合成立的产业大模型基地正式授牌。
该大模型基地聚焦垂直产业,重点打造制造、金融、医疗、政务、生物、具身等多个领域的行业大模型解决方案,联合产业链上下 7 家企业,“探索大模型技术从实验室走向生产线的产业化路径”。
在现场,李开复谈道,在人工智能技术重构产业的关键节点,大模型绝非“空中楼阁”,而是驱动实体经济的核心引擎。
而零一万物官方表示:
继 1 月 2 日与阿里云联合成立“产业大模型联合实验室”之后,零一万物再度于产业大模型方向落子。
此次于苏州高新区落地的“产业大模型基地”进一步加速了零一万物模型能力商业落地的进程。
百川智能
DeepSeek-R1 发布 5 天后,1 月 25 日,百川智能发布新模型 Baichuan-M1-preview。
这是百川第一个全场景推理大模型。所谓全场景,指的是该模型同时具备语言、视觉和搜索三个领域的推理能力。
与此同时,百川依然奔赴转向医疗的道路上:
Baichuan-M1-preview 解锁了医疗循证模式,官方解释它“实现了从医疗证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题”。
2 月 13 日,以 Baichuan-M1 为底座打造的「AI 儿科医生」经过近一个月的内测后,在京“上岗”。
针对临床推理,它首先会基于一诉五史生成诊疗假设,继而通过检验检查数据进行假设证伪与排除,最终经基于 AI 的实时语音和视频通话,以及实现视觉理解和系统功能调用、AI 搜索、文案写作等功能。
(此处确与同日唐杰发言部分内容相呼应)
其次是量子位注意到,虽未对外官宣,但智谱近日悄悄开始和二次元很火热的 AI 画图捏角色的应用软件「捏 ta」展开合作。
一方面,智谱在自家视频模型上线了捏 ta;另一方面,二家基于智谱的 CogVideoX-2 模型等,在涅 ta 发起联名活动。
月之暗面
你说巧不巧?DeepSeek-R1 发布一个半小时后,月之暗面官方公众号宣布了旗下 Kimi k1.5 多模态思考模型。
相关论文Kimi k1.5:Scaling Reinforcement Learning With LLMs中显示,k1.5 模型设计和训练有几个关键要素:
长上下文展开。
k1.5 团队将 RL 的上下文窗口扩展到 128k,背后的一个关键思想是使用部分展开(partial rollouts)来提高训练效率。
策略优化改进。
k1.5 团队推导出 long-CoT 的 RL 公式,并采用在线镜像下降的变体进行稳健的策略优化。
简洁框架。