云知声U2大模型评测登顶全球前九:3000亿参数如何跑赢万亿模型?

云知声U2大模型

当大多数AI厂商还在疯狂堆叠参数、比拼谁的模型"更大更强"时,一家从语音识别赛道走出来的公司,选择了一条截然不同的路。6月初,云知声正式发布了旗下新一代原生智能体模型——U2,这款拥有近3000亿参数的MoE稀疏混合专家架构大语言模型,在多项国际权威评测中交出了一份令人意外的答卷。

评测数据说话:全球前九,长文本超越Claude

根据6月10日海外权威AI模型评测平台LLM Stats更新的最新榜单,云知声U2在LLM Stats Score综合能力评测中成功跻身模型总榜前30名。若按照厂商最佳模型成绩进行排名,云知声位列全球模型厂商第九位,与一众国际巨头同台竞技。

更值得关注的是,在LongBench-V2长文本能力评测中,U2以54.4%的准确率超越了Anthropic的Claude Opus 4.7(53.9%),仅落后于OpenAI的GPT-5.4(55.6%)1.2个百分点,排名全球第二。这意味着在上下文信息提取、跨段落逻辑推理等核心能力上,U2已经真正站上了全球第一梯队的位置。

评测维度覆盖面同样令人印象深刻,涵盖智能体能力、实战化智能体专项、长文本处理、知识与推理、指令遵循五大核心领域,几乎囊括了当前企业级AI应用最关心的所有能力指标。

3000亿参数的"反内卷"哲学

在当前大模型行业"军备竞赛"的大背景下,U2的技术路线显得格外清醒。斯坦福大学此前的《大模型规模定律》研究已经指出,当模型参数突破5000亿之后,推理能力和常识理解等核心指标的提升幅度会从早期的30%以上骤降至不足5%,而训练成本和能源消耗却呈指数级攀升。

云知声的解法是MoE(Mixture of Experts)稀疏架构。U2虽然总参数量接近3000亿,但得益于稀疏激活机制,每次推理实际调用的参数仅在百亿级别,大约只激活十分之一的专家网络。这种设计让U2在保持高性能的同时,推理成本显著低于同等规模的密集模型。

云知声创始人黄伟提出了一个颇具启发性的公式:AI公司行业价值 = 智能密度 × Token价值。所谓"智能密度",指的是单位参数中承载的知识量、推理能力和任务解决效率;而"Token价值"则强调每次模型调用能否真正转化为业务成果,而非无效的文本生成。

原生智能体:从"能说"到"能做"

U2最核心的技术突破之一,在于其原生智能体能力。传统大模型的痛点在于,虽然能回答问题、撰写文章,但要完成复杂的多步骤任务(如自主调用工具、规划路径、执行操作并验收结果),往往需要在外部封装厚厚的应用层代码。

U2则将工具调用、状态管理和多步规划全部内化为模型原生能力。其创新设计的"Agent+Harness协同演进"机制,让模型原生Agent能力的提升与任务执行脚手架的迭代优化纳入同一训练闭环,形成双向强化的正反馈循环。简单来说,U2不需要外部提示就能自主完成从任务拆解到工具调用再到结果验收的全流程。

在实际测试中,即便是纯自然语言交互场景,U2也展现出了令人惊艳的"原生规划感"。用户只需用自然语言描述需求,模型便能自主完成代码构建、物理模拟、交互事件挂载等复杂操作,单次交互即可达到验收标准。

十三年深耕:数据壁垒构建护城河

很多人对云知声的印象还停留在语音识别领域,但实际上这家公司的发展主线一直是"智能交互"——语音只是入口,背后是意图理解,再背后才是任务执行。从2012年创立并攻克"5米远讲"技术,到2018年自研AI芯片"雨燕"面世,再到2023年发布山海通用大模型,云知声几乎在每个技术周期都提前布局。

2025年6月,云知声在港交所挂牌上市,被市场誉为"AGI第一股"。其首份年报数据显示,2025年总营收达12.11亿元,同比增长29%,其中大模型相关业务收入6.1亿元,同比增长超过10倍,占整体营收比重已突破50%。截至2025年末,云知声已与全国近450家医院建立合作,A++及以上综合排名医院覆盖率接近35%,在医疗AI领域积累了超过10亿条合规脱敏病历数据。

这些经过真实业务场景验证的数据资产,构成了云知声最难以复制的竞争壁垒。正如黄伟所言:"模型不是靠参数堆出来的,是靠场景喂出来的。"当开源模型能解决70%-80%的通用问题时,剩下20%专业场景的"最后一公里",才是真正决定胜负的护城河。

大模型下半场:从"写得好"到"干得好"

大模型赛道的竞争焦点正在发生根本性转变——从"谁更强"转向"谁能以更低成本、更稳定的方式交付足够强的能力"。在这个新维度上,云知声凭借多年积累的数据壁垒、工程化能力和商业化验证,正在重新定义第一梯队的准入标准。

黄伟将2023到2025年定义为"热身赛",而2026年才是"正赛"的开端——AI从生成式升级为"生产力AI",智能体开始独立完成复杂任务,商业化窗口真正打开。U2的发布,可以看作是云知声吹响正赛哨声的关键一步。当大模型的竞争规则从"写得好"变成"干得好",这张牌桌上的格局,或许正在被悄然改写。

网友留言(0 条)

发表评论

验证码