蚂蚁百灵发布AI新模型，推理成本仅为同类十分之一_前沿科技_资讯

蚂蚁百灵发布AI新模型，推理成本仅为同类十分之一

智链研究WCR 2026-04-23 836

分享至

4月22日，蚂蚁集团百灵大模型团队推出新款Instruct模型Ling-2.6-flash。该模型总参数量1040亿，激活参数量74亿，采用混合线性架构，是一种高度稀疏化的MoE设计。模型已通过API开放，输入每百万tokens定价0.1美元，输出0.3美元，首周提供免费试用。

此前一周，一个名为Elephant Alpha的匿名模型在OpenRouter平台上线，调用量迅速攀升，连续多日位列Trending榜首，日均tokens调用量达100亿级别，周增长超过5000%。百灵今日确认，Elephant Alpha正是Ling-2.6-flash的匿名测试版本。

在性能方面，Ling-2.6-flash在4卡H20环境下推理速度最快可达每秒340个tokens，稳定输出为每秒215个tokens。其Prefill吞吐量达到Nemotron-3-Super的2.2倍。

在Artificial Analysis的完整评测中，该模型仅消耗1500万tokens完成全部评测任务，而Nemotron-3-Super等同类模型需要1.1亿tokens以上，消耗约为后者的十分之一。

此外，模型针对Agent场景做了定向增强，在BFCL-V4、TAU2-bench、SWE-bench Verified等多项基准测试中达到同尺寸模型的最佳水平。

从行业对比来看，MoE架构已成为大模型的主流技术路线。DeepSeek-V3总参数6710亿，激活参数370亿；阿里通义千问Qwen3.5-35B-A3B总参数350亿，激活参数30亿；字节跳动豆包2.0 Pro总参数7440亿，激活参数约40至44亿。

各家都在围绕激活参数这一指标进行优化，试图在模型能力与推理成本之间寻找更优的平衡点。

一个值得关注的现实是，当模型厂商纷纷将激活参数和成本效率作为核心卖点时，用户在实际业务场景中究竟更看重单位token的成本，还是模型解决复杂任务的鲁棒性？这个问题的答案，可能比任何技术参数都更能决定下一代大模型的市场走向。

最新资讯

自特朗普首届任期开启对华贸易摩擦以来，美国联合一众西方盟友持续加码对华高端技术封锁，在半导体、人工智能、量子计算、航空航天、超级计算机及军民两用技术等领域层层设限，试图阻滞中国高端

智联研究 WCR

321

5月25日，在上海举行的国际电路与系统研讨会（ISCAS 2026）这一汇聚全球顶尖半导体学者的学术盛会上，华为公司董事、半导体业务部总裁何庭波发表题为《半导体新路径探索与实践》的主旨演讲，正

心智观察所

226

2026年5月15日,九牧集团有限公司科学技术协会(以下简称“九牧科协”)成立暨第一次会员代表大会在厦门隆重召开。作为九牧科协筹备工作的深度参与方,智链信息技术研究院(以下简称“智链研究院”)

智链研究 WCR

708

（本文原标题：用户驱动技术创新——以医疗器械产业集群为例）一、中国产业集群的发展偏差与本质回归中国制造业已连续15年全球第一，在国际市场中的地位越来越高。梳理中国具备全球竞争优势的产

智链研究王缉慈

628

豆包的“免费午餐”吃到头了。2026年5月4日，这款月活3.45亿的国民级AI助手悄然在苹果应用商店挂出了三档付费订阅价格——标准版68元/月、加强版200元/月、专业版500元/月，连续包年最高标到了5

智链研究 WCR

1056

记者今天（9日）从安徽省量子计算芯片重点实验室获悉，搭载单核180个计算比特自主超导量子芯片的“本源悟空-180”量子计算机已上线运行，今日起开始接收全球量子计算任务。第四代自主超导量子计

智链研究 WCR

372

创新力服务平台