o3崛起，但推理模型离「撞墙」只剩一年？

分类：国内来源：新浪新闻发布时间：2025-05-31

来源：新智元报道

编辑：英智

[新智元导读]OpenAI的o3推理模型席卷AI界，算力暴增10倍，能力突飞猛进！但专家警告：最多一年，推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜？

最多一年，推理模型就会撞上训练算力的‘天花板’。

OpenAI的o3这样的推理模型，诞生还不到一年，能力已经突飞猛进。OpenAI的研究人员非常乐观地认为，这种趋势会持续下去。

但问题来了：推理模型到底还能进步到什么程度？

Epoch AI是一个独立的AI研究团队，专注于对大模型的发展速度、发展轨迹以及可能产生的社会影响进行前瞻性研究。

他们认为，推理模型确实还有进步空间，但想让OpenAI或者其他顶尖AI公司实现‘指数级大飞跃’，基本不太可能。

按现在的节奏，每几个月计算能力翻10倍（就像o1到o3那样），估计最多一年就会撞墙。

到2026年，扩展速度将会放缓，回落到每年4倍的增速水平，模型的升级速度也会跟着变慢。

如果类似o1到o3这样的规模提升持续下去，推理计算资源增长的可能轨迹

研究的主要线索如下：

o3的训练算力是o1的10倍，基本是指推理训练阶段，o3在o1发布4个月后就推出了。
虽然不知道o1具体用了多少算力，但DeepSeek-R1可以用来参考。
英伟达的Llama-Nemotron、微软的Phi-4-reasoning，也透露出一些训练细节。
Anthropic CEO Dario Amodei也发表过相关看法。

前沿推理模型得烧多少算力？

OpenAI的o3和其他推理模型，都是从传统大语言模型发展而来的。

最开始，模型会用海量人工标注数据进行‘预训练’；然后进入强化学习阶段，通过反馈优化模型解决难题的能力，这就是‘推理训练’。

从历史上看，算力是AI发展的关键。

所以得搞清楚：现在推理训练到底用了多少算力？还能增加多少，这又会怎么影响模型的能力？

虽然推理模型在AI圈火得一塌糊涂，但推理模型的推理训练算力的公开信息却很少。

从o1到o3：推理算力翻了十倍

OpenAI发过一张图，对比o1和o3在AIME基准测试的表现，横轴是推理训练的算力。

它表明，o3的训练算力是o1的10倍。

摘自OpenAI的o3直播发布会

为啥说横轴不是总算力？

因为o1早期版本的算力比o3少4个数量级，但AIME得分也有25%，要是算总算力，这个成绩就太离谱了。

此外，如果横轴是总计算资源，就意味着OpenAI训练了许多预训练阶段高度不完整的o1版本。

OpenAI研究员最近也透露，公司接下来打算重点发展强化学习，投入的计算资源会比训练初始模型时还要多。

o3具体用了多少算力？目前没实锤，得从其他模型和业内人士的话里找线索。

来自DeepSeek-R1的见解

大部分AI公司都把训练细节捂得严严实实，但DeepSeek大方公开了R1的数据：

DeepSeek-R1在强化学习阶段花了6×10²³次浮点运算（成本约100万美元），生成了2万亿个token，大约是基础模型DeepSeek-V3预训练成本的20%。

这个数据虽然有误差，但仍然很有帮助，DeepSeek-R1和o1水平差不多，可作为基准。

不过，由于各种原因，DeepSeek-R1的推理算力可能与o1不同。两个模型参数量、计算效率都不一样，所以结果仅供参考。

其他推理模型的启示

英伟达的Llama-Nemotron Ultra 253B和微软的Phi-4-reasoning也公开过数据：

Llama-Nemotron Ultra：强化学习阶段用了14万小时H100算力（约1×10²³次浮点运算），不到基础模型预训练成本的1%。
Phi-4-reasoning：推理阶段规模更小，生成4.6亿个token，计算成本不到1×10²⁰次浮点运算，算力消耗不到预训练的0.01%。

这两个模型在基准测试中都取得了出色的成绩，Llama-Nemotron的成绩与DeepSeek-R1和o1相当。

但它们在强化学习阶段之前都做了‘监督微调’，用了大量其他推理模型生成的高质量推理链示例，和o1、o3这种前沿模型的训练逻辑不太一样，参考价值有限。

业内大佬怎么看？

总体而言，这些信息对于了解o1或o3的训练算力规模帮助有限。

有一点可以确定：像Phi-4这样的某些模型，推理训练计算资源（至少在强化学习阶段）可能相对较少。

这并不意味着o3也是用同样少的计算资源进行训练的，但这确实表明，仅从一个推理模型在基准测试中表现良好，很难判断其推理算力的规模。

此外，传统的监督微调在推理模型的开发中可能发挥着重要作用。由于训练方法多种多样，在没有公开训练细节的情况下，很难猜测推理模型的推理训练规模。

Anthropic CEO Dario Amodei今年1月提到：

相关推荐

免责声明：

1、本网站所展示的内容均转载自网络其他平台，主要用于个人学习、研究或者信息传播的目的；所提供的信息仅供参考，并不意味着本站赞同其观点或其内容的真实性已得到证实；阅读者务请自行核实信息的真实性，风险自负。