首页 > 原创知识 > 原创知识 > 苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

发布时间:2025-06-06 16:18:19 来源: 18638159832
AI「思考」只是假象?
 
  刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃!
 
  随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
 
  这太违背直觉了,似乎Scaling Law在推理时完全失效了。
 
  值得一提的是,论文作者中还有Samy Bengio,他也是图灵三巨头Yoshua Bengio的兄弟。
 
 
  论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
 
  LRM模型因能「写出思考过程」而备受期待,被认为是AI推理能力跃升的关键。
 
 
  DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程
 
  但研究人员通过可控游戏环境的系统实验证明:现有LRMs不仅在高复杂度任务上力不从心,甚至还展现出一种「反常的推理崩溃曲线」——题目越难,它们反而越不「努力」。
 
  研究还通过在相同计算token预算下对比思考模型与普通模型,发现:
 
  不同于大多数仅衡量最终性能的研究,这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。
 
  三种不同的性能区间
 
  与以往主要依赖数学问题来评估语言模型推理能力的研究不同,本研究引入了可控的解谜环境。
 
  这种环境可以精确调节问题的复杂度,同时保持逻辑过程的一致性,从而更严谨地分析模型的推理模式和局限性。
 

原创知识更多>>

4月MPV排行榜出炉,岚图梦想家排第一,别克GL8跌到第七? 重磅官宣,JEEP又要回来国产了! 承载式车身带大梁?广汽首款“方盒子”盲猜会火 售价17.98万元起,2026款红旗H6上市,配2.0T+8AT,竞争本田雅阁 总投资额超80亿元 东风汽车与斯泰兰蒂斯集团签署合作协议 1.5T插混,红旗官宣:新车5月20日上市 顶流间的“双向奔赴”!王力宏“力挺”腾势,出任全球代言人 三款重磅新车同日上市 长城猛龙PLUS领衔 最低售16.98万元 全新纯电奔驰GLC,纯电驱动,续航680km,7月正式上市 本田City改款车型的车头造型曝光,更具运动感,沿用原底盘! 敢为泰山 智鉴不凡 岚图泰山X8全场景体验营暨全系深度试驾会落幕 “落后”咋了?捂了大半年,特斯拉用70ms,给国产电动车上了一课 VISION BMW ALPINA(宝马阿尔宾纳设计概念车)全球首秀 岚图泰山X8全场景体验营暨全系深度试驾会圆满落幕 第十八届轩辕蓝皮书论坛开幕,贾可首发汽车十大转折 新一代理想L9上市,但我劝你再等等新问界M9 热爱自由 活出棱角:长城猛龙PLUS正式上市,售价11.69万元起 充电比加油快,腾势N9闪充版刷新豪华旗舰,价格会涨吗? 紧凑型SUV“火力升级”5款新车来袭 领克20、奇瑞风云T7领衔 方盒子2.0:猛龙PLUS如何用“家庭深度定制”开启品类新周期 2026环塔前瞻:长城车队能否再创不败神话? 限时红包价10.99万起,奇瑞风云T9长续航版正式上市 全新一代理想L9上市45.98万元起,能否扛起销量大旗? 现代汽车Q1营收创新高,营利却跌了三成多,这账该咋算? 刚刚,JeePAvenger发布,造型潮流又个性 东风奕派M8官图发布!大六座SUV,华为乾崑辅助驾驶,5月内亮相 奥迪发布新款Q4 Sportback e-tron官图 智界V9上市发布,售价38.98万-51.98万元 小米YU7 GT实车到店,搭载车厘子红车色+红黑内饰,5月底发布 车身加长,可选7座,哈弗猛龙Plus正式上市16.18万元起