葡萄新京官方网站2026最新版南边科技大学等新琢磨: 让AI智能体在"熟谙"中趁便学会理解宇宙

这项由南边科技大学、香港科技大学、香港科技大学（广州）、香港理工大学以及LIGHTSPEED结合开展的琢磨，以预印本神色发布于2026年6月，论文编号为arXiv:2606.02388，有兴味深远了解的读者可通过该编号查询完整论文。

当咱们评述AI智能体的时候，脑海中表现的往往是那种偶然自主操作网页、在假造房间里完成任务、或者帮你搜索信息的"数字助手"。考验这类助手的主流方式，叫作念强化学习——说白了，便是让AI束缚尝试，作念对了就给奖励，作念错了就扣分，渐渐学会哪些步履能拿到高分。这套逻辑听起来很像考验小狗：作念对了给零食，作念错了不给。

然则问题来了：小狗作念了某个动作之后，它会坐窝看到环境的响应——你皱了眉头，或者快乐肠摸了摸它。但用强化学习考验的AI智能体，收受到的只是"任务完成"或"任务失败"这么的最终评分。至于它每一步操作到底对宇宙酿成了什么影响，它简直一无所知。这就像一个厨师只知谈临了这谈菜被评了几分，却完全不明晰是哪一步下盐、哪一步翻炒出了问题。遥遥无期，厨师可能偶尔作念出佳肴，但永远不会信得过理解烹调的旨趣。

琢磨团队恰是从这个痛点动身，提倡了一个叫作念PaW的考验框架。PaW是"Policy and World modeling co-training"的缩写，直译过来便是"战略与宇宙建模协同考验"。它的中枢想路浅易而奥妙：AI智能体在考验过程中本来就会产生多数"熟谙记载"，每一笔记载都包含了"作念了什么动作"以及"之后环境变成了什么神色"。这些信息昔日只被用来筹办分数，而PaW把它们变成了异常的学习材料，让智能体同期学会"瞻望下一步会发生什么"。不需要异常的数据汇聚，不需要单独竖立一个模拟器，也不会在实验使用时增多任何筹办包袱——充足的学习就发生在本来的考验过程中，顺遂完成。

一、AI智能体的"只知谈限制，不懂过程"逆境

要理解为什么PaW的出现很紧迫，得先搞明晰现存考验方式的局限在何处。

次序的强化学习考验，就像让一个学生反复作念模拟考题，然后只告诉他最终收货，不给任何认知。学生会渐渐摸明晰哪类题型容易得分，但他对知识自己的理解可能依然颓残。在AI智能体的场景里，这种劣势体现得更为显豁：智能体可能学会了某个"限定"——比如在特定情境下输入某个辅导往往能拿高分——但它并不信得过理解这个辅导会对环境产生什么影响。一朝碰到了稍许生疏的场景，或者某个操作产生了不可逆的后果，它就会堕入芜杂。

琢磨团队把这种缺失定名为"宇宙建模才略"的短缺。所谓宇宙建模，说穿了便是：给智能体一个面前状况和一个盘算推算继承的动作，它能瞻望出接下来环境会变成什么样。这听起来像是东谈主类的学问——你知谈绽放雪柜门，雪柜里的东西就会披露在你面前；你知谈搜索"玄色小号T恤"，网页会复返一堆量度商品。但AI智能体若是短缺这种预判才略，就会像一个对宇宙运转毫无见识的东谈主一样，只可靠反复试错蓄积告诫。

为了弥补这个缺口，学术界仍是有一些探索。一类方法是单独考验一个"宇宙模子"，行动模拟器来生成虚伪的考验轨迹，或者在推理时补助贪图。这类方法的代价是：你需要异常一套模子、异常一套考验历程，推理时还要多走一遍模拟要害，系统复杂度大幅高潮。另一类方法是先给模子谨防宇宙建模才略，再启动强化学习考验，相配于分两个阶段完成。这一样意味着更多的时刻和资源插足，何况两阶段的合营自己便是个贫寒事。

PaW的想路则完全不同。琢磨团队发现，强化学习的考验过程中其实早已藏着多数的宇宙建模素材，只是没东谈主用过它们。

二、被疏远的"免费课本"：考验轨迹里的矿藏

每一次智能体履行考验任务，都会留住一段"轨迹记载"，步地毛糙如下：面前状况 → 履行了什么动作 → 赢得了什么奖励 → 环境变成了什么新状况。传统的强化学习只使用前三项——状况、动作、奖励——来更新智能体的战略。而阿谁"环境变成了什么新状况"，也便是动作之后的不雅测限制，一直被白白丢弃。

琢磨团队的中枢洞悉在于：每一条轨迹中的"动作→新不雅测"配对，自然便是一份宇宙建模的考验样本。只须让智能体学会证据面前状况和动作来瞻望下一步的不雅测，它就在熟谙理解环境动态。而这份熟谙材料，每一轮考验都在免费产生，完全不需要异常汇聚。

具体到本领完了，PaW的作念法是：在原有的强化学习亏损函数（也便是饱读舞智能体选定高分动作的指标）以外，添加一个补助的宇宙建模亏损函数，条件归拢个模子还要学会瞻望下一步的不雅测文本。两个指标共用归拢套模子参数，在归拢个考验要害里同期优化。由于讲话模子自然的"因果扫视力"机制——后头的笔墨不成影响前边的瞻望——宇宙建模部分的监督信号不会侵略战略决策部分的学习，两者是非分明。而在实验使用时，模子只需要正常生成动作，完全不需要异常的模拟要害，莫得任何推理支拨。

KPL投注app中国官方下载

这就好比一个学厨的学徒，既在熟谙"下一步该作念什么操作"，又在熟谙"这个操作之后锅里会发生什么变化"，两件事同期学，用的是归拢套熟谙材料，用时不变，却多学了一门作业。

不外，正如真实的考验场景里总有各式侵略要素，这份"免费课本"也远非齐全干净。琢磨团队发现了三个必须治理的实验问题，并为此鉴别想象了对应的治理决策。

三、三谈工序，让"免费课本"真赶巧用

第一个问题是：不是通盘的动作都值得学。

在某些任务里，智能体会反复履行归拢类高度详情的操作，比如在假造房间里一遍又一随处走向指标物体。这类动作的限制简直是不错完全意想的，对学习环境动态莫得太大匡助，反而会让模子把太多元气心灵花在重叠的、低信息量的样本上。

PaW的第一个想象是"基于动作熵的数据筛选"。所谓"动作熵"，不错理解为智能体在选定这个动作时有多纠结——若是它简直笃定地要选某个动作，熵就低；若是它对好几个选项都拿不准，熵就高。熵高的动作证据这个决策点更要害、更复杂，滚球app中国官网下载入口其对应的环境响应也更值得学习。PaW会从每轮考验产生的通盘轨迹里，只挑出熵最高的那一部分治愈样本来作念宇宙建模考验，默许比例是保留75%的高熵样本，丢弃低熵的重叠操作。这么既勤俭了筹办资源，又保证了宇宙建面容本的质地。

第二个问题是：不雅测文本里常常混合着"噪声"。

论文中举了两个灵活的例子。在假造家务任务ALFWorld里，一样是"绽放雪柜1"这个动作，在不同的环境实例里，绽放之后看到的东西完全不同——一次内部有杯子、番茄和酒瓶，另一次内部是碗、鸡蛋和马克杯。这种立时性意味着不雅测自己就不是完全可瞻望的。而在网购任务WebShop里，搜索限制里会混合多数商品编号（比如"B09QQP3356"这么的ASIN码）和品牌称号，这些字符完全立时，根柢无法从语义上瞻望。

若是用次序的交叉熵亏损来考验宇宙建模，模子会被动消费多数元气心灵去"记着"这些立时字符，因为交叉熵亏损对低概率瞻望的刑事使命成倍放大，一个简直不可能猜中的立时编号会产生极大的梯度信号，把模子的优化标的带歪。论文中的分析骄横，在WebShop的场景下，交叉熵亏损中高达32%的梯度份额来自那些被界说为"噪声"的词元，而MAE亏损唯一14%。

PaW的第二个想象是用"截断MAE亏损"替代次序交叉熵。MAE亏损（均全都缺陷亏损）对低概率瞻望的刑事使命是线性的而非指数级的，自然对难以瞻望的词元更宽厚。在此基础上，琢磨团队还加入了一个置信度截断机制：若是模子对某个词元的瞻望概率仍是跳跃了阈值（默许0.2），就合计这个词元仍是学得足够好了，平直从亏损筹办中扬弃，不再施加梯度压力。这么一来，模子会专注于那些"还没学会但值得学"的不雅测词元，既不会在立时噪声上浪辛苦气，也不会反复免强我方去"过度驰念"仍是掌持的内容。

第三个问题是：宇宙建模的补助考验和强化学习的主考验之间，力量需要动态均衡。

若是给宇宙建模指标成立一个固定的、较大的权重，它可能会压过疏淡的奖励信号，让强化学习失去主导。但若是权重太小，补助考验又简直莫得恶果。更要害的是，不同的任务组在不同阶段对宇宙建模的需求是不同的——那些奖励很差、任务简直全部失败的考验组，正处于最需要理解环境动态的阶段；而那些仍是大部分得胜的考验组，只需要不竭精化战略就好。

PaW的第三个想象是"奖励自得当亏损均衡"。每一组考验轨迹都有一个平均申诉，琢磨团队证据这个平均申诉动态筹办宇宙建模的权重：平均申诉越低，权重越大；平均申诉越高（接近满分），权重越小，让强化学习指标当然占主导。这个机制就像一位贤人的教师，对基础差的队员多花时刻素质战术旨趣，对仍是打得很好的队员则让他们更多地在实战中老练手段，而不是反复暖热论。

三个想象组合在一齐，形成了完整的PaW框架，葡萄新京官方网站2026中国最新版并被编写成一个通俗的考验算法：每轮考验，先汇集轨迹，然后筛选高熵治愈样本，用截断MAE筹办宇宙建模亏损，用奖励自得当所有治愈权重，临了和强化学习亏损合并，同期更新模子参数。通盘这个词历程不需要异常的模子推理，也不需要异常的数据汇集，比较基础强化学习只增多了约2.1%的考验时刻和2.4%的GPU内存占用。

四、三个战场，PaW的实战收货单

琢磨团队在三类不同的任务上评测了PaW的恶果，使用的基础模子涵盖了不同边界和系列，强化学习算法也不啻一种。

第一个战场是假造家务任务ALFWorld。这个环境里，智能体需要在假造房间中完成六类家务，包括把某件物品捡起放到指定地点、在灯下查验物品、清洗物品、加热物品、冷却物品，以及一次性捡起两件物品。任务最长可达50步，每一步的操作都会对环境状况产生影响，是典型的长序列决策任务。

在1.5B参数边界的Qwen2.5模子上，搭配GRPO算法，PaW把全体得胜率从70.0%提高到了77.9%，提高了7.9个百分点。搭配更先进的GIGPO算法，全体得胜率从87.6%提高到90.4%，提高2.8个百分点。在7B参数边界的更大模子上，GRPO搭配PaW从77.6%提高到80.6%，GIGPO搭配PaW从90.8%提高到91.8%。提高幅度随模子才略增强而有所收窄，这是合理的——越利害的模子自己仍是更接近天花板，提高空间当然更小。

第二个战场是网购任务WebShop。这个环境里，智能体需要在一个包含11万多件商品的假造电商平台上，证据用户的购物需求搜索并购买合适的商品，任务最长15步。这个场景的特殊性在于商品页面包含多数立时文本，恰是前边提到的"噪声不雅测"最严重的地点，亦然截断MAE亏损阐扬作用的中枢场景。

限制骄横，PaW在WebShop上带来了更大的提高。1.5B模子上，GRPO搭配PaW的得胜率从60.6%跃升至68.6%，提高8.0个百分点；GIGPO搭配PaW从66.2%提高至75.3%，提高9.1个百分点。7B模子上，两种算法鉴别提高4.0和2.9个百分点。

第三个战场是多轮搜索问答任务。这类任务条件智能体通过多轮调用搜索引擎来恢复问题，隐敝了七个不同的问答数据集，包括单跳问答（一次搜索能恢复的）和多跳问答（需要屡次搜索、综合推理能力恢复的）。在3B和7B边界的Qwen2.5模子上，PaW对GRPO和GIGPO都带来了稳固的提高，平平分提高幅度在0.9到3.0个百分点之间。

除了这三个主要战场，琢磨团队还专诚测试了PaW在不同强化学习算法和不同模子眷属上的泛化才略。PPO算法搭配PaW，WebShop得胜率从59.1%提高到65.2%，提高6.1个百分点；RLOO算法搭配PaW从56.7%提高到61.2%，提高4.5个百分点。在模子眷属方面，Qwen3-1.7B搭配PaW提高8.8个百分点，更大的Qwen2.5-14B提高2.4个百分点。这些数据标明PaW不依赖于某种特定算法或模子架构，而是一种精深适用的增强方法。

五、当平日强化学习透顶失效，PaW依然能救场

琢磨中最引东谈主爱护的一个发现，是PaW在"平日强化学习根柢学不动"的极点场景下的阐扬。

用Llama3.2-3B模子在WebShop上作念GRPO考验，限制考验了150步，模子的得胜率恒久在0近邻犹豫——简直通盘的任务都失败了，奖励信号相配疏淡，相配于学生作念了150谈题，每次都是零分，完全不知谈我方到底何处出了错。在这种情况下，强化学习失去了不错学习的信号，考验堕入停滞。

加入PaW之后，情况发生了戏剧性的滚动。尽管任务奖励依然帮衬，宇宙建模的亏损却提供了密集的学习信号——模子每一步都在尝试瞻望"履行这个动作之后，购物网站会骄横什么"，这个熟谙不依赖任务是否得胜，只须有状况-动作-新状况的三元组就能进行。通过这种方式，模子渐渐蓄积了对环境运转方式的理解，最终启动产生得胜的购物轨迹，为强化学习提供了正向奖励信号，考验得以不竭激动。最终得胜率从简直为零的4.0%跃升至62.2%，提高了惊东谈主的58.2个百分点。

这个限制揭示了PaW的一个异常价值：它不单是是对仍是在学的强化学习的诚心诚意，还不错在疏淡奖励的繁难场景下饰演"引路东谈主"的变装，匡助智能体从零启动找到学习的标的。

六、消融实验：三个想象统筹兼顾

琢磨团队还作念了一系列消融实验，专诚考据PaW三个中枢想象的各自孝顺。

若是把奖励自得当权重去掉，改为对通盘考验组使用固定的权重1，ALFWorld得胜率从77.9%着落到75.5%，WebShop从68.6%着落到67.0%。两项任务都着落了，证据自得当权重如实有助于均衡补助考验和主考验之间的联系。

更大的影响来自亏损函数的选定。若是把截断MAE亏损换回次序的交叉熵亏损，ALFWorld得胜率从77.9%骤降至68.5%，WebShop从68.6%骤降至57.2%——后者以致比莫得PaW的基础GRPO（60.6%）还要差。这个限制绝顶显豁：在有噪声不雅测的环境里，失实的亏损函数不仅帮不上忙，反而会负担主任务的学习。交叉熵亏损对立时噪声词元的过度刑事使命，会把模子的优化资源引向失实的标的，导致战略学习受损。

琢磨团队还测试了熵选定比例α和截断阈值ρ两个超参数的明锐性。限制骄横，在较宽的参数边界内（α从0.25到1.0，ρ从0.0到0.8），PaW都能带来比基础GRPO更好的收货，最好值鉴别在α=0.75和ρ=0.2近邻。这意味着PaW对超参数不是稀少明锐，不需要缜密治愈也能就业。

说到底，PaW作念的事情不错用一句话轮廓：它发现了强化学习考验过程中被耐久疏远的"边角料"，把它们变成了有价值的学习材料，匡助智能体在熟谙"作念什么"的同期顺带学会了"作念了会若何"。这种双管都下的考验方式，不需要异常的资本，却带来了实确切在的才略提高。

关于平日东谈主而言，这项琢磨的意旨在于：将来那些帮你购物、帮你查贵府、帮你操作电脑的AI助手，可能会因为近似的考验方式而变得愈加贤人庄重，不仅知谈该作念什么，还信得过理解每一步操作会带来什么后果——而这种理解，恰是让AI助手在复杂、真实的任务中不出错的要害。

虽然，琢磨团队也坦诚地指出了面前框架的局限。PaW现在只学习"下一步的不雅测"，关于更永远的多步影响链条，还莫得显式建模。在某些任务里，一个动作的信得过影响可能要好几步之后才会体现，这部分才略还需要将来的就业来探索。此外，考验轨迹中可能存在多数重叠的旅途，这会使宇宙建模的学习样本产生偏差，如何引入各类性采样亦然一个值得深远的标的。感兴味的读者不错通过arXiv:2606.02388查阅完整论文，了解通盘本领细节。

Q&A

Q1：PaW框架是什么，和平日强化学习考验有什么不同？

A：PaW是一种战略与宇宙建模协同考验框架。平日强化学习只用"作念了什么动作、得了若干分"来更新模子，而PaW异常诳骗了考验过程中产生的"动作之后环境变成什么样"这一信息，让模子同期学会瞻望下一步的环境状况。通盘这个词过程共用归拢套考验数据，不需要异常的模子或数据汇聚，推理时也莫得任何异常支拨。

Q2：截断MAE亏损为什么比交叉熵亏损更合适宇宙建模考验？

A：在网购、家务等真实环境里，不雅测文本中包含多数立时字符（如商品编号、品牌名等），根柢无法从语义上瞻望。次序交叉熵亏损对这类低概率瞻望的刑事使命会成倍放大，导致模子把多数优化资源花在"记噪声"上，反而侵略了主任务的战略学习。截断MAE亏损对低概率词元的刑事使命是线性的，加上置信度截断机制，只爱护"还没学会且值得学"的内容，幸免了这种侵略，实验骄横替换亏损函数后WebShop得胜率提高跳跃11个百分点。

Q3：PaW在强化学习完全学不动的情况下果真有用吗？

A：有实考据据复旧。用Llama3.2-3B模子在WebShop上作念平日GRPO考验，考验150步后得胜率仍接近零，奖励信号相配疏淡，考验堕入停滞。加入PaW后，宇宙建模亏损提供了密集的学习信号——每一步都在瞻望环境变化葡萄新京官方网站2026最新版，不依赖任务是否得胜。模子借此蓄积了对环境的理解，渐渐产生得胜轨迹，最终得胜率从4.0%跃升至62.2%，提高了58.2个百分点。

葡萄新京官方网站2026中国最新版

新葡京app下载

葡萄新京官方网站2026最新版南边科技大学等新琢磨: 让AI智能体在"熟谙"中趁便学会理解宇宙

澳门新葡京

关于新葡京

新葡京真人

新葡京电子

新葡京世界杯

友情链接

新葡京app下载

葡萄新京官方网站2026最新版 南边科技大学等新琢磨: 让AI智能体在&quot;熟谙&quot;中趁便学会理解宇宙

澳门新葡京

关于新葡京

新葡京真人

新葡京电子

新葡京世界杯

友情链接

葡萄新京官方网站2026最新版南边科技大学等新琢磨: 让AI智能体在"熟谙"中趁便学会理解宇宙