自动确定工具分辨率问题,RL扩展,以扩大奥林匹
发布时间:2025-04-03 10:03
通过探索提高理解大型模型的能力,该工具的使用始终是克服语言模型的计算限制的主要途径。但是,当今的大型模型仍然对使用工具的使用有一些局限性,例如预先确定工具使用模式,限制了最佳方法的探索以及实现透明度不足。为了解决这些问题,来自上海Jiaotong大学,SII和Gair的研究团队提出了一个新的情节Torl(工具组合的加固),该模型可以直接从基本模型开始,并独立地探索使用压力的最佳方法,而不是通过使用TOLL而不是有限的工具来研究压力,而不是使用有限的工具,而不是有限的工具工具。标题NG论文:TORL:缩放工具 - 集成RL纸张地址:https://arxiv.org/pdf/2503.233383代码地址:https://github.com/github.com/github.com/gith-nlp/torl dataset地址:ModelOng:https://huggingface.co/gair/torl-7b实验表明,该方法在数学推理活动中取得了重大成功:TORL-7B在AIME24中的准确性达到了43.3%,这比没有工具的基线RL模型要好。 14%,最高17%的工具集成模型。图1:将TORL性能与AIME24(例如AIME24)的基准比较比基线和现有TIR系统1更好。为什么我们应该直接从Dock模型扩展工具中直接结合增强加固的研究?在传统工具推理(TIR)领域,研究人员长期以来一直遵循看似不稳定的铁:在研究研究之前,应通过管理教会模型(SFT)使用工具。首先,这种SFT的范式和RL就像将预设形状的链子放入AI中一样。尽管它将实现可靠的性能提高,但它可能找不到最佳的工具使用方法。正如每个人都叠加了计算数据和功率沿T他既定的路线研究团队大胆地提出了一个假设:如果模型允许完全探索工具的使用情况会怎样? The Torl outline they developed was like opening a new door -starting directly from the base model, allowing AI to be able to master the essence of using the tool by simply expanding the education of the reinforcement.Experimental results are surprising: Torl not only breaks the ceiling of the traditional TIR method, but makes the model spontaneously spontaneously with three essential capabilities: tools such as human experts choose the intuition that corrects self-correct codes.动态切换解决计算和推理问题的智慧。这些功能完全由奖励信号驱动,并且自然形成而没有任何人为的预测。它使人们思考:托尔已经证明,大型模型可以拥有强大的工具,但是他们只需要更多开放的学习方式才能释放。当基础研究仍然竞争时对于数据量表和算法的复杂性,Torl告诉我们有事实:有时候,最新的不人道最新情况会带来更多意外的惊喜。图2:TORL使用自然语言和代码工具进行验证,并在发现不一致之后进一步使用工具验证。 2。技术分析:Torl如何提供工具组合工具(TIR)工具集成的主要框架(TIR)提供了大型语言模型来编写代码,使用外部工具执行计算,并避免基于实现结果避免理解过程。可以用简单的语言来描述此过程,例如:当语言模型面临问题时,TIR允许该模型开发出许多步骤的推理轨迹。在每个步骤中,该模型首先使用自然语言来降低,然后使用-kattitude代码生成,然后获取代码实现的结果,并结合这三个部分以生成完整的理解过程g。随着推理的加深,该模型将继续咨询劣质,代码和实施结果的先前内容,以进一步调整自己的想法。 TORL:直接从板模型中研究加固,Torl框架将TIR结合到了直接从语言板模型开始的强化研究中,而无需先进行微调。这使模型可以独立发现有效的工具使用技术。在模型理解过程中,当检测到代码标识代码(``````````输出'')时停止文本生成,捕获代码块的最新实现,并在上下文中上下文的IntegrateSthe结构化结果。该系统将继续开发随后的自然语言信息,直到模型提供最终答案或生成新的代码块为止。选择设计和考虑:工具呼叫频率控制:为了平衡训练效率,超参数C在被绑定以表示每一代响应允许的最大工具调用数量;选择实施环境:选择翻译器代码的稳定,准确和响应式实现;错误消息处理:关键错误中的IXtract信息以减少上下文长度;沙盒输出掩码:掩盖沙箱环境的输出,以计算损失以提高训练稳定性。奖励设计:实施了基于奖励的规则,正确的答案是Gagantimpalana + 1,错误的答案将被奖励-1。此外,该研究还试图探索基于实施的惩罚:包含难以想象的代码的响应导致奖励减少-0.5。在默认的实验设置中,仅使用答案准确性的奖励。 3。实验实验:TORL性能优势图3:将TORL精度与数学基准测试结果进行比较,表明Torl总是比巴塞尔更好所有测试基准的模型。对于1.5b参数的参数,Torl-1.5b的平均准确性达到48.5%,超过QWEN2.5-MATH-1.5B-TEACHing(35.9%)和QWEN2.5-MATH-1.5B-1.5B-INSTRUCT-TIRT-TIR(41.3%)。在7B参数模型中,性能提高更为重要,TORL-7B的平均精度为62.1%,比具有相同基本模型的其他开放资源模型高14.7%。图4:培训Torl在数学基准测试上的动态图4显示了五个不同数学基准的动态练习。 TORL-7B在训练步骤中不断提高,并保持了重大好处。这种性能差距对于具有挑战性的基准(例如AIME24(43.3%),AIME25(30.0%)和奥林匹克山顿(OlympiaDbench)(49.9%),这种性能差距尤为重要。 4。探索:使用模型使用训练工具的演变。图5:当训练步骤数量增加时,TORL代码使用和有效性的变化。图5提供了对TR期间工具使用模式的深入了解AINING:代码比:模型产生的代码产生的响应比例从40%增加到了前100个步骤中的80%,显示了整个培训过程中稳定的改善:成功执行的代码的比例显示出连续的向上趋势na epektibo ang代码ng代码:suriin ang pagbabago sa Apportyon ng epektibong代码,Kabilang Ang代码Na Matagumpay na naisakatuparan na Naisakatuparan in Code na Nabuo agnabuo ang ang Modelo ay ngbibigay ng pangbibigay ng pangbigigay ng pangwakas na na sagot Pagsasanay sa oras ng Pagsasanay:Habang tumataas ang Mga hakbang sa pagsasanay,ang Appoporsyon ng代码na ginamit na ginamit ng modelo modero upang malutas ang maga ang a ang pocorporsyon to ang apposyon to na maaaring maaaring maaaring maaaring maaaring maaaring maaaring nang nang nang nang nang nang nang tama生长。同时,该模型可以识别和减少无效代码的生成。关键参数图片的效应集6:探索相应最大次数(左2)和实现(2右)在模型性能中的影响。研究团队探索Torl的基本设置对最终性能和行为的影响:首先,实验探索增加C的影响(工具的最大数量可以称为单代工具数量)。将C从1增加到2可显着提高性能,平均精度约为2%。但是,添加C可以显着降低训练速度,这需要绩效和效率之间的权衡。此外,审查了将代码可执行性奖励对奖励奖励的影响。结果表明,这种奖励设计并不能提高模型性能。 PAN团队尽管如此,实施错误的惩罚可以激发该模型也可以生成SIMPLE代码以减少错误,这可能会阻碍纠正问题的能力。增强训练加强阶段的建模模型的新兴扩展,这帮助我们了解了使用工具解决问题的提供模型的行为。例如,该模型可以根据代码翻译器的反馈来调整其推理。例如,在一个情况下,该模型首先编写了代码,但是索引错误是由处理不当引起的。从TypeError接收反馈:未订阅INT对象后,它会迅速搜索并生成实现的代码,最终将减去正确的答案。图7:案例1-torlrecondsonds构建了通过执行错误反馈推理代码,另一种情况显示了该模型的认知认知行为。该模型首先通过自然语言推理解决了问题,然后通过工具证明了这一点,但发现了矛盾。因此,模型IS进一步修改以最终提出正确的答案。图8:案例2-TORL使用代码工具来验证识别的校正结果主要发现:TORL产生各种认知行为,包括从代码实现结果中获得反馈,以及通过代码和自然语言进行交叉检查。 5。前景和重要性:超越数学的研究工具使TORL可以通过研究强化来结合工具工具,超越了工具使用的预定障碍。研究结果表明,绩效的显着改善和新兴识别能力,表明托尔有潜力在复杂的理解中推动大型语言模型的发展。这种直接从基本模型扩展的方法不仅在数学领域表现良好,而且在其他领域开辟了新的可能性,在这些领域中,精确的计算,模拟或算法推理,例如科学计算,经济建模和SOLVI,ng算法的问题。研究团队实施了代码,数据集和培训模型开放资源,从而使社区能够进一步扩展对基于Pinatool的工具的语言模型的研究。项目链接:https://github.com/gair-nlp/torl