Meta新突破!缩短思维链,减少推理token使用高达46%
正文: Meta公司联合Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学的研究团队共同提出了一种名为“元认知复用”(Metacognitive Reuse)的创新机制,旨在解决大型语言模型在处理复杂任务时,如数学和编程问题,常常陷入重复推导的困境。
这项新技术的核心在于让模型自身回顾并总结解题思路,将常用的推理步骤提炼成简洁的“行为”,并存储在一个名为“行为手册”的知识库中,这样一来,当模型再次遇到类似问题时,可以直接从手册中调用相应的行为,无需重新推导。

实验结果表明,这一机制在MATH、AIME等数学基准测试中表现优异,不仅保持了模型的准确率,还在推理token的使用上实现了显著减少,最多可降低46%。
具体来看,该机制通过以下三种应用场景实现了这一目标:
行为条件推理(BCI):在MATH和AIME数据集上,模型使用更少的token就能达到与基线相当甚至更优的性能。
行为引导的自我改进:模型通过对自身推理轨迹的反思和修正,实现了自我优化,即使不更新参数,也能提升推理效果。
行为条件监督微调(BC-SFT):该方法能更有效地将高质量的行为融入模型参数中,使原本不具备推理能力的模型转化为具备推理能力的模型。
通过这些创新,Meta的新方法不仅缩短了模型的思维链,还大幅提高了其效率,为大型语言模型在复杂任务处理中的应用开辟了新的可能性。