Mind Evolution可以引导 LLM 更深入地思考复杂问题并有效利用推理时间计算,从而显著增强其解决问题的能力。先前的研究探索了各种策略,包括思路链推理、自洽性、带反馈的顺序修订以及由辅助验证者或评估者指导的搜索机制。基于搜索的方法,尤其是与解决方案评估者配对时,可以利用额外的计算资源来探索更广泛的解决方案候选集。最佳 N 和树搜索等技术利用此功能通过检查更广泛的解决方案空间来增加识别成功解决方案的可能性。
Mind Evolution与 LLM 与进化搜索相结合,用于优化任务,例如数值和组合问题以及自然语言规划。与早期需要在结构化空间中对任务进行形式化的研究不同,这些方法直接用自然语言来发展解决方案,从而绕过了形式化任务所需的专业知识。进化搜索还被应用于快速优化和多智能体系统设计,例如 EvoAgent,它进化出用于解决问题的智能体。
然而,与 Gemini 1.5 Flash 等方法相比,这些方法通常取得的成功有限,在 TravelPlanner 基准等任务中表现出显著的改进。此外,在进化搜索过程中集成的基于程序的评估器提供了可靠的反馈来改进解决方案,这是一种广泛用于各个领域的代码生成和响应改进的技术。虽然已经探索了学习反馈模型或自我评估器,但它们经常受到噪音和不可靠性的影响,为未来的进步提供了机会。
来自 Google DeepMind、加州大学圣地亚哥分校和阿尔伯塔大学的研究人员推出了 Mind Evolution,这是一种进化搜索策略,旨在增强 LLM 的推理时间计算。与 Best-of-N 或顺序细化等先前方法不同,该模型使用遗传方法以自然语言迭代生成、细化和重新组合候选解决方案。
它通过依赖解决方案评估器来避免形式化任务,从而提高 TravelPlanner 和 Natural Plan 等自然语言规划任务的成功率。该模型在 TravelPlanner 上取得了 95.6% 的成功率,并引入了 StegPoet 等新基准,展示了其在具有挑战性的非形式化领域的多功能性。
Mind Evolution将遗传搜索方法与 LLM 和定制提示相结合,以有效解决自然语言规划任务。它采用基于语言的遗传算法,其中解决方案以自然语言表示,使 LLM 能够促进交叉、变异和岛屿重置等关键操作。该过程首先通过 LLM 驱动的提示生成初始解决方案。解决方案使用“通过批判性对话进行细化”(RCC) 过程进行迭代细化,涉及评论家和作者角色进行评估和改进。该框架结合了玻尔兹曼锦标赛选择、岛屿之间的循环迁移和定期岛屿重置,以维持多样性并有效优化解决方案。
实验在三个自然语言规划基准上评估了 Mind Evolution:TravelPlanner、Trip Planning 和 Meeting Planning,由于 Calendar Scheduling 过于简单,因此不进行测试。主要模型 Gemini 1.5 Flash 与指定的超参数一起使用,而两阶段方法结合了 Gemini 1.5 Pro 以解决未解决的案例,从而提高了成本效率。
Mind Evolution的表现优于基线,在 TravelPlanner 和 Trip Planning 中取得了超过 95% 的成功率,在 Meeting Planning 中取得了 85% 的成功率,使用两阶段方法可获得近乎完美的结果。成功率、LLM 调用、令牌使用率和 API 成本等指标凸显了该模型的进化搜索策略与基线相比的效率。
总之,Mind Evolution引入了一种进化搜索策略,以增强复杂自然语言规划任务的推理时间计算,重点是随机探索和迭代改进。与依赖正式求解器的方法不同,Mind Evolution利用语言模型来生成、重新组合和改进候选解决方案,只需要一个解决方案评估器。
它在 TravelPlanner、Natural Plan 和新推出的 StegPoet 等基准测试中的表现优于 Best-of-N 和 Sequential Revision 等策略。
在控制推理成本的情况下,它取得了显著的成功,使用 Gemini 1.5 Pro 解决了 TravelPlanner 和 Natural Plan 基准测试中 98% 以上的问题实例,证明了其在不依赖正式求解器的情况下的有效性。