李飞飞DeepMind全新「代码链」碾压CoT!大模型用Python代码推理,性能暴涨12%

首页 > 科技

李飞飞DeepMind全新「代码链」碾压CoT!大模型用Python代码推理,性能暴涨12%

来源:戏说健康 发布时间:2023-12-24 14:53

李飞飞DeepMind全新「代码链」碾压CoT!大模型用Python代码推理,机能暴涨12%

  新智元报道  

编纂:桃子

【新智元导读】激发大模型解决复杂题目的重要技术之一CoT,如今要被颠覆了?谷歌DeepMind斯坦福UC伯克利共同提出了「代码链」(CoC),让LLM在代码中学会了思索。

思维链(CoT),最具开拓性和影响力的提示工程技术之一,能增强LLM在推理决议计划中的表现。

那么,假如大模型可以在代码中「思索」,会如何呢?

最近,谷歌DeepMind、斯坦福、UC伯克利团队联手提出了全新技术——「代码链」(CoC)。

论文地址:https://arxiv.org/pdf/2312.04474.pdf

「代码链」是一种将编码逻辑与自然语言理解相结合,简朴却非常有效的立异方法,能够晋升LLM基于代码的推理能力,让其更智能、更通用。

再通俗点讲,CoC答应LLM天生「伪代码」来分解困难,通过LMulator执行有效代码,模拟无效代码。

研究结果显示,在BIG-Bench Hard基准上,CoC实现了84%的准确率,比CoT进步了12%。

另外,在BIG-Bench Hard的23项任务中,CoC在18项任务中超过了人类的均匀表现。

看得出,「代码链」将CoT向前推进了一步,并将天生用于逻辑推理的代码与LLM的语义推理集成在一起。

研究职员称CoC非常适合机器人技术,可以进行语义和算法推理,在现实世界中的表现让人惊艳。

对垃圾和可回收物进行分类。

还可以预备出西红柿炒蛋的配菜。

值得一提的是,李飞飞的学生也是这篇论文的核心作者之一。

「代码链」让大模型用代码思索

除了CoT,先前的工作还有多种方法来晋升大模型推理能力。

好比,Program of Thoughts(思维程序)提示编写并执行代码,还有ScratchPad提示通过跟踪程序状态的中间步骤来模拟运行已经写入的代码。

最新工作中,研究职员提出了「代码链」(CoC),其中大模型不仅编写一个程序,还可以改善大模型基于代码的推理能力。

具体来说,大模型不仅编写一个程序,而且还有选择性地「模拟」解释器,通过天生天生某些代码行的预期输出。

枢纽思路是,鼓励大模型将程序中的语义子任务格式化为灵活的伪代码,在运行时可以明确地捕捉到这些伪代码,并将其交给LLM进行仿真。作者将其称为LMulator。

举个栗子,给定任务「在上面的段落中,数一数这个人讽刺了多少次」。

接下来,可以在在上下文中提示LM一个可以调用辅助函数的程序,例如is_sarcastic(sentence),LM对此进行语言猜测,并将结果作为布尔(boolean)结果输出返回,然后与程序的其余部分一起处理。

具体来说,研究职员将LM推理公式化为以下过程,如下图所示:

LM编写代码,解释器逐步执行每行代码(红色) 。或者假如失败,则用LM (紫色)模拟结果,并更新程序状态(绿色)。

CoC 继续了(i)编写可执行代码(将精确的算法计算留给解释器)和(ii)编写语义题目的伪代码,并天生其输出(可视为简朴的格局更改,LM对其具有很强的适应性)的长处,使LM能够「用代码思索」。

上一篇:Thai-Anime -... 下一篇:Writei - Bes...
猜你喜欢
热门阅读
同类推荐