李飞飞DeepMind全新「代码链」碾压CoT！大模型用Python代码推理，性能暴涨12%

首页 > 科技

李飞飞DeepMind全新「代码链」碾压CoT！大模型用Python代码推理，性能暴涨12%

来源：戏说健康发布时间：2023-12-24 14:53

李飞飞DeepMind全新「代码链」碾压CoT！大模型用Python代码推理，机能暴涨12%

新智元报道

编纂：桃子

【新智元导读】激发大模型解决复杂题目的重要技术之一CoT，如今要被颠覆了？谷歌DeepMind斯坦福UC伯克利共同提出了「代码链」（CoC），让LLM在代码中学会了思索。

思维链（CoT），最具开拓性和影响力的提示工程技术之一，能增强LLM在推理决议计划中的表现。

那么，假如大模型可以在代码中「思索」，会如何呢？

最近，谷歌DeepMind、斯坦福、UC伯克利团队联手提出了全新技术——「代码链」（CoC）。

论文地址：https://arxiv.org/pdf/2312.04474.pdf

「代码链」是一种将编码逻辑与自然语言理解相结合，简朴却非常有效的立异方法，能够晋升LLM基于代码的推理能力，让其更智能、更通用。

再通俗点讲，CoC答应LLM天生「伪代码」来分解困难，通过LMulator执行有效代码，模拟无效代码。

研究结果显示，在BIG-Bench Hard基准上，CoC实现了84%的准确率，比CoT进步了12%。

另外，在BIG-Bench Hard的23项任务中，CoC在18项任务中超过了人类的均匀表现。

看得出，「代码链」将CoT向前推进了一步，并将天生用于逻辑推理的代码与LLM的语义推理集成在一起。

研究职员称CoC非常适合机器人技术，可以进行语义和算法推理，在现实世界中的表现让人惊艳。

对垃圾和可回收物进行分类。

还可以预备出西红柿炒蛋的配菜。

值得一提的是，李飞飞的学生也是这篇论文的核心作者之一。

「代码链」让大模型用代码思索

除了CoT，先前的工作还有多种方法来晋升大模型推理能力。

好比，Program of Thoughts（思维程序）提示编写并执行代码，还有ScratchPad提示通过跟踪程序状态的中间步骤来模拟运行已经写入的代码。

最新工作中，研究职员提出了「代码链」（CoC），其中大模型不仅编写一个程序，还可以改善大模型基于代码的推理能力。

具体来说，大模型不仅编写一个程序，而且还有选择性地「模拟」解释器，通过天生天生某些代码行的预期输出。

枢纽思路是，鼓励大模型将程序中的语义子任务格式化为灵活的伪代码，在运行时可以明确地捕捉到这些伪代码，并将其交给LLM进行仿真。作者将其称为LMulator。

举个栗子，给定任务「在上面的段落中，数一数这个人讽刺了多少次」。

接下来，可以在在上下文中提示LM一个可以调用辅助函数的程序，例如is_sarcastic(sentence)，LM对此进行语言猜测，并将结果作为布尔（boolean）结果输出返回，然后与程序的其余部分一起处理。

具体来说，研究职员将LM推理公式化为以下过程，如下图所示：

LM编写代码，解释器逐步执行每行代码（红色）。或者假如失败，则用LM （紫色）模拟结果，并更新程序状态（绿色）。

CoC 继续了（i）编写可执行代码（将精确的算法计算留给解释器）和（ii）编写语义题目的伪代码，并天生其输出（可视为简朴的格局更改，LM对其具有很强的适应性）的长处，使LM能够「用代码思索」。

上一篇：Thai-Anime -... 下一篇：Writei - Bes...

猜你喜欢

热门阅读

Win11任务栏怎么透明？

Win11任务栏怎么透明？

匿名

2022-09-08

同类推荐

驭见数智未来：中国移动智慧交通解决方案如何重塑城市脉动

当北京国贸桥晚高峰的车流在数字孪生系统中化为跳动的光点，当粤港澳大湾区数千艘货轮通过区块链智能合约自动缴付通行费，当川藏线货运司机在5G+北斗导航指引下穿越浓雾——这些场景勾画出中国交通工业数字化转型的壮阔图景。面对城市拥堵管理的世界性困难与"双碳"目标的时代命题，中国移动政企客户分公司以"连接+算力+能力"新型服务体系为基石，正构建起人、车、路、云深度融合的聪明交通新范式，让城市血脉更畅通，让万物位移更高效。

综艺大集合

2025-04-02