OpenAI要为GPT-4解决数学问题了：奖励模型指错，解题水平达到新高度

首页 > 科技

OpenAI要为GPT-4解决数学问题了：奖励模型指错，解题水平达到新高度

来源：幽默段子发布时间：2023-06-01 13:56

OpenAI要为GPT-4解决数学题目了：奖励模型指错，解题水平达到新高度

机器之心报道

机器之心编辑部

对于具有挑战性的 step-by-step 数学推理题目，是在每一步给予奖励仍是在最后给予单个奖励更有效呢？OpenAI 的最新研究给出了他们的谜底。

现在，大语言模型迎来了「无所不能」的时代，其中在执行复杂多步推理方面的能力也有了很大进步。不外，即使是最进步前辈的大模型也会产生逻辑错误，通常称为幻觉。因此，减轻幻觉是构建对齐 AGI 的枢纽一步。

为了练习更可靠的模型，目前可以选择两种不同的方法来练习奖励模型，一种是结果监视，另一种是过程监视。结果监视奖励模型（ORMs）仅使用模型思维链的终极结果来练习，而过程监视奖励模型（PRMs）则接受思维链中每个步骤的奖励。

考虑到练习可靠模型的重要性以及人工反馈的高本钱，仔细比较结果监视与过程监视非常重要。固然最近的工作已经开展了这种比较，但仍旧存在许多题目。

在本文中，OpenAI 进行了调研，结果发现在练习模型解决 MATH 数据集的题目时，过程监视明显优于结果监视。OpenAI 使用自己的 PRM 模型解决了 MATH 测试集中代表性子集的 78% 的题目。

此外为了支持相关研究，OpenAI 还开源了 PRM800K，它是一个包含 800K 个步级人类反馈标签的完整数据集，用于练习它们的最佳奖励模型。

如下为一个真正（True positive）的问答示例。该题目以及 OpenAI 列举的其他题目示例均来自 GPT-4。这个具有挑战性的三角学题目需要并不显著地连续应用多个恒等式。大多数解决方案尝试都失败了，由于很难知道哪些恒等式实际上有用。尽管 GPT-4 通常无法解决这个题目（正确率仅为 0.1% ），但本文的奖励模型准确地识别出了这个解决方案是有效的。

再看一个假正（False positive）的问答示例。在第四步中，GPT-4 错误地声称该序列每 12 个项重复一次，而实际上是每 10 个项重复一次。这种计数错误偶然会愚弄奖励模型。

论文作者之一、OpenAI Alignment 团队负责人 Jan Leike 表示，「使用 LLM 做数学题的真正有趣结果是：监视每一步比只检查谜底更有效。」

英伟达 AI 科学家 Jim Fan 以为，「这篇论文的观点很简朴：对于挑战性的逐步题目，要在每一步给予奖励，而不要在最后给予单个奖励。从根本上来说，密集奖励信号＞稀疏。」

我们接下来细看 OpenAI 这篇论文的方法和结果。

上一篇：常进京美容的... 下一篇：积分兑换礼品...

猜你喜欢

热门阅读

Win11任务栏怎么透明？

Win11任务栏怎么透明？

匿名

2022-09-08

同类推荐

看！机器人来“整活儿”了

“我们希望机器人帮人类扫地、洗碗

神剧解说

2024-05-03