GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

GPT 4号又进化了!

用一个简单的方法,像GPT-4这样的大型语言模型可以学会自我反思,性能可以直接提升30% 。

在此之前,大语模答错了,往往什么都不说,直接先道歉,然后emmmmmm,继续猜。

现在,不会这样了。随着新方法的加入,GPT-4不仅会反思自己错在哪里,还会给出改进策略。

比如,它会自动分析为什么“在循环中”:

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

或者反思你有缺陷的搜索策略:

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

这是东北大学和麻省理工学院最新发表的论文中的方法:Reflexion。

它不仅适用于GPT-4,也适用于其他大型语言模型,使它们能够学习人类特有的反思能力。

目前论文已发表在预印本平台arxiv上。

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

这直接让网友大呼“AI进化的速度已经超过了我们的适应能力,我们要被毁灭了。”

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

有网友甚至向开发商发出了“饭碗警告”:

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

利用双重奖励机制实现反思

正如网友所说,Reflexion赋予了GPT-4反思的能力,与人类的思维过程相似:

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

可以简单总结为两个字:反馈。

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

在这个反馈过程中,可以分为三个主要步骤:

1.评估:测试当前生成的答案的准确性。

2,自我反思的产生:错误识别——实现修正

3.执行迭代反馈循环。

在第一次评测过程中,首先要体验的是LLM(大语言模型)自评。

也就是说,LLM在没有外界反馈的情况下,首先要反思答案本身。

那怎么反省自己呢?

研究小组使用了二元奖励机制来为LLM在当前状态下执行的操作赋值:

我们之所以用二进制而不用多值或连续输出,与缺乏外部输入有关。

如果你想在没有外界反馈的情况下反思自己,就必须把答案限定在一个二元状态。只有这样,才能迫使LLM做出有意义的推论。

自我评估后,如果二进制奖励机制的输出为1,则不会启动自我反思装置,如果为0,LLM将启动反思模式。

在反思的过程中,模型会触发一个启发函数H(如下图)。相对于人类的思维过程,H起着监督的作用。

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

但是LLM和人的思维一样,在反思的过程中也有局限性,这可以体现在函数中的ω和ε上。

ω表示重复连续动作的次数,这个值一般设置为3,表示在反思的过程中,一个步骤重复三次,就直接跳到下一步。

ε表示反射过程中允许的最大操作次数。

因为有监督,所以也必须进行校正。校正过程的功能如下:

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

其中,自反射模型通过“特定域的失效轨迹和理想反射对”进行训练,不允许访问数据集中给定问题的特定域解。

这样LLM才能在反思的过程中产生更多“创新”的东西。

反思后性能提升近30%。

既然LLM如GPT-4可以自我反省,具体效果如何?

研究小组在ALFWorld和HotpotQA基准上评估了这种方法。

在HotpotQA的100个问答对的测试中,使用Reflexion的LLM显示出了巨大的优势,经过几轮的反思和反复提问,LLM的性能提高了近30%。

而不是使用Reflexion,反复问答后性能没有变化。

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

在HotpotQA的134个问答对的测试中可以看出,在反射的加持下,LLM经过几轮反射后准确率一度达到了百分之九十七。

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

在另一篇博客中,团队成员还展示了他们的方法在GPT-4上的效果,测试范围是编写代码。

结果也很明显。有了Reflexion,GPT-4的编程能力直接提升了21%。

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

你已经“想到”了GPT 4号。(黄)你怎么看?(乐)你怎么看(马)?

纸张地址:

https://arxiv.org/abs/2303.11366

参考链接:

[1]https://nano thoughts . substack . com/p/reflecting-on-reflection

[2]https://www . Reddit . com/r/machine learning/comments/1215 dbl/r _ reflexion _ an _ autonomous _ agent _ with _ dynamic/

本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系admin#jikehao.com删除。
(0)
极客号的头像极客号
上一篇 2023年 3月 27日
下一篇 2023年 3月 27日

相关推荐

合作联系:1152QQ041010