GPT-4写代码能力提升21%！MIT新方法让LLM学会反思，网友：和人类的思考方式一样

极客号 • 2023年 3月 27日 12:22 • 业界 • 阅读 108

ChatGPT 国内免翻版！免费 AI写作! 史上最全 AI模型！ ECS服务器5折起！虚位以待

GPT 4号又进化了！

用一个简单的方法，像GPT-4这样的大型语言模型可以学会自我反思，性能可以直接提升30% 。

在此之前，大语模答错了，往往什么都不说，直接先道歉，然后emmmmmm，继续猜。

现在，不会这样了。随着新方法的加入，GPT-4不仅会反思自己错在哪里，还会给出改进策略。

比如，它会自动分析为什么“在循环中”:

或者反思你有缺陷的搜索策略:

这是东北大学和麻省理工学院最新发表的论文中的方法:Reflexion。

它不仅适用于GPT-4，也适用于其他大型语言模型，使它们能够学习人类特有的反思能力。

目前论文已发表在预印本平台arxiv上。

这直接让网友大呼“AI进化的速度已经超过了我们的适应能力，我们要被毁灭了。”

有网友甚至向开发商发出了“饭碗警告”:

利用双重奖励机制实现反思

正如网友所说，Reflexion赋予了GPT-4反思的能力，与人类的思维过程相似:

可以简单总结为两个字:反馈。

在这个反馈过程中，可以分为三个主要步骤:

1.评估:测试当前生成的答案的准确性。

2，自我反思的产生:错误识别——实现修正

3.执行迭代反馈循环。

在第一次评测过程中，首先要体验的是LLM(大语言模型)自评。

也就是说，LLM在没有外界反馈的情况下，首先要反思答案本身。

那怎么反省自己呢？

研究小组使用了二元奖励机制来为LLM在当前状态下执行的操作赋值:

我们之所以用二进制而不用多值或连续输出，与缺乏外部输入有关。

如果你想在没有外界反馈的情况下反思自己，就必须把答案限定在一个二元状态。只有这样，才能迫使LLM做出有意义的推论。

自我评估后，如果二进制奖励机制的输出为1，则不会启动自我反思装置，如果为0，LLM将启动反思模式。

在反思的过程中，模型会触发一个启发函数H(如下图)。相对于人类的思维过程，H起着监督的作用。

但是LLM和人的思维一样，在反思的过程中也有局限性，这可以体现在函数中的ω和ε上。

ω表示重复连续动作的次数，这个值一般设置为3，表示在反思的过程中，一个步骤重复三次，就直接跳到下一步。

ε表示反射过程中允许的最大操作次数。

因为有监督，所以也必须进行校正。校正过程的功能如下:

其中，自反射模型通过“特定域的失效轨迹和理想反射对”进行训练，不允许访问数据集中给定问题的特定域解。

这样LLM才能在反思的过程中产生更多“创新”的东西。

反思后性能提升近30%。

既然LLM如GPT-4可以自我反省，具体效果如何？

研究小组在ALFWorld和HotpotQA基准上评估了这种方法。

在HotpotQA的100个问答对的测试中，使用Reflexion的LLM显示出了巨大的优势，经过几轮的反思和反复提问，LLM的性能提高了近30%。

而不是使用Reflexion，反复问答后性能没有变化。

在HotpotQA的134个问答对的测试中可以看出，在反射的加持下，LLM经过几轮反射后准确率一度达到了百分之九十七。

在另一篇博客中，团队成员还展示了他们的方法在GPT-4上的效果，测试范围是编写代码。

结果也很明显。有了Reflexion，GPT-4的编程能力直接提升了21%。

你已经“想到”了GPT 4号。(黄)你怎么看？(乐)你怎么看(马)？

纸张地址:

https://arxiv.org/abs/2303.11366

参考链接:

[1]https://nano thoughts . substack . com/p/reflecting-on-reflection

[2]https://www . Reddit . com/r/machine learning/comments/1215 dbl/r _ reflexion _ an _ autonomous _ agent _ with _ dynamic/

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。

赞 (0)

阿里投资的这家公司要IPO了，靠2分钟网剧，年收超2亿

上一篇 2023年 3月 27日

“中年危机”的知乎终于悟了，让能赚钱的业务快去赚钱

下一篇 2023年 3月 27日

超越电竞机！Redmi K60要榨干第二代骁龙8：画质、帧率、亮度三不降
随着2022年接近尾声，各大手机厂商抓住12月的尾巴，纷纷公布自己新机的发布时间。备受消费者关注的Redmi K60系列也于今日宣布将于本月27日发布。据悉，今年首批红米K60系…
极客号
2022年 12月 23日
0
德国即将全面淘汰核电：4月15日关闭最后3座核电站
据央视新闻报道，德国将于当地时间15日关闭国内最后三座核电站，这也意味着德国将彻底淘汰核电。然而，在欧洲能源危机的背景下，最新民调显示，德国超过半数的民众反对逐步淘汰核电的决定。…
极客号
2023年 4月 15日
0
报告显示：92%的企业使用人工智能提升个性化客户体验
数据平台Twilio Segment最近的一份报告显示，全球的企业都在采用人工智能来提供个性化的客户体验，92%的公司都在使用人工智能驱动的个性化来促进增长。该报告基于Metho…
极客号
2023年 5月 5日
0
顺丰回应系统崩了：已在紧急处理，逐步恢复中
大少爷(Daydx.com)12月12日消息:今天下午，顺丰速运冲上微博热搜榜，原因是有网友反映顺丰速运小程序显示网络异常，网页打不开。而且最近有很多网友反映顺丰快递在路上被卡，物…
极客号
2022年 12月 13日
0
哪吒纯电GT跑车遭吐槽 CEO回应：就喜欢看不惯又干不掉我的样子
快科技4月8日消息，哪吒汽车CEO今日宣布: 我们出了一个GT，一堆沙雕，各种冷嘲热讽。如果是国外品牌或者那些公司做的，都不错，一堆无良五毛党！我就是喜欢看你不喜欢我，又甩不掉我的…
极客号
2023年 4月 8日
0
主机之争已输！微软认怂：Xbox真实销量让索尼见笑了
快科技7月4日讯，微软在巴西活动中宣布，累计卖出2100万台Xbox Series主机。虽然没有公布Series S/X各自占比，但微软透露，48%的Xbox Series S用…
极客号
2023年 7月 5日
0
索尼IMX989特别贵小米买一送一2X镜头雷军：是不是感觉挺值
小米创始人雷军今日表示，小米13 Pro的三个摄像头其实隐藏了一个2X镜头。 IMX989一寸大底，50MP，每像素1.6um。我们把989设置为50MP模式，直接读取中间块，就是…
极客号
2022年 12月 20日
0
NVIDIA力推的光追版《传送门》游戏被指代码糟糕：AMD显卡坑了
RTX40系列显卡发布的时候，NVIDIA联合开发者推出了RTX版的传送门游戏，12月8日免费供玩家下载升级。这个游戏主要用来展示RTX的光学追击技术。追光版传送门游戏的性能已经…
极客号
2022年 12月 10日
0
iPhone 15及Plus预计有17项升级和变化包括灵动岛和4800万像素主摄
8月28日消息，据外媒报道，上周曾有外媒在报道中表示，苹果即将推出的iPhone15系列中的Pro款和Pro Max款，较上一代将在芯片、边框、充电、存储等方面将有21项升级和变化…
极客号
2023年 8月 28日
0
连休5天！五一劳动节期间高速公路免费通行
今年劳动节，我从4月29日到5月3日放假五天，4月23日(周日)和5月6日(周六)上班。按照规定，春节、清明节、劳动节、国庆节这四个重要节假日，将实行七座及以下小型客车免费通行的…
极客号
2023年 4月 8日
0

合作联系：1152QQ041010