7 月 5 日消息,麻省理工学院(MIT)和微软的研究学者发现,GPT-4 模型具有优秀的代码自我纠错能力,而 GPT-3.5 不具有该特性,目前论文已经发布于 ArXiv 中。
当下市面上已经涌现出了一批专为代码而生的 AI 模型,但目前更多只是起到辅助开发者写代码的作用,例如IT之家小伙伴们熟悉的微软 Copilot 助理,这些 AI 模型当下仅能够生成代码片段,因此尚不能完全替代人工开发者。
研究人员通过研究 GPT-4 表示,当下实际上可以通过“模型的自我纠错”方式,令模型“反思自身所存在的不足之处”,以提升代码片段长度、并改善输出结果的准确度。
来自爱丁堡大学的研究者符尧表示,只有 GPT-4 才具备自我改进的能力,而较弱的 GPT-3.5 则没有这种特性,这一发现表明大型模型可能具有一种新型能力,即通过一系列用户反馈令 AI 自我纠错,最终得到令用户满意的结果,这种自我纠错的能力可能只存在于足够成熟的 AI 模型中。
在经过自我纠错后,GPT-4 模型输出的代码有 71% 达到研究人员设定的要求,而使用 GPT-4 对GPT-3.5 所生成的代码经过纠错后,这一批代码的通过率也达到了 54%。
研究人员表示,当下可以将 GPT-4 的自我纠错方式应用于商业中,在扣除一系列纠错冗余成本后,依然能够产生一定的收益。论文总能够在一定程度上反映行业未来的趋势,因此有望在今后涌现出一批基于 GPT-4 的代码生成器。