不管OpenAI的高管们怎么说,研究人员现在说,是的,OpenAI的GPT大型语言模型(LLM)似乎越来越笨了。
在一项尚待同行评议的新研究中,斯坦福大学和伯克利大学的研究人员发现,在几个月的时间里,GPT-3.5和GPT-4都显著改变了他们的“行为”,他们的反应的准确性似乎下降了,这证实了用户关于最新版本软件在发布后几个月里明显退化的轶事。
研究人员在论文摘要中写道:“GPT-4(2023年3月)在识别素数方面表现非常好(准确率为97.6%),但GPT-4(2023年6月)在同样的问题上表现非常差(准确率为2.4%)。”
摘要继续写道:“GPT-4和GPT-3.5在6月份的代码生成中都比3月份出现了更多的格式错误。”
这项研究证实了用户一个多月来一直在说的话:当他们使用GPT-3和gpt -4驱动的chatgp4时,他们注意到它变得越来越笨。
它的准确性似乎有所下降,这已经变得如此麻烦,以至于OpenAI产品副总裁彼得·韦林德(Peter Welinder)试图消除有关这一变化是有意为之的传言。
“不,我们没有让GPT-4变傻,”Welinder上周在twitter上写道。“恰恰相反:我们让每一个新版本都比上一个更智能。”
他补充说,用户体验的变化可能是由于持续使用,他说,这可能是“当你更频繁地使用[ChatGPT]时,你开始注意到你以前没有注意到的问题。”
然而,斯坦福大学和伯克利大学的研究是一个令人信服的数据点,反驳了这一假设。虽然研究人员并没有给出这些准确性和能力下降的原因,但他们确实指出,随着时间的推移,这种明显的恶化挑战了OpenAI坚持认为其模型正在改进的观点。
“我们发现GPT-3.5和GPT-4的性能和行为在这两个版本中差异很大,而且随着时间的推移,它们在某些任务上的表现明显变差了,”论文指出,并补充说,质疑GPT-4是否真的变得更强是“有趣的”。
研究人员写道:“重要的是要知道,旨在改善某些方面的模型更新是否会损害其在其他方面的能力。”
换句话说:OpenAI的快速更新可能对ChatGPT弊大于利,它已经因其不准确性而闻名。