斯坦福大学的科学家发现，是的，聊天技术正变得越来越愚蠢

不管OpenAI的高管们怎么说，研究人员现在说，是的，OpenAI的GPT大型语言模型(LLM)似乎越来越笨了。

在一项尚待同行评议的新研究中，斯坦福大学和伯克利大学的研究人员发现，在几个月的时间里，GPT-3.5和GPT-4都显著改变了他们的“行为”，他们的反应的准确性似乎下降了，这证实了用户关于最新版本软件在发布后几个月里明显退化的轶事。

研究人员在论文摘要中写道:“GPT-4(2023年3月)在识别素数方面表现非常好(准确率为97.6%)，但GPT-4(2023年6月)在同样的问题上表现非常差(准确率为2.4%)。”

摘要继续写道:“GPT-4和GPT-3.5在6月份的代码生成中都比3月份出现了更多的格式错误。”

这项研究证实了用户一个多月来一直在说的话:当他们使用GPT-3和gpt -4驱动的chatgp4时，他们注意到它变得越来越笨。

它的准确性似乎有所下降，这已经变得如此麻烦，以至于OpenAI产品副总裁彼得·韦林德(Peter Welinder)试图消除有关这一变化是有意为之的传言。

“不，我们没有让GPT-4变傻，”Welinder上周在twitter上写道。“恰恰相反:我们让每一个新版本都比上一个更智能。”

他补充说，用户体验的变化可能是由于持续使用，他说，这可能是“当你更频繁地使用[ChatGPT]时，你开始注意到你以前没有注意到的问题。”

然而，斯坦福大学和伯克利大学的研究是一个令人信服的数据点，反驳了这一假设。虽然研究人员并没有给出这些准确性和能力下降的原因，但他们确实指出，随着时间的推移，这种明显的恶化挑战了OpenAI坚持认为其模型正在改进的观点。

“我们发现GPT-3.5和GPT-4的性能和行为在这两个版本中差异很大，而且随着时间的推移，它们在某些任务上的表现明显变差了，”论文指出，并补充说，质疑GPT-4是否真的变得更强是“有趣的”。

研究人员写道:“重要的是要知道，旨在改善某些方面的模型更新是否会损害其在其他方面的能力。”

换句话说:OpenAI的快速更新可能对ChatGPT弊大于利，它已经因其不准确性而闻名。