
「我们发现GPT-3.5 和GPT-4 的性能和行为在这两个版本中差异很大,并且随着时间的推移,它们在某些任务上的表现变得非常差。」
与3月和6月发布的语言模型相比,GPT的性能有所下降,最明显的例子是询问17077是否是质数。 虽然答案是肯定的,但ChatGPT的准确率却大幅下降了95.2%。 而免费版ChatGPT的GPT-3.5在回答同样的问题时,准确率从7.4%提高到了86.8%
几周以来,用户一直在抱怨ChatGPT的性能下降,包括在OpenAI 自己的论坛上。
对此OpenAI的负责人表示:「不,我们并没有让GPT-4 变得更愚蠢。 恰恰相反:我们让每个新版本都比前一个版本更智能。 当前假设:当您更频繁地使用它时,您会开始注意到以前没有看到的问题。」
