Facebook母公司meta的一组研究人员提出了一个新的基准来衡量人工智能助手的能力,比如OpenAI的大型语言模型GPT-4。
从目前的标准来看,OpenAI目前的人工智能模型都是……还是很蠢。
该团队包括“人工智能教父”和元首席科学家扬·勒昆(Yann LeCun),他们提出了一个名为GAIA的考试,该考试由466个问题组成,“对人类来说概念简单,但对大多数高级人工智能来说具有挑战性”,这是一篇有待同行评审的论文。
结果不言自明:人类受访者能够正确回答92%的问题,而GPT-4即使配备了一些手动选择的插件,得分也只有可怜的15%。根据该团队公布的GAIA排行榜,OpenAI最近发布的GPT4 Turbo得分不到10%。
然而,目前尚不清楚meta自己的Llama 2或谷歌的Bard等竞争法学硕士的表现如何。
尽管如此,这项研究表明,我们离人工通用智能(AGI)可能还有很长的路要走,在这种状态下,人工智能算法可以在智力任务中超越人类。
这一结论也与人工智能行业知名人士的一些崇高主张背道而驰。
研究人员在论文中写道:“这种显著的表现差异与最近法学硕士在法律或化学等需要专业技能的任务上表现优于人类的趋势形成了鲜明对比。”
举例来说,今年1月,OpenAI的竞争对手Anthropic声称,他们的人工智能克劳德(Claude)在乔治梅森大学(George Mason University)盲目评分的法律和经济学考试中获得了“勉强及格”。
在其GPT-4文档中,OpenAI还声称其模型“在各种专业和学术基准上表现出人类水平的表现,包括通过模拟律师考试,得分在前10%左右。”
但如何真正衡量这些系统的智能仍然是一个棘手的争论。像GPT-4这样的工具仍然有很多固有的缺陷,仍然不能可靠地区分真实和虚构。
换句话说,如果一个算法甚至不能判断澳大利亚是否存在,它怎么能真正通过考试呢?
长期以来,LeCun一直直言不讳地批评人工智能的末日预言,并一再淡化有关我们正面临流氓AGI形式的生存威胁的言论。
“法学硕士显然对他们阅读和生成的内容有一定的理解,”他在周末发推文说。“但这种理解非常有限和肤浅。否则,他们就不会这么胡思乱想,也不会犯违背常识的错误。”
然而,情况可能并非总是如此。如果最近的传言属实,OpenAI正在开发下一代模型Q*(发音为Q star),它可能会引入一定程度的演绎推理和“规划”。
但它是否能在meta残酷的GAIA测试中取得更高的分数还有待观察。