2025-11-20 16:32来源:本站

研究人员没有使用图像,而是将形状、颜色和位置编码成数字序列。这确保了测试不会出现在任何训练数据中,韦伯说:“我从零开始创建了这个数据集。我从来没听说过这样的事。”
米切尔对韦伯的工作印象深刻。她说:“我发现这篇论文很有趣,也很有煽动性。”“这项研究做得很好。”但她有所保留。米切尔开发了她自己的类比推理测试,称为ConceptARC,它使用了从ARC(抽象与推理挑战)数据集中提取的编码形状序列,该数据集由谷歌研究员franois Chollet开发。在米切尔的实验中,GPT-4的得分比同类测试中的人要低。
米切尔还指出,将图像编码成数字序列(或矩阵)会使程序更容易解决问题,因为它消除了难题的视觉方面。“解决数字矩阵并不等于解决雷文的问题,”她说。
脆弱的测试
大型语言模型的性能很脆弱。在人与人之间,可以安全地假设在测试中得分高的人在类似的测试中也会表现良好。对于大型语言模型来说,情况并非如此:对测试做一个小小的调整,就可能把a的成绩降至F。
英国剑桥大学(University of Cambridge)心理学家露西·切克(Lucy Cheke)表示:“总的来说,人工智能评估的方式还不能让我们真正了解这些模型具有什么能力。”“测试一个系统在某项特定任务中的表现是完全合理的,但接受这项任务并宣称它的一般能力是没有用的。”
以微软(Microsoft)一组研究人员今年3月发表的一篇论文为例,他们声称在GPT-4中发现了“人工通用智能的火花”。该团队使用一系列测试评估了大型语言模型。在其中一个实验中,他们问GPT-4如何将一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一枚钉子以稳定的方式堆叠起来。它的回答是:“把笔记本电脑放在鸡蛋上,屏幕朝下,键盘朝上。笔记本电脑将紧贴书本和鸡蛋的边界,其平坦坚硬的表面将为下一层提供稳定的平台。”
不坏。但当米切尔尝试她自己版本的问题时,让ggt -4把一根牙签、一碗布丁、一杯水和一块棉花糖堆在一起,它建议把牙签插在布丁上,把棉花糖插在牙签上,然后把满满一杯水放在棉花糖上。(邮件最后还附上了一句有用的警告:“请记住,这个堆栈很脆弱,可能不太稳定。在建造和处理时要小心,避免泄漏或事故。”)