人工智能模型在一个简单的任务上表现惨败:计时

智能计算 时间:2025-12-23来源:

1766454353475113.jpeg

人工智能能力的快速发展让许多人感到担忧。但别太担心:如果你能正确读出模拟钟表,在这方面你仍然领先于人工智能。

能够分析文本、图像和视频等不同类型媒体的人工智能模型——被称为多模态大型语言模型(MLLM),正在体育分析和自动驾驶等多个应用领域获得广泛关注。但有时,这些模型在看似最简单的任务上也会失败,比如准确读取模拟钟的时间。这就引发了一个问题:这些模型到底在哪些图像分析方面遇到了困难?

例如,在阅读传统钟表时,模型是否难以区分短指针和长指针?或者难以准确定位手的角度和方向,相对于数字?这些看似琐碎的问题的答案,可以为揭示这些模型的主要局限性提供关键见解。

马德里理工大学助理教授哈维尔·孔德(Javier Conde)与米兰理工大学和巴利亚多利德大学的同事们,在一项近期研究中试图探讨这些局限性。该结果于10月16日发表在《IEEE Internet Computing》杂志上,表明如果MLLM在图像分析的某一方面存在困难,可能会引发连锁反应,影响其图像分析的其他方面。

人工智能能多准确地判断时间?

首先,研究团队构建了一个大型模拟时钟合成图像数据集,这些图像总计显示了超过43,000个指示时间,并测试了四种不同MLLM读取部分图像时间的能力。这四个型号最初都无法准确报时。研究人员通过额外5000张数据集中的图像训练模型,并使用他们之前未见过的额外图像进行测试,从而提升了模型的性能。然而,当与一组全新的时钟图像进行测试时,这些模型的性能再次下降。

结果触及了许多人工智能模型的一个关键局限:它们擅长识别熟悉的数据,但往往未能识别训练数据中尚未遇到的新情景。换句话说,它们往往缺乏概括性。

孔德和他的同事们希望深入挖掘为何MLLM难以看时间。如果问题与模型对时钟指针空间方向的敏感度有关,那么进一步的微调可以解决这一限制——只需让模型接触更多数据,它就能在当前任务中变得更好。

通过一系列实验,他们创建了新的模拟钟表数据集,这些数据集要么带有扭曲形状,要么通过在指针端添加箭头来改变钟表指针的外观。孔德解释道:“虽然这些变化对人类来说并不难,但模型往往在这方面失败,”他引用了萨尔瓦多·达利著名的扭曲钟表画作《记忆的持续》。虽然人类可以破译变形、融化的钟表时间,但MLLM难以判断同样扭曲的钟表时间。

结果显示,MLLM难以准确定位钟表指针的空间方向,但当钟表指针具有独特外观(例如指针尖端的箭头)时,模型尚未广泛接触,表现更为困难。然而,这些问题并非彼此排斥:通过额外的实验,研究人员发现如果MLLM在识别钟表指针时出现错误,反过来又会导致更大的空间误差。

孔德解释道:“看来读取时间并不像看起来那么简单,因为模型必须识别钟针,确定其方向,并将这些观察结合推断出正确的时间,”孔德解释道,指出模型难以同时处理这些变化。

在他们的研究中,研究人员强调,在更复杂的现实场景中,如医学图像分析或自动驾驶感知,这些细微但关键的失误可能导致更严重的后果。

“这些结果表明,我们不能把模型性能视为理所当然,”Conde强调,需要大量训练和测试,才能确保模型在现实应用中可能遇到的多样场景下保持稳健。

许多人预计人工智能将继续进步,这反过来又引出了一个问题:人工智能模型最终能否准确读取传统的模拟时钟?只有时间能证明。

关键词: 人工智能 多模态

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版