换场景就不准,研究指出 AI 识别野生动物暴露出“迁移性危机”

懂副业 百科资讯 1

3 月 4 日消息,据 Phys 报道,研究人员表示,利用人工智能识别野生动物的做法,暴露出一场潜在的“迁移性危机”。AI 成像系统的营销宣传往往宣称,模型能像人类观察者一样,轻松应对不同生态系统和环境中的全新场景。但在一篇新论文中,埃克塞特大学的两位研究人员指出,这一说法建立在“错误假设”之上。他们以物种识别和医学诊断成像为例对此进行了说明。

这篇发表在《公共科学图书馆 · 生物学》(PLOS Biology)期刊上的论文题为《生物学中的深度学习正面临一场迁移性危机》。

研究人员称,尽管 AI 模型在其训练环境中表现稳定可靠,但这种效果极少能迁移到新的场景,导致其泛化能力难以预测。

埃克塞特大学康沃尔郡彭林校区环境与可持续发展研究所的托马斯 · 奥谢-惠勒博士表示:“核心结论是,尽管被视为‘黄金标准’,但性能基准(用于评估 AI 的测试)并不能可靠反映 AI 模型的真实能力。我们看到大量宣称在极广泛场景下对比最新 AI 模型与人类能力的说法。然而,这些结论都来自数据集上的性能测试,而这些数据往往无法迁移到现实任务中。用库存图片训练出来的猫咪识别模型,在测试其他猫咪库存图时表现良好,但这无法转化为野外环境下有效的猫咪检测。危险在于,这类通常由随意图像类别构成的基准指标,正被用来夸大模型的性能和泛化能力。”

来自生态与保护中心的凯蒂 · 默里补充道:“以野生动物识别为例,你最终可能得到一个表现并不好、却对自己的结论显得非常自信的系统。简单来说,AI 在处理从未见过的事物时会很吃力,但它不一定会向用户表达这一点。”

奥谢-惠勒博士指出,问题并非出在技术本身,而在于它的使用方式,“AI 可以极为强大,但场景是关键 —— 模型必须在真实使用场景中接受评估,否则后续可能引发严重问题。在生态学中,这给物种监测和保护工作带来挑战;而在医学等领域,后果可能更为严重。或许最危险的一点是,当模型失效时,往往要等到造成广泛损失后才会被发现。”

研究人员呼吁,在解读性能指标时应保持谨慎,并更多采用能让模型在真实应用中快速测试的工具。

注意到,针对基准测试这一更广泛的问题,他们认为,不应使用这些指标来评估模型的泛化性能。奥谢-惠勒博士补充说:“就目前情况而言,评估一个 AI 模型效果如何的唯一可靠方法,就是在你的具体使用场景中对它进行实际测试。”