NIST研究表明面部识别专家在AI作为合作伙伴时表现更好
识别面孔的专家通常在刑事案件中发挥关键作用。安全摄像头拍摄的照片可能意味着被告有期徒刑或获得自由-经过训练有素的法医面部检查员的证词会告知陪审团,该图像是否真的描绘出了被告。面部识别专家到底有多好?人工智能会有所帮助吗?
本周在《科学院院刊》上发表的一项研究带来了答案。在将法医学与心理学和计算机视觉研究相结合的工作中,来自标准技术研究院(NIST)和三所大学的科学家团队测试了专业面部识别器的准确性,至少提供了一个启示,甚至令研究人员感到惊讶:受过训练的人员在计算机作为伙伴而不是其他人时表现最佳。
NIST电子工程师P. Jonathon Phillips说:“这是第一项针对专业法医面部检查员的面部识别准确度的研究,该研究是在实际案例中适用的情况下进行的。” “我们更深层的目标是找到更好的方法来提高法医面部比较的准确性。” 团队的工作是响应研究委员会2009年的报告《加强法医科学:前进的道路》而开始的,该报告强调了衡量法医审查员决定准确性的必要性。
NIST研究是迄今为止对各种各样的人的面部识别性能进行的最全面的检查。这项研究还研究了最佳技术,将最新的人脸识别算法与人类专家的准确性进行了比较。
他们是人类与机器的经典对抗的结果吗?没有一个人会得到最好的结果。两者之间的协作实现了最大的准确性。
“社会依赖专业的法医面部检查员的专业知识和培训,因为他们的判断被认为是最好的,”合著者,德克萨斯大学达拉斯分校的认知科学教授爱丽丝·奥图尔(Alice O'Toole)说。“但是,我们了解到,要获得最高精度的人脸识别,我们应该结合人与机器的力量。”
结果正好赶上了面部识别技术的发展,该技术已经发展了几十年,但是直到最近才达到了与人类最高水平的能力相近的能力。
菲利普斯说:“如果我们三年前进行了这项研究,那么最好的计算机算法的性能就可以与普通未经培训的学生相提并论。” “如今,最先进的算法与训练有素的专业人员一样出色。”
这项研究本身总共涉及184名参与者,其中很大一部分是这种类型的实验。八十七名经过培训的专业面部检查员,而十三名是“超级认可者”,这个词暗示着卓越的自然能力。其余的84个对照组(包括对照组)包括53名指纹检查员和31名本科生,他们都没有接受过面部比较方面的培训。
对于测试,参与者收到了20对面部图像,并以7分制对每对是同一个人的可能性进行了评估。研究小组使用在有限的照明,表情和外观控制下拍摄的图像,有意选择了极富挑战性的眼镜。然后,他们使用相同的图像对测试了四种最新的计算机化面部识别算法,这些算法均在2015年至2017年之间开发。
三种算法是由马里兰大学电气与计算机工程教授Rama Chellappa及其团队开发的,他们为这项研究做出了贡献。该算法经过训练可以在一般的人脸识别情况下工作,并且无需修改即可应用于图像集。
研究结果之一是毫不奇怪,但对司法系统很重要:受过训练的专业人员的表现要明显优于未经训练的对照组。这一结果确立了训练有素的审查员的卓越能力,从而首次为其出庭作证提供了科学依据。
正如过去几年中算法性能的稳步提高所预期的那样,这些算法也很适合自己。
引起团队共同关注的是多名考官的表现。该团队发现,结合多个法医面部检查员的意见并不能带来最准确的结果。
菲利普斯说:“我们的数据表明,最好的结果来自使用一个性能最高的算法的一个面部检查员。” “虽然合并两个人工审查员确实可以提高准确性,但不如合并一个审查员和最佳算法那样好。”
目前,在现实世界的法务案例研究中并未使用检查员和AI的结合。尽管此研究没有在这样的操作取证环境中明确测试审查员和AI的这种融合,但结果提供了改进未来系统中人脸识别准确性的路线图。
尽管这个为期三年的项目揭示了人类和算法使用不同的方法来比较人脸,但这对其他科学家提出了一个诱人的问题:人类和算法方法之间的根本区别是什么?
菲利普斯说:“如果将两个来源的决策结合起来可以提高准确性,那么这种方法就说明存在着不同的策略。” “但是它并不能解释这些策略有何不同。”
该研究小组还包括来自澳大利亚新南威尔士大学的心理学家戴维·怀特。