Facebook的Dynabench工具愚弄神经网络以推进AI研究
Facebook Inc.今天首次推出了Dynabench,它是一种研究工具,希望它可以使计算机科学家开发更强大的自然语言处理模型。
为了建立先进的前沿神经网络,研究人员需要一种将他们的模型与同行开发的模型进行比较的方法。准确的比较是验证新模型确实比 该领域中现有条目更好的前提。此过程称为基准测试。
Facebook希望通过Dynabench来解决其在当前基准测试方法中所见的缺点,并促进创建更强大的人工智能软件。
研究人员最常使用测试数据集(实质上是标准化问题的集合)来评估其模型。自然语言处理领域中存在几个这样的测试数据集。问题在于,由于AI模型的改进步伐很快,随着时间的推移,测试可能会过时,从而使研究人员无法可靠地评估神经网络的准确性并将其与现有的神经网络进行比较。
输入Dynabench。Facebook应对挑战的解决方案是通过将人类测试人员带入循环,部分地将基准测试流程众包。这个想法是,通过为神经网络提出更艰巨,更具创造性的挑战,人类可以比一组预先包装的测试问题更准确地评估模型的准确性。
Facebook研究人员Douwe Kiela和Adina Williams 解释说,Dynabench“测量了人类如何轻易地欺骗AI系统,这是模型质量的指标,比当前的静态基准更好。” “该指标将在最重要的情况下更好地反映AI模型的性能:与人互动时,他们以复杂,变化的方式表现和做出反应,而这些方式无法反映在一组固定的数据点中。”
当AI完成一轮测试时,Dynabench会识别出愚弄模型的问题,并将其编译为新的测试数据集。研究人员可以使用该数据集来帮助他们建立更新,更复杂的模型。然后,一旦开发出可以回答第一个AI无法回答的问题的模型,Dynabench便会重复该过程并编译包含更难问题的另一个测试数据集。
正如Facebook的Kiela和Williams所言,目标是创建一个“人工智能研究进展的良性循环”。
拥有一个更可靠的评估模型准确性的工具不仅可以使研究人员受益,也可以使在其应用程序中使用AI的企业受益。如果企业软件工程师对不同的AI模型如何很好地处理给定任务有更清晰的了解,他们将更有效地从无数可用模型中选择最适合其应用程序的AI。反过来,这可以转化为更好的用户体验和更少的昂贵错误。