东南教育网您的位置:首页 >互联网 >

Facebook建立了一个名为Rosetta的AI来每天分析用户图像

导读 Facebook Inc 超过22亿用户每天在平台上共享数量惊人的图像,这家社交巨头需要对其分类,添加到搜索结果以及扫描有害内容。这些图像的很大

Facebook Inc.超过22亿用户每天在平台上共享数量惊人的图像,这家社交巨头需要对其分类,添加到搜索结果以及扫描有害内容。这些图像的很大一部分还包含必须分析的文本。

为了处理这项艰巨的任务,该公司构建了一个复杂的人工智能,称为Rosetta。它在今天发布的博客中 揭示了该系统的存在。

每天,Rosetta都会从Facebook和Instagram上十亿多个公开共享的图像中提取多种语言的文本。该系统不仅可以分析独立文件的内容,还可以分析视频中的各个帧的内容。它使用不同于传统文本识别软件的技术扫描所有图像。

通常,此类别的系统仅识别一段文本中的单个字符,而不理解其含义或其他更高级别的细节。Facebook的需求更高。该公司试图构建一个可以在覆盖其图像的上下文中进行书写的系统,这导致其工程师为Rosetta配备了预测功能。

该系统将文本分析作为所谓的序列预测问题进行处理。它分析图像并使用历史数据,而不仅仅是单个字符的视觉轮廓来理解文字。Facebook表示,这种方法使Rosetta能够识别任何长度的单词,甚至包括在开发的培训阶段未曾接触过的单词。

“一旦获得图像上单词位置的边界框,它们就会被裁剪并调整为32个像素的高度,并保持宽高比,”处理Rosetta的Facebook工程师详细说道。“所有此类图像作物都根据需要以零填充填充到一个张量中,然后由文本识别模型立即进行处理。”

Facebook正在使用Rosetta来提供几种不同的功能。该系统可通过Facebook和Instagram各自的搜索功能对图像进行探索,帮助确定图像应如何显示在新闻源中并查找令人反感的内容。该公司计划随着时间的推移将其扩展到更多地区。

Facebook的工程师写道:“当我们超越图像时,最大的挑战之一就是从视频中有效地提取文本。” “由于平台上视频的大量增长,将基于图像的文本提取应用于每个单个视频帧的幼稚方法无法扩展,这只会导致计算资源的浪费。”

他们还表示,他们正在开始探索应用3-D卷积的方法,以改善用于文本提取的视频帧的选择。

免责声明:本文由用户上传,如有侵权请联系删除!