东南教育网您的位置:首页 >无人驾驶 >

斯坦福大学实验发现人类在图像压缩时击败了算法

导读 您的朋友给您发了一张她即将收养的狗的照片,但您看到的只是棕褐色,模糊不清的动物形状的像素雾。为了让您更清楚,她将链接发送到狗的

您的朋友给您发了一张她即将收养的狗的照片,但您看到的只是棕褐色,模糊不清的动物形状的像素雾。为了让您更清楚,她将链接发送到狗的收养资料,因为她担心自己的数据限制。只需单击一下,屏幕上就会充满更加令人满足的描述,以及她将来可能成为最好的朋友的图像。

发送链接而不是上传大量图像只是人类用来传递信息而又不消耗数据的一种技巧。实际上,根据 斯坦福大学教授和高中生团队的研究,这些技巧可能会激发出一类全新的图像压缩算法 。

研究人员要求人们比较传统压缩算法产生的图像,该算法将大图像缩小为像素模糊,与人类在数据受限条件下创建的图像(纯文本通信,其中可能包括公共图像的链接)进行比较。在许多情况下,人力图像共享产品被证明比算法的工作更令人满意。研究人员将在2019年数据压缩会议上介绍他们的工作。

“我们今天拥有的几乎所有图像压缩器都使用不一定能代表人类在图像中所重视的指标进行评估,”电气工程专业的研究生,论文的合著者Irena Fischer-Hwang说。“事实证明,我们的算法还有很长的路要走,并且可以从人类共享信息的方式中学到很多东西。”

该项目是由电气工程学教授Tsachy Weissman领导的研究人员与在其实验室实习的三名高中生之间的合作产生的 。

“坦率地说,我们参加这项合作的目的是为学生提供一些不会对正在进行的研究造成太大干扰的东西,”韦斯曼说。“但是他们想做更多的事情,而楚兹帕(chutzpah)导致了该组织的论文和全新的研究方向。这很可能成为我参与过的最激动人心的项目之一。”

损失更少的图像

将图像转换为压缩格式(例如JPEG)会使图像明显变小,但会丢失一些细节–因此,这种转换形式通常称为“有损”。由于算法必须牺牲有关颜色和亮度的详细信息以消耗较少的数据,因此生成的图像质量较低。尽管算法在大多数情况下都保留了足够的细节,但魏斯曼的实习生认为它们可以做得更好。

在他们的实验中,两名学生远程合作,使用免费的照片编辑软件和互联网上的公共图像来重新创建图像。该对中的一个人拥有参考图像,并指导第二个人重建照片。双方都可以看到重建过程,但描述者只能在听对方讲话时通过文本进行交流。

重建图像的最终文件大小是描述者发送的文本消息的压缩大小,因为这是重新创建该图像所需要的。(该组不包含音频信息。)

然后,学生将人工重建与文件大小等于重建文本文件大小的机器压缩图像进行对比。因此,如果人类团队仅用2 KB的文本创建图像,则他们会将原始文件压缩为相同大小。在访问原始图像后,实验之外的100个人对13个图像中的10个图像的人工重建的评价优于基于机器的压缩。

面孔模糊

当原始图像与互联网上的公共图像(例如街道路口)紧密匹配时,人为重建的效果特别好。甚至结合了各种图像的重建效果也很好,除非出现人脸特征。研究人员没有要求法官解释他们的排名,但是他们对发现的差异有一些想法。

“在某些情况下,例如自然风光,人们并不介意树木是否有些不同,或者长颈鹿是不同的长颈鹿。他们更关心图像不是模糊的,这意味着传统压缩的排名较低。”魏斯曼小组的研究生,该论文的合著者Shubham Chandak说 。“但是对于人脸,即使表面模糊,人们也希望拥有相同的面孔。”

随着越来越多的人将自己的图像上传到互联网,基于人的图像共享中的这种明显的弱点将得到改善。研究人员还与素描艺术家合作,以了解他的专业知识如何产生影响。即使这项工作显示了人工输入的价值,研究人员最终仍将尝试使该过程自动化。

魏斯曼研究小组的研究生,该论文的合著者Kedar Tatwawadi说:“机器学习正在研究其中的一部分,希望我们能尽快使它们一起工作 。” “看起来像使用这种意识形态的实用压缩机并不遥远。”

魏斯曼说:“数以十万计的人类工程时间花在了设计一个算法上,三个高中生来了,并踢了它的屁股。” “考虑我们在工程领域的工作真是令人沮丧。”

由于这项合作的成功,魏斯曼 在他的实验室为高中生创建了一个正式的 夏季实习计划。想像艺术家或对心理学或神经科学感兴趣的学生如何为这项工作做出贡献,他特别热衷于吸引兴趣和背景各异的学生。

资料来源:斯坦福大学

免责声明:本文由用户上传,如有侵权请联系删除!