东南教育网您的位置:首页 >机器人 >

通过用于下一代图像传感的高级机器学习进行无镜头成像

导读 在无镜头成像的重大发展中,东京工业大学(东京工业大学)工程学院的一个研究小组设计了一种新的图像重建方法,可以在很短的计算时间内实现高

在“无镜头”成像的重大发展中,东京工业大学(东京工业大学)工程学院的一个研究小组设计了一种新的图像重建方法,可以在很短的计算时间内实现高质量的成像。新方法基于称为 Vision Transformer 的前沿机器学习技术,极大地促进了“无镜头”相机的实际应用。

相机通常需要镜头系统来捕捉聚焦图像,而镜头相机几个世纪以来一直是主要的成像解决方案。镜头相机需要复杂的镜头系统来实现高质量、明亮和无像差的成像。近几十年来,人们对更小、更轻、更便宜的相机的需求激增。显然需要具有强大功能的下一代相机,这些相机足够紧凑,可以安装在任何地方。然而,镜头相机的小型化受到镜头系统和折射镜头所需的聚焦距离的限制。

计算技术的最新进展可以通过用计算代替光学系统的某些部分来简化镜头系统。由于使用了图像重建计算,可以放弃整个镜头,从而实现超薄、轻量、低成本的无镜头相机。无镜头相机最近越来越受欢迎。但迄今为止,图像重建技术尚未建立,导致无镜头相机的成像质量不足和计算时间冗长。

最近,研究人员开发了一种新的图像重建方法,可以缩短计算时间并提供高质量的图像。研究团队的核心成员、东京工业大学的 Masahiro Yamaguchi 教授在描述这项研究背后的最初动机时说:“没有镜头的限制,无镜头相机可以是超微型的,可以实现新的应用。这超出了我们的想象。” 他们的工作已发表在Optics Letters上。

无镜头相机的典型光学硬件仅由薄掩模和图像传感器组成。然后使用数学算法重建图像,如图 1 所示。掩模和传感器可以在已建立的半导体制造工艺中一起制造,以供将来生产。掩模对入射光进行光学编码并在传感器上投射图案。尽管铸造的图案对人眼来说是完全不可解释的,但它们可以通过光学系统的明确知识进行解码。

然而,基于图像重建技术的解码过程仍然具有挑战性。传统的基于模型的解码方法近似于无透镜光学器件的物理过程,并通过解决“凸”优化问题来重建图像。

这意味着重建结果容易受到物理模型不完美近似的影响。此外,解决优化问题所需的计算非常耗时,因为它需要迭代计算。

深度学习可以帮助避免基于模型的解码的局限性,因为它可以学习模型并通过非迭代的直接过程来解码图像。然而,现有的使用卷积神经网络 (CNN) 的无镜头成像深度学习方法无法生成高质量的图像。它们效率低下,因为 CNN 基于相邻“局部”像素的关系处理图像,而无透镜光学系统通过属性将场景中的局部信息转换为图像传感器所有像素上重叠的“全局”信息称为“多路复用”。

TokyoTech 研究团队正在研究这种多路复用特性,现在已经提出了一种用于图像重建的新型专用机器学习算法。所提出的算法,如图 2 所示,基于一种称为 Vision Transformer (ViT) 的前沿机器学习技术,该技术在全局特征推理方面表现更好。

该算法的新颖之处在于具有重叠“补丁”模块的多级变压器块的结构。这允许它有效地学习分层表示中的图像特征。因此,所提出的方法可以很好地解决复用特性,避免传统基于 CNN 的深度学习的局限性,从而实现更好的图像重建。

虽然传统的基于模型的方法需要较长的计算时间来进行迭代处理,但所提出的方法更快,因为直接重建可以通过机器学习设计的无迭代处理算法进行。

由于机器学习系统学习物理模型,模型逼近误差的影响也显着降低。此外,所提出的基于 ViT 的方法使用图像中的全局特征,适用于在图像传感器上处理大面积的投射模式,而传统的基于机器学习的解码方法主要通过 CNN 学习局部关系。

总之,所提出的方法解决了传统方法的局限性,例如基于迭代图像重建的处理和基于 CNN 的机器学习与 ViT 架构,能够在较短的计算时间内获取高质量的图像。

研究小组进一步进行了光学实验——正如他们在最新出版物中所报道的——这表明采用所提出的重建方法的无镜头相机可以产生高质量和视觉上吸引人的图像,而后处理计算的速度足够高实时捕捉。组装好的无镜头相机和实验结果分别如图3和图4所示。

“我们意识到小型化不应该是无镜头相机的唯一优势。无镜头相机可以应用于不可见光成像,其中使用镜头是不切实际甚至不可能的。此外,无镜头相机捕获的光学信息的潜在维度大于 2,这使得一次性 3D 成像和捕获后重新聚焦成为可能。我们正在探索无镜头相机的更多功能。无镜头相机的最终目标是微型而强大。我们很高兴能够引领下一代成像和传感解决方案的新方向,”该研究的主要作者、东京科技大学的 Xiuxi Pan 先生在谈到他们未来的工作时说。

免责声明:本文由用户上传,如有侵权请联系删除!