聚焦散焦的深度创新为更强大的计算机视觉系统铺平了道路
在计算机视觉的多种应用中,例如增强现实和自动驾驶汽车,估计物体与相机之间的距离是一项重要任务。焦点深度/散焦是使用图像中的模糊作为线索来实现这一过程的技术之一。对焦/散焦深度通常需要一堆以不同焦距拍摄的同一场景的图像,这种技术称为焦点堆栈。
在过去的十几年里,科学家们提出了许多不同的聚焦/散焦景深方法,其中大多数可以分为两类。第一类包括基于模型的方法,它使用数学和光学模型根据清晰度或模糊度来估计场景深度。然而,此类方法的主要问题是它们无法处理无纹理的表面,而无纹理的表面在整个焦点堆栈上看起来几乎相同。
第二类包括基于学习的方法,可以训练这些方法以有效地执行聚焦/散焦的深度,即使对于无纹理的表面也是如此。然而,如果用于输入焦点堆栈的相机设置与训练数据集中使用的相机设置不同,这些方法就会失败。
现在,一组研究人员克服了这些限制,提出了一种创新的聚焦/散焦景深方法,可以同时解决上述问题。他们的研究发表在《国际计算机视觉杂志》上,由日本奈良科学技术学院 (NAIST) 的 Yasuhiro Mukaikawa 和 Yuki Fujimura 领导。
所提出的技术被称为焦点堆栈深度(DDFS),它将基于模型的深度估计与学习框架相结合,以实现两全其美。受立体视觉中使用的策略的启发,DDFS 涉及根据输入焦点堆栈、相机设置和镜头散焦模型建立“成本量”。简而言之,成本量代表一组深度假设(每个像素的潜在深度值)以及根据焦点堆栈中图像之间的一致性计算的相关成本值。“成本量在散焦图像和场景深度之间施加了限制,作为中间表示,可以在训练和测试时使用不同的相机设置进行深度估计,”向井川解释道。
DDFS 方法还采用了编码器-解码器网络,这是一种常用的机器学习架构。该网络以从粗到细的方式逐步估计场景深度,在每个阶段使用“成本聚合”来自适应地学习图像中的局部结构。
研究人员将 DDFS 的性能与其他最先进的聚焦/散焦深度方法的性能进行了比较。值得注意的是,所提出的方法在多个图像数据集的各种指标上都优于大多数方法。对研究团队的相机捕获的焦点堆栈进行的其他实验进一步证明了 DDFS 的潜力,与其他技术不同,即使输入堆栈中只有少量输入图像,它也很有用。
总体而言,DDFS 可以作为需要深度估计的应用的一种有前途的方法,包括机器人、自动驾驶车辆、3D 图像重建、虚拟和增强现实以及监控。“我们具有相机设置不的方法可以帮助扩展基于学习的深度估计技术的适用性,”Mukaikawa 总结道。
希望这项研究为更强大的计算机视觉系统铺平道路。
版权声明:本文由用户上传,如有侵权请联系删除!