由于手上的项目可能需要,于是顺路弄一下这个以防万一。十分naive的,基本就是统计CNN预测的视差图中每行针对其中位数的变化范围。只是为了验证一下结果,虽然看起来不咋地,未来优化优化还是应该足够应付可能的需求。
https://www.zhihu.com/video/921680146837151744在知乎上貌似看到过有人回答说双目本身是一个数学定义比较明确的问题,未必适合使用机器学习或者神经网络的方法来处理。如果说是计算视差图的话,确实数学上的定义十分清晰了。不过还有一个问题是难以定义的很好的,那就是特征提取。
如果有更高层的抽象一点的特征,那么就可以利用很多其他领域的先验经验更好的完成任务。比如,我们可以在左右视图中都看到同一辆车,那么就可以将车辆作为一个整体来考虑视差。而不是单纯的依靠底层的一些特征,那么车身本身一些纯色的难以计算特征的部分就可以很好的处理。由于可以整体考虑视差,而非单一像素或者某一小块像素,对于远距离的物体的视差计算可能也会有好的提升,毕竟远距离的物体在图像中的细节难以获得,但是作为整体,还是可以提出来计算视差的。
由于引入了抽象的特征,换句话来说,就是引入了概念,那么就给了引入先验知识的可能性。比如,我们知道了图中有可乐瓶,那么就可以利用已知的可乐瓶的尺寸和形状更好的估算视差。当然,这样的概念可能太抽象,适合一些特定领域的工作。也可以利用稍微底层一点的特征而非抽象概念,比如镜面、同一纹理、管状等等。
所以我想起码在双目这块特征提取可以利用神经网络进行改进,提供更加高层的特征、抽象的概念。或是辅助图像分割的结果,提供物体边缘更加准确的视差估计。