科技服务平台

market@brkj.net.cn 400-806-5633

[ 注册 ] [ 登录 ] 会员中心收藏夹(0) 消息(0) [返回首页]

从CVPR 2014看计算机视觉领域的最新热点

发表时间：2017-02-21 浏览：771次

计算机视觉（Computer Vision）是近十几年来计算机科学中最热门的方向之一，而国际计算机视觉与模式识别大会（Conference on Computer Vision and Pattern Recognition，简称CVPR）绝对是计算机视觉会议中的翘楚。

今年的CVPR 在美国俄亥俄州首府哥伦布市（Columbus）召开，地点有点前不着村后不着店的感觉，大多数人都只好老老实实开会。但即便在如此偏远的地方举行会议，CVPR的参会人数还是毫无缩减，这一点在中午领饭的时候可以深深体会到。当然，开会的核心绝对不在于地点和提供的饮食，虽然这也很重要。所有人千里迢迢从全世界过来汇聚在一起的主要目的还是感受流行的研究趋势以及与大家交流各自的研究突破和创新的想法。非常荣幸我这次能有三篇论文被大会录取，这既是对我个人在计算机视觉领域研究的巨大肯定，也让我得以有机会能够去往CVPR大会的现场去感受这个领域最前沿的研究成果和前瞻的趋势。接下来，我就与大家分享一下这次的参会感受。

一、繁荣的深度学习

深度学习（Deep Learning）是当下最热门的方向之一，今年的论文中标题带deep字眼的论文就有16篇（其中oral presentation 4篇——在CVPR等大型会议中，由于论文数量众多，大部分的论文都是以海报的形式作讲演。而大会的委员会在所有其中挑选少量出色的工作（占所有投稿的5）面对所有研究者演讲）。深度学习热潮爆发以来，诸多研究者都在不懈地努力着，希望能够把它应用于解决计算机视觉的各种任务上，从高层次（high-level）的识别（recognition），分类（classification）到低层次（low-level）的去噪（denoising）。让人不禁联想起当年的稀疏表达（sparse representation）的热潮，而深度学习如今的风靡程度看上去是有过之而无不及。深度学习也有横扫high-level问题的趋势，high-level的很多方向都在被其不断刷新着数据。以往的改进都是1，2个点的增长，如今使用深度学习轻松刷出5，6点，这给很多非深度学习方法研究者巨大的压力。虽说深度学习是大热方向，可计算机视觉界的研究者对深度学习的态度也是很鲜明的两派——支持与观望，也给其他研究趋势带来了一些影响（原因接下来说）。作为强大的特征（feature）学习工具，获得大量的支持与推广自然不必说，很多原本观望的研究者们在目睹深度学习的优秀表现后也都开始投身于此。持观望态度的人们一部分可能仍并不了解深度学习的机理，另外一大部分相信是对深度学习将给计算机视觉带来的贡献持保守态度。虽然笔者赞叹于深度学习的强大能力，可对此也是持保守态度。诚然深度学习作为一个工具异常强大。在给定足够多的训练集的情况下，它可以帮助用户学习到这个任务下的具有很强分辨能力的特征。可是这个训练过程近乎黑箱，学习出的系统也很难给解决的问题带来更深刻的理解。

二、为基础模型研究正名

也许因为如此，我认为本次的评奖有些指引方向的感觉。本次大会的最佳论文颁给了研究camera motion和shape recovery关系的文章 What Camera Motion Reveals About Shape with Unknown BRDF （singlenbspauthor!）, Honorable mention给了利用structured light研究shape的论文 3D Shape and Indirect Appearance by Structured Light Transport 。这两篇论文都可以算是研究3D几何模型的。不仅评奖如此，计算机视觉领域的前辈也亲自站出来力挺一下基础模型的研究，其中 Jean Ponce 亲自写了一篇论文oral来继续探讨 trinocular geometry 的传统假设不成立时如何保证三个相机visual rays相交的情况。这些论文无一不是对计算机视觉基础问题和基础模型的深入研究，考虑前人没有研究过的问题的系统分析。这些文章的获奖也是鼓励我们年轻研究人员静下心来做基础问题的研究，不轻易追赶当下热潮。做追赶浪潮的弄潮儿容易，可是怎么样保证研究工作不会轻易被遗忘在时间里，或者说怎么做对领域有贡献的研究工作，绝对是我们研究者们需要思考的问题。另外，并不要认为已经写入教科书的内容就已经板上钉钉没有研究价值了。有一些理论也是建立在理想的假设满足的前提下，所以它们仍然可以在质疑的眼光下去进行深造。

三、尚未被深度学习渗透的Low-level Vision

计算机视觉的问题可以根据他们的研究对象和目标分成三大类，low-level，mid-level, 和high-level。Low-level问题主要是针对图像本身及其内在属性的分析及处理，比如判断图片拍摄时所接受的光照，反射影响以及光线方向，进一步推断拍摄物体的几何结构；再如图片修复，如何去除图片拍摄中所遇到的抖动和噪声等不良影响。High-level问题主要是针对图像内容的理解和认知层面的，比如说识别与跟踪图像中的特定物体与其行为；根据已识别物体的深入推断，比如预测物体所处的场景和即将要进行的行为。Mid-level是介于以上两者之间的一个层面，个人理解是着重于特征表示，比如说如何描述high-level问题中的目标物体，使得这种描述有别于其他的物体。可以大致认为，low-level的内容可以服务于mid-level的问题，而mid-level的内容可以服务于high-level的问题。由于这种分类不是很严格，所以也会出现交叉的情况。深度学习在计算机视觉界主要是作为一种特征学习的工具，可以姑且认为是mid-level的。所以之前提到的high-level的问题受深度学习的影响很大就是这个原因。相比较而言low-level问题受到深度学习的冲击会小很多，当然也有深度学习用于去噪（denoise）和去模糊（deblur）等low-level问题的研究。对于受到深度学习良好表现困扰的年轻研究者们，也不妨来探寻low-level很多有意思的研究。这些年，MIT的Bill Freeman组就做了一些很有趣的low-level问题，比如放大视频中出现的肉眼难以察觉的细小变化（Eulerian Video Magnification for Revealing Subtle Changes in the World ），还有这次CVPR的文章 Camouflaging an Object from Many Viewpoints 就是讲如何在自然环境中放置和涂染一个立方体，让其产生变色龙般的隐藏效果。诸如此类的研究也让研究这件事变得有趣和好玩。

nbsp

笔者目前也正专注于low-level中去模糊（deblur）的研究。去模糊的意思是借助某种方法将拍照中出现的模糊图像恢复成清晰图像。这个问题是一个已经被研究了很多年的问题——去卷积（deconvolution），自上世纪5，60年代起，就有很多知名研究工作出现。这方面研究到近十年取得了很多突破，在处理相机抖动引起的模糊中出现了不少有影响力的的工作。而Adobe公司2013年将这方面的算法作为一个重要特征放进了Photoshop中，更是成了鼓舞该领域的研究动力。美国FBI就有利用Photoshop的去模糊功能修复图片并帮助破案的例子，笔者去年在Adobe实习期间看到了FBI发来的感谢信。

这次笔者被CVPR 2014录取的三篇文章都是关于去模糊的研究。一篇是针对模糊图像的一个主要来源——暗光照情况下的图像，设计的一个基于光斑（light streak）的去模糊算法（Deblurring Low-light Images with Light Streaks ）。

评论区

登录后可评论新闻