信息学院在国际权威期刊TPAMI发表重要研究成果

ON2020-06-14CATEGORY科研进展

我校信息学院智能视觉中心的最新研究成果“Neural Opacity Point Cloud”在人工智能领域顶级学术刊物IEEE Transactions on Pattern Analysis and Machine Intelligence（简称IEEE TPAMI）发表。IEEE TPAMI是目前计算机类别中影响因子最高（影响因子17.730）的期刊之一，主要收录人工智能、模式识别、计算机视觉及机器学习领域的原创性科研成果。

神经网络渲染器可以实现新颖视角下复杂场景图像的渲染，是深度学习在图形学领域的全新应用，能大幅度地提高渲染的质量和速度，也是未来渲染技术的发展方向。在该文中，信息学院硕士研究生王岑和博士研究生吴旻烨提出了一种神经网络半透明点云（NOPC）渲染方法，实现了自由视角下毛绒物体的高质量渲染。该方法即使使用低质量不完整的三维点云，也可以生成逼真的渲染。

传统的基于图像的不透明外壳（Image-Based Opacity Hull, IBOH）技术会因采样不足而导致伪影和叠影。通过使用高质量的几何可以缓解该问题，但是对于毛绒物体来说，获取真实准确的几何外观仍是一项巨大挑战。这类物体包含成千上万根毛发纤维，由于纤维极细且无规律地相互遮挡，它们表现出很强的与视角相关的不透明度，这种不透明度信息很难在几何形状和外观上进行建模。

研究人员提出的渲染方法能够将基于图像的渲染（IBR）与神经网络渲染（Neural Rendering）结合，以渲染对象的粗糙点云作为输入，使用相对稀疏视点下拍摄的图像数据，渲染出毛绒物体在自由视角下逼真的外观和准确的不透明度。该研究同时提出了一种用于拍摄采集真实毛绒物体数据的拍摄系统。

具体来说，NOPC由两个模块组成：第一个模块旨在学习每个三维点的特征，该特征编码了三维点周围的局部几何和外观信息。通过将所有三维点及其对应的特征投影到虚拟视角，就可以获得该视角下的特征图；第二个模块使用卷积神经网络从特征图中解码出该视角下的RGB图像和不透明蒙版。该卷积神经网络基于U-net网络结构，用门控卷积（gated convolution）代替了常规的卷积，以便鲁棒地处理粗糙或破洞的三维几何。同时在U-net 原有的层级结构的基础上，从预测RGB 图像的分支中扩展出新的alpha预测分支，该分支有效地增强了整个网络模型的性能。

图1：算法流程示意图

图2：渲染网络结构示意图

图3：NOPC在增强现实中的应用示例。它将虚拟对象（猫）放入真实的环境中。与传统的基于三维模型的渲染相比，NOPC的渲染结果具有逼真的毛绒感外观。

NOPC有很广泛的应用场景。它能够用于虚拟现实（VR）和增强现实（AR）内容的采集渲染流程，将带有透明度但不易建模的物体（例如人物头发、毛绒玩具等）在任意虚拟三维场景中逼真地展示。还可以与偶像AR实时合影，偶像的比例大小与位置可以按需求调整，保证了在任意背景下呈现的真实感。

上海科技大学信息学院为第一完成单位，硕士研究生王岑和博士研究生吴旻烨为第一第二作者，虞晶怡教授为通讯作者。该工作得到了国家重点研发计划、国家自然科学基金、STCSM和SHMEC的支持。

文章链接：https://ieeexplore.ieee.org/document/9064947