信息学院虞晶怡课题组在光子智能研究领域取得重大突破

发布时间2021-04-23文章来源信息科学与技术学院作者责任编辑

上海科技大学信息学院虞晶怡课题组在光子智能研究方面取得了突破性进展。相关成果以“Non-line-of-sight Imaging via Neural Transient Fields”为题，将作为2021计算摄影学国际会议（IEEE International Conference on Computational Photography, ICCP）首篇论文于5月23日宣讲，同时在人工智能国际代表性期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)发表。

光子学与人工智能的交叉研究是一个新兴的研究热点，以美国麻省理工学院、卡耐基梅隆大学、斯坦福大学、威斯康星大学麦迪逊分校等大学为主导，英国格拉斯哥大学、德国波恩大学、西班牙萨拉戈萨大学，以及中国科学技术大学、中科院上海光机所等高校和研究所也迅速布局了光子智能研究工作。上科大虞晶怡课题组于2020年7月开始布局、组建研究团队，历时半年取得了令人鼓舞的研究成果：研究团队基于计算成像原理，采用单光子探测器（SPAD），搭建了一套单光子成像系统，用于获取街道拐角、障碍物背后或雾霾等非视域（non line of sight）场景信息。

单光子成像与传统摄像机不同，是以皮秒级或飞秒级获取反射自物体的单个光子及其飞行时间，得到高维瞬态图像（transient）。如下图所示，这种瞬态图像的单个像素是一个直方图，记录的是每个皮秒级单位时间的光子个数，而不是通常图像表示的亮度。单光子成像能够采集微弱光照、远距离物体，以及非视域场景等人眼难以感知的信息，是遥感成像，机器人视觉、生物医学成像、自动驾驶等应用领域的关键技术。

图| 单光子成像及主要应用（部分图例来自论文参考文献）

非视域三维重建等场景解析研究

研究团队通过单光子非视域成像获取的非视域场景信息，分析激光经中介墙面发生漫反射后被物体表面反射、返回墙面的强度与时间的关系，恢复非视域物体的3D形状和表面反射特性，进行非视域三维重建等场景解析研究。根据激光与单光子探测器是否同时扫描中介墙面的相同位置，单光子非视域成像采用共焦和非共焦两种模式设置。现有的很多方法利用单光子非视域成像获取的高维瞬态信息，将非视域三维重建视为逆成像问题，通过反卷积进行近似求解。有些方法基于光的波动性质或衍射特性，避免求解这个逆成像问题。这些前沿方法得到了很好的非视域重建效果，然而难以恢复非视域场景的结构性细节，对成像中的自遮挡、非均匀反射等非线性现象也未纳入考虑。

图| 共焦模式的单光子非视域成像设置。激光照射点与单光子探测器通过分束器和振镜系统对应墙面上的同一个位置。

提出新的单光子非视域成像前向模型

研究团队提出了一个新的单光子非视域成像前向模型，提出了神经瞬态场（Neural Transient Field, NeTF）作为一种新的逆问题求解方法。受最近的研究热点神经辐射场（NeRF, [Mildenhall 2020ECCV]）启发，基于体绘制理论，将非视域场景表达成一个全连接神经网络的权重，以瞬态数据作为输入进行训练学习，得到非视域场景的密度分布及具有视角特性的反射率，实现非视域场景三维重建。与现有方法不同，NeTF能够连续表示和可微分计算，实现任意分辨率的非视域重建，还能够处理自遮挡和非均匀反射现象。

NeTF由两部分组成。首先，根据中介墙面上已知的照明点和探测点位置，在球坐标系表示的空间中进行采样，然后将采样坐标转换到直角坐标系，以更好地描述物体的几何和视角特性。其次，将这些直角坐标系表示的采样点输入到全连接神经网络和单光子非视域成像模型，计算出预测的瞬态数据，使之与实测的瞬态数据差值最小来优化神经网络，得到非视域场景的密度分布和反射率。

图| NeTF实现框架

提出双阶段训练策略和分层自适应采样方法

研究团队发现，神经网络训练过程中存在样本不均衡现象，导致被自遮挡的非视域场景重建效果不好。针对这一现象，研究团队提出了双阶段训练策略，即从第一阶段训练结果中分析出每个样本的重要程度，在第二阶段对非视域场景进行重采样以实现样本平衡。在此基础上，还提出了一种分层自适应采样方法，对非视域场景概率更高的空间分配更多的采样点，提高采样效率和重建精度。NeTF方法基于深度学习，不仅能够获得优于已有方法的重建效果，还能处理自遮挡、非均匀反射，实现共焦模式或非共焦模式下任意分辨率的非视域三维重建。

图| 仿真数据和实测数据的NeTF与前沿方法进行了非视域重建效果对比

本项研究实现了单光子非视域成像与人工智能的优势结合，研究团队在虞晶怡教授指导下一起参与工作。2020级硕士生沈思远和2019级王梓携手攻克难题，为共同第一作者；虞晶怡和副研究员李实英为共同通讯作者，上海科技大学为第一完成单位。本项研究获得了国家自然科学基金面上项目、上海市科委项目和上海科技大学支持，相关计算利用了上科大图信中心高性能计算平台。论文代码和数据已开源，供交流讨论（https://github.com/zeromakerplus/NeTF_public）。

光子智能领域是一个充满挑战的新方向，信息学院学生勇于挑战前沿课题，敢于不断试错，勤于反复动手调试，最终完成了从无到有的系统搭建，取得了骄人的成果。在整个项目的完成过程中，参与研究的同学们也收获不菲。以下是部分同学的心得感悟：

沈思远

非视域成像是个包含精密时间维度的成像过程，同时由于数据量大、成像过程复杂，如何解决它是一个巨大的挑战。新奇又富有挑战，这也是为什么它吸引了我。作为研一的学生，需要在短时间内深刻理解问题并将神经渲染框架首次引入非视域成像问题对我而言充满了困难。但是多亏了老师的指导与同学的帮助，使得我在完成课题的同时精进了专业技能并且熟悉了论文完成的各个环节，为我将来的科研工作打下了良好的基础。

王梓

我个人在这次工作中最大的收获就是要学会主动向外界寻求帮助。每个人都有自己的专长和知识盲区，但是科研很多时候会用到自己完全不了解的领域内的方法。这时虽然自己设法学习一个新的领域也很有帮助，但往往精力的限制不允许我们面面俱到，所以直接向他人请教或者直接邀请新的合作者就是非常合适的解决途径。这与我们本科时将学习作为目的的思路非常不一样，也是我感悟最深的地方。

李睿潜

从无到有搭建整个系统是一个非常具有挑战性的工作。不但要从理论方面确定系统的可行性，还要考虑实际搭建过程中各类器材的选购以及安装等问题。潘正卿学长和我共同克服种种困难，经受一次次挫折，等到终于测到想要的数据时我们非常开心。虽然整个过程难度远高于利用已有的系统解决实际问题，但是我学到的东西和获得的成就感也同样远超于预期。