我校信息学院在人工智能领域发表多篇重要科研成果

发布时间2019-06-12文章来源 信息科学与技术学院作者责任编辑

  近期,我校信息学院智能视觉中心(vic.shanghaitech.edu.cn)多篇论文分别被4个人工智能领域顶级国际会议接收,包括:2019国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern RecognitionCVPR)接收7篇,2019国际计算语言学协会年会(Annual Meeting of the Association for Computational LinguisticsACL)接收3篇,2019国际机器学习大会(International Conference on Machine LearningICML)接收3篇,2019人工智能国际联合大会(International Joint Conference on Artificial IntelligenceIJCAI)接收2篇。以上4个国际会议均被中国计算机学会(CCF)认定为人工智能领域最高级别,即A类国际学术会议。

  在计算机视觉领域,信息学院今年共有7篇论文被CVPR 2019接收。

  “Density Map Regression Guided Detection Network for RGB-D Crowd Counting and Localization”一文中提到为解决RGB-D场景下的人头计数问题,提出了一个可同时人群计数并给出人头位置的回归引导检测网络(RDNet(见图1)“Local to Global Learning: Gradually Adding Classes for Training Deep Neural Networks”一文中提出一种新型神经网络数据选择算法Local to Global LearningLGL)(见图2),将其应用到深度神经网络中,并且从信息论的角度发现LGL可以降低神经网络初始训练阶段的熵,使其训练更加稳定。“PPGNet: Learning Point-Pair Graph for Line Segment Detection”一文中提出使用简单图来表示连接点、线段和它们之间的关系(见图3),并提出点对图网络(PPGNet)从图像中检测所有连接点,并输出邻接矩阵形式的线段检测结果。“Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding”一文中研究了从单张RGB图像,用非固定数量的平面提供三维场景简洁表达。使用卷积神经网络将像素映射到一个嵌入空间,并利用改进Mean Shift聚类算法得到平面实例分割(见图4),该方法在公开数据集上达到最优性能,运行速度达到30FPS。上述研究成果出自高盛华教授课题组。

1. 用于人群计数的回归引导检测网络(RDNet)

2. LGL与迁移学习的区别,A, B, C代表训练集中的三个类

3. 点对图网络(PPGNet)网络框架示意图

4. 平面重建结果,从左至右分别为:输入图像,平面实例分割,深度图,重建的三维平面模型

  “The Alignment of the Spheres: Globally-Optimal Spherical Mixture Alignment for Camera Pose Estimation”一文中,课题组研究在仅知3D模型纯几何信息情况下的跨模配准问题,并将其转换为一个2D-3D混合模型的对齐任务,其求解依赖于全局最优的分支定界搜索算法,研究思路见图5“Motion Estimation of Non-holonomic Ground Vehicles from a Single Feature Correspondences Measured over n Views”一文中提到受平面tri-focal tensor及其处理线特征能力的启发,研究人员对车辆的局部圆周运动建立了可任意扩展的n维线性约束(见图6)。上述研究成果出自Laurent Kneip教授课题组。

5.论文思路: 球体表示三维点云分布的高斯模型, 其目标是找到相机的位姿,使其在相机单元球面上的投影与测量到的投影点云分布一致

6.车辆运动的近似模型

  虞晶怡教授课题组在“Ray-Space Projection Model for Light Field Camera”一文中,提出一种从光线空间到光场相机坐标系下的新投影方式(见图7)。根据MPC模型计算一个内参投影矩阵,利用光线空间的单应矩阵和投影矩阵估计不同光场相机间的对应关系。通过合成和真实数据验证了新算法的有效性和鲁棒性。

7. 两个光场相机之间的光线空间投影模型和光线与光线之间的变换

  在自然语言处理领域,信息学院共有3篇论文被ACL 2019接收。

  “Enhancing Unsupervised Generative Dependency Parser with Contextual Information” 一文提出了一种无监督句法分析的新型概率模型:基于神经网络的判别式价键依存模型(见图8)。“Second-Order Semantic Dependency Parsing with End-To-End Neural Networks”一文研究了旨在识别自然语言句子中单词间语义关系的语义依存分析,提出了一种二阶语义依存分析器,将两条依存边之间的相互作用关系考虑在内;使用两种推理算法对二阶分析进行近似,并将其转化为端到端神经网络进行训练,见图9。上述研究成果出自屠可伟教授课题组。除此之外,屠可伟教授课题组在与西湖大学张岳教授合作完成的“Latent Variable Sentiment Grammar”一文中提出了一系列情感语法,用于使用神经网络显式地建模情感组合。

8.计算语法规则概率的神经网络模型架构

   

9. 模型架构

  在机器学习领域,信息学院共有3篇论文被ICML 2019接收。

  “Noisy dual principal component pursuit”一文中提到对偶主成分追踪(DPCP)是一个通过非凸优化从被异常值损坏的数据集中拟合线性子空间的鲁棒子空间学习方法,本文将该方法的全局最优性和收敛理论延伸到了有噪音数据的情况,并且说明了该方法在3D路面检测应用上优于RANSAC方法。“Homomorphic sensing ”一文提到给定一个线性子空间以及一个线性变换的有限集,作者发展了一个代数理论,这个理论确立了保证线性子空间里的点被某些线性变换的同态像唯一确定的条件。上述研究成果出自Manolis Tsakiris教授课题组。

  何旭明教授课题组在“LatentGNN: Learning Efficient Non-local Relations for Visual Recognition”一文中提出一种新颖的隐空间图卷积网络(见图10),通过引入隐空间实现高效的上下文语义建模,最终在检测与点云分割任务上以更低计算复杂度取得更优异的性能。

10. 隐空间图卷积神经网络框架

  在泛人工智能领域,信息学院共有2篇论文被IJCAI 2019接收。

  高盛华教授课题组在“Open-set Supervised Video Anomaly Detection with Margin Learning Embedded Prediction”一文中提出一种基于度量学习的视频未来帧预测的开集(open-set)场景下的异常行为检测框架(见图11),大量的实验证明了所提出方案的有效性。

11. MLEP网络框架图,包含编码器,ConvLSTM与解码器

  赵登吉教授课题组与合作者在“Diffusion and Auction on Graphs”一文中刻画出了一类可以激励参与者通过社交关系分享(销售)信息的市场规则(赵登吉教授课题组和合作者于2017年最先开创在该领域的研究工作)。他们提出的市场规则很好地利用了网络社交关系进行信息共享,对传统的基于搜索引擎和社交媒体的互联网广告模型提出了新的挑战和新的设计。

  除上述最新研究成果之外,信息学院虞晶怡教授课题组和Laurent Kneip教授课题组的相关研究工作近期分别以“Hyperspectral Light Field stereo Matching”和“Minimal Case Relative Pose Computation using Ray-Point-Ray Features”为题在人工智能领域国际知名期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)》(影响因子:9.455)上发表。上述科研成果充分展示了我校信息学院在人工智能领域一流的科研创新实力。