智能感知与人机协同教育部重点实验室多篇科研成果入选ICCV2025

发布时间2025-09-29文章来源 信息科学与技术学院作者责任编辑刘玥

智能感知与人机协同教育部重点实验室依托上海科技大学信息科学与技术学院,致力于探索下一代人类智能与机器智能的协同发展与相互增强,构建支撑二者交互协作的新型理论基础与实验平台,推动人类智能与机器智能的协同演进与深度融合。国际计算机视觉大会(International Conference on Computer Vision,ICCV)是计算机视觉领域的重要国际会议(CCF A类),将于2025年10月19日至23日在美国夏威夷举行。ICCV 2025 共收到投稿11239篇,录用2698篇,录取率为 24%。在本届会议中,实验室团队表现突出,共有14篇论文被接收。


1. DexH2R: 人机交接中动态灵巧抓取的基准

A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover

人与灵巧手机器手之间的物品递接是人机协作中的基础性挑战,高质量真实世界人-机器人递接数据集的缺乏,严重制约了相关研究的进展。本研究首次提出了一个真实世界中的灵巧手人机递接数据集 DexH2R,涵盖了多样化的交互物体、动态运动过程、丰富的视觉信息以及详细的行为标注。基于此数据集进一步提出了动态递接解决方案 DynamicGrasp,还构建了一个涵盖安全性、准确性与可靠性的多维评估体系,以推动人-机器人递接研究的发展。

 


上海科技大学信息学院2023级研究生王尤卓与2024级研究生叶佳怡为论文共同第一作者,马月昕教授为论文通讯作者。

论文链接:https://arxiv.org/abs/2506.23152

代码链接:https://github.com/4DVLab/DexH2R

项目主页:https://dexh2r.github.io/


2. GeoDistill: 用于跨视角定位的几何引导的弱监督自蒸馏方法

Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

跨视图定位旨在通过对齐地面与航拍图像以估计相机位姿,是增强现实等大规模户外应用中的关键技术。现有方法普遍依赖于全监督学习,不仅需要昂贵真值位姿标注,在面对与训练数据存在分布差异的未知区域时,其定位性能往往显著下降。针对这一问题,研究团队提出了一种名为GeoDistill 的几何引导弱监督自蒸馏框架。实验结果表明,GeoDistill 能够显著提升现有定位框架的性能,尤其在更具挑战性的未见区域中表现出明显的优势。

 


上海科技大学信息学院2024级硕士生童少文为论文第一作者,师玉娇教授为通讯作者。

代码链接https://github.com/tongshw/GeoDistill

论文链接https://arxiv.org/pdf/2507.10935

 

3. 一种基于异步轨迹的结构和运动线性N点求解器

A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks

传统计算机视觉中的结构与运动估计方法通常基于同步数据假设,例如经典的五点法或八点法。然而,随着滚动快门相机和事件相机等异步传感技术的发展,这一假设在实际应用中往往不再成立。针对该问题,研究团队提出了一种统一的结构与线性运动估计方法,能够处理来自任意时间戳与任意视图的二维点对应。实验结果表明,该方法在多种数据模态下均优于现有技术,为异步视觉条件下的结构与运动估计提供了新的技术路径。

 


上海科技大学信息学院2023级博士生苏杭为论文第一作者,Laurent Kneip教授为通讯作者。信息学院Xavier Lagorce教授、2023级硕士生冯云龙和2022级本科生江攀峰也参与了本研究工作。

代码链接https://github.com/suhang99/AsyncTrack-Motion-Solver

论文链接https://arxiv.org/abs/2507.22733v1


4. MP-ReID:多模态多平台的行人重识别数据集基准与方法

Multi-modal Multi-platform Person Re-Identification: Benchmark and Method

传统行人重识别(ReID)长期受限于单一模态静态摄像头的部署条件,难以有效应对真实世界的复杂场景。当城市安防系统中同时存在地面RGB摄像头、夜间红外设备及动态追踪无人机时,视角差异、光照变化与模态差异成为跨平台精准识别的主要挑战。研究团队推出MP-ReID——全球首个专为多模态、多平台行人重识别而构建的基准数据集。基于该基准库,团队进一步提出Uni-Prompt ReID框架,通过定制化提示机制动态适应不同模态与平台间的数据差异,在复杂场景下实现了显著优于现有最优方案的识别精度。

 

上海科技大学信息学院2022级硕士生哈睿暘为论文第一作者,汪婧雅教授为通讯作者。2023级博士生潘比康、2023级硕士生朱翌航也参与了研究工作。

代码及数据集链接https://github.com/MP-ReID/mp-reid

论文链接https://arxiv.org/abs/2503.17096

 

5. Human-X:实时物理可行人机交互生成新范式

Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis

当前人机交互研究中,现有方法往往难以在保持实时响应、物理合理性与交互同步性的同时,实现人-虚拟角色、人形实体或机器人之间的高质量互动。此类“响应延迟”与“物理不一致”问题会显著降低用户体验并影响系统安全性。为此,研究团队提出了一种统一的实时交互合成框架 Human-X。该方法在 Inter-X 和 InterHuman 等多个人-人交互数据集上进行了全面验证,其性能明显优于当前主流方法,在VR/AR、社交机器人、数字人交互等沉浸式人机协同场景中展现出广泛的应用潜力。

 


上海科技大学信息学院2024级硕士生季凯阳为论文第一作者,汪婧雅教授为通讯作者,2023级硕士生金子棽与2025级硕士生陈康奕也参与了本研究工作。

论文链接:https://iccv.thecvf.com/virtual/2025/poster/939

代码链接:https://github.com/humanx-interaction/Human-X-Interaction 


6. SMGDiff:基于扩散模型的实时可控足球动作生成

Soccer Motion Generation using diffusion probabilistic models

针对足球运动场景中复杂的运动轨迹与高度动态的人物交互,研究团队提出了一种基于Diffusion 模型的两阶段实时足球动作生成框架 SMGDiff,该框架包括一个轨迹生成模块和一个动作生成模型:轨迹生成模块采用 one-step diffusion 策略高效生成多样化的人物运动轨迹;动作生成模型引入接触引导机制,并提出 Contact loss 以在 Diffusion 采样过程中优化球与脚之间的动态接触关系。本研究为实时、高动态的人物交互动作生成提供了新的技术思路。

 

: 基于Diffusion模型的两阶段实时足球动作生成框架

 

上海科技大学信息学院2023级硕士研究生杨宏笛和2022级本科生李承阳为论文共同第一作者,许岚教授为通讯作者。

论文链接:https://arxiv.org/abs/2411.16216

项目主页:https://geekyoung.red/SMGDiff/


7. 闭环迁移用于弱监督可供性定位

Closed-Loop Transfer for Weakly-supervised Affordance Grounding

人类在面对陌生对象时,往往能够通过观察他人与物体的交互行为,快速学习其使用方式。弱监督可供性定位(Weakly-supervised Affordance Grounding)任务正是受此启发。现有方法在交互场景复杂、尤其是人体严重遮挡目标区域的情况下,性能往往受限。为此团队提出一种新型闭环框架 LoopTrans,实现了跨视角的双向知识迁移与增强。实验结果表明在多个图像与视频基准上均取得了显著性能提升:在 AGD20K 数据集上,KLD、SIM 和 NSS 三项指标平均提升 6.7%,相对改进幅度达 236%,显著超越现有最佳模型 WSMA;与 LOCATE 方法相比,在遮挡与复杂场景下,LoopTrans 的共享类激活图(CAM)表现出更高定位精度,综合性能提升 11.3%。此外在 HICO-IFF 数据集上,该方法相较 WSMA 也取得了 10.5% 的性能优势,充分验证了其跨任务与跨场景的强泛化能力。

 


上海科技大学信息学院2023级博士生唐嘉晋与2022级本科生卫正轩为共同第一作者,杨思蓓教授为通讯作者。


8. Sim-DETR:释放 DETR 在时间句子定位中的潜力

Sim-DETR: Unlock DETR for Temporal Sentence Grounding

时间句子定位(Temporal Sentence Grounding)是一项关键的视频理解任务,现有方法多基于检测Transformer(DETR)框架构建。但许多为提升DETR性能而设计的策略在该任务中不仅无效,甚至可能导致性能退化。通过系统性分析,本工作揭示了背后的两个主要原因:一是在语义相似的目标片段之间存在查询冲突;二是单个查询内部难以协调全局语义理解与局部定位需求。基于上述发现,研究团队提出了一个简洁而高效的基线模型——Sim-DETR。实验表明,Sim-DETR在所有评价指标上均达到了最先进性能,不仅解决了时间句子定位中查询间与查询内的冲突问题,也为未来研究提供了一个强大而高效的基线模型。

 


上海科技大学信息学院2023级博士生唐嘉晋与2022级本科生卫正轩为共同第一作者,杨思蓓教授为通讯作者。


9. ReAL-AD:迈向端到端自动驾驶中的类人推理

ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving

现有端到端自动驾驶方法通常依赖固定且稀疏的轨迹监督信号,难以充分捕捉人类驾驶员所具备的分层推理机制。为弥补这一差距,研究团队提出了ReAL-AD(推理增强学习自动驾驶框架),基于“策略—决策—操作”三级人类认知模型构建自动驾驶决策系统,并融合视觉语言模型(VLM)以增强其在多层级上的态势感知与结构化推理能力。大量实验表明,集成该框架可显著提升自动驾驶系统的规划准确性与安全性,相比基线方法提升超过30%,同时增强了系统的可解释性,使其决策过程更贴近人类的分层推理模式。

 


信息学院科研助理陆宇航为论文第一作者,香港中文大学祝新革博士与上海科技大学信息学院马月昕教授为共同通讯作者。

论文链接:https://arxiv.org/pdf/2507.12499

项目主页:https://4dvlab.github.io/project_page/realad


10. AMR: 增强片段检索:零依赖的两阶段学习

Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning

片段检索(Moment Retrieval)是实现自然语言与视觉信息交互的关键任务之一。然而,标注数据稀缺使得模型仅能学习到浅层的对应关系、相邻事件间过渡区域的边界模糊使得片段定位精度下降、模型在区分语义相近的细粒度动作时表现不佳等困境。为此,研究团队提出了一种无需外部依赖的增强型片段检索框架 AMR,在多个公开基准上取得了显著性能提升:QVHighlights 数据集上,AMR 相比之前最佳方法 BAM-DETR,在验证集 R1@0.5 和 R1@0.7 指标上分别提升了 +5.03% 和 +5.04%,平均 mAP 提升 +4.05%;在测试集上,R1@0.5 也实现了 +5.51% 的显著优势。实验结果验证了AMR 在应对边界模糊与细粒度语义区分问题上的有效性。

 


上海科技大学信息学院2022级本科生卫正轩与2023级博士生唐嘉晋为本文共同第一作者,杨思蓓教授为通讯作者。


11. TransiT: 基于Transient Transformer的非视域视频成像

TransiT: Transient Transformer for Non-line-of-sight Videography

在非视线成像(NLOS)领域,实现高质量、高帧率的视频采集对自动驾驶、灾后搜救等任务具有重要意义。现有方法往往难以兼顾帧率与视频质量。为解决这一问题,研究团队提出了一种名为 TransiT 的瞬态Transformer架构。在真实采集系统中,TransiT 能够从每点曝光时间仅 0.4 毫秒、分辨率为 16×16 的稀疏瞬态数据中,重建出分辨率达 64×64、帧率为 10 fps 的高质量非视域视频。

 


上海科技大学信息学院2022级博士生李睿潜、2023级博士生沈思远和2022级研究生夏苏安为论文共同第一作者,虞晶怡教授、李实英副研究员为论文共同通讯作者。

论文链接: https://arxiv.org/abs/2503.11328


12. CryoFastAR: 轻松实现快速冷冻电镜从头重构

CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy

从无序图像中估计姿态是三维重建、机器人技术与科学成像中的一个基础性问题,在冷冻电子显微镜(cryo-EM)等科学成像领域,从无序粒子图像中恢复姿态并进行三维重建,目前仍依赖于耗时的迭代优化流程,主要是由于极低的信噪比(SNR)和对比度传递函数(CTF)所引入的图像畸变等挑战。研究提出了CryoFastAR,首个专用于 cryo-EM 的几何基础模型,能够直接从带噪声的 cryo-EM 图像中预测粒子姿态,实现快速的 ab initio 三维重构。实验结果表明,CryoFastAR 在合成与真实数据集上均达到了与传统迭代方法相当的重构质量,同时推理速度显著提升。

 


该论文的第一作者为上海科技大学信息学院2022级博士生张家恺,第二作者为2021级本科生周守琛,虞晶怡教授为通讯作者。

论文链接:https://arxiv.org/pdf/2506.05864


13. EvolvingGrasp: 通过高效偏好对齐实现进化式抓取生成

Evolutionary Grasp Generation via Efficient Preference Alignment

具备自主进化能力、能够越抓越稳的灵巧手,是实现通用具身智能进化道路上的关键突破。面对真实世界中近乎无限的物体形态和抓取场景,EvolvingGrasp 首次提出“进化式抓取生成”框架:通过Handpose-wise Preference Optimization(HPO)方法,使机械手能够以仿生方式从成功与失败的抓取中持续学习;进一步结合 Physics-Aware Consistency Model,将扩散模型蒸馏为仅需 2~4 步推理的极速采样器,在实现30倍推理加速的同时严格保证抓取的物理可行性。该方法在四个公开数据集上均达到最先进性能,并在ShadowHand真实机器人平台上验证了其在线微调能力,展现出“越抓越好”的进化特性。

 


该项研究由上海科技大学信息学院2025级硕士生朱宇飞与2024级硕士生钟奕鸣担任共同第一作者,信息学院马月昕教授和香港中文大学祝新革博士担任共同通讯作者。

论文链接:https://arxiv.org/pdf/2503.14329

代码链接:https://github.com/4DVLab/EvolvingGrasp

项目主页:https://evolvinggrasp.github.io/


14. 消除同源干扰:人物交互检测中的去偏见研究

No More Sibling Rivalry: Debiasing Human-Object Interaction Detection

检测Transformer(DETR)已被应用于人物交互(HOI)检测任务,显著提升了图像中“人-动作-物”三元组的定位与识别性能。研究团队揭示了一个关键问题——“有毒兄弟姐妹偏见”:在交互解码器的输入与输出端,大量相似但不相同的HOI三元组相互干扰甚至彼此竞争,严重阻碍了解码器的有效学习。该偏见源于兄弟三元组/类别之间的高度混淆,导致一种矛盾现象——相似性越高,识别精度反而下降。为解决这一问题,研究人员提出了两个新的去偏见学习目标:“对比-校准”与“合并-拆分”,分别从输入与输出两个角度进行优化。实验结果表明,本方法在多种设置下均显著优于基线模型(在HICO-Det数据集上mAP提升+9.18%)和当前最优模型(mAP提升+3.59%)。

 


上海科技大学信息学院2023级硕士生杨斌与2024级硕士生张宇麟为论文的第一作者,杨思蓓教授为论文通讯作者。

论文链接:https://arxiv.org/pdf/2509.00760