X
+
-
重置
题目(Title):
【SIST】大模型及其智能体的安全评测与治理
主讲人(Speaker):
王文轩
开始时间(Start Time):
2026-05-15 10:30
结束时间(End Time):
报告地点(Place):
信息学院1A108
主办单位(Organization):
信息科学与技术学院
协办单位(Co-organizer):
简介(Brief Introduction):
本次演讲将系统探讨大模型及其智能体面临的核心安全挑战。报告内容聚焦两大维度:一是大模型内容安全,首先介绍内容正确性-内容无毒性-内容对齐性的内容安全体系,然后介绍基于自动化软件测试和高质量评测基准的内容安全评测方法,以及覆盖数据-训练-部署全周期的内容安全治理方案。二是大模型智能体安全,以GUI Agent为例,重点分析其面临的内部威胁与外部威胁,并探讨相应的防御思路与评测基准。本次报告旨在勾勒从模型内容治理到智能体行为风险防控的安全研究蓝图。
嘉宾介绍:王文轩,中国人民大学信息学院讲师,人工智能治理研究院研究员。研究方向为大模型及智能体应用及安全,近五年发表A类论文40余篇,谷歌学术总引用六千余次,单篇论文引用超1300次。发表论文获ACM SIGSOFT杰出论文奖,EMNLP 最佳论文提名,深圳科协优秀论文奖。多个大模型安全对齐项目在开源社区排名第一,累计收获6000 GitHub星标。研究工作被图灵奖得主Yoshua Bengio、OpenAI和Anthropic的研究人员采用,成为业界标准评测工具。同时担任ACL,EMNLP,ICLR等国际人工智能旗舰会议的领域主席,以及ACM MM的讲习班主席。
嘉宾介绍:王文轩,中国人民大学信息学院讲师,人工智能治理研究院研究员。研究方向为大模型及智能体应用及安全,近五年发表A类论文40余篇,谷歌学术总引用六千余次,单篇论文引用超1300次。发表论文获ACM SIGSOFT杰出论文奖,EMNLP 最佳论文提名,深圳科协优秀论文奖。多个大模型安全对齐项目在开源社区排名第一,累计收获6000 GitHub星标。研究工作被图灵奖得主Yoshua Bengio、OpenAI和Anthropic的研究人员采用,成为业界标准评测工具。同时担任ACL,EMNLP,ICLR等国际人工智能旗舰会议的领域主席,以及ACM MM的讲习班主席。

