提升算力,统筹能力,上科大科研计算自服务平台上线试运行

发布时间2022-01-16文章来源 图书信息中心作者责任编辑

1月10日,上海科技大学科研计算自服务平台正式上线试运行。作为上海科技大学科研计算资源的统一服务门户,科研计算自服务平台实现了站式的高性能资源使用服务和综合管理,打破了算力校院协同建设模式下科研计算资源使用的信息壁垒,强化了学校共享统筹算力的服务水平和精细化配置资源的能力。平台的上线运行将进一步提升上科大师生使用学校科研计算资源的便捷性,提高计算资源的使用效益,促进科研成果的产出,助力学校的科研发展。


平台提供一站式的资源使用服务和综合管理


科研计算自服务平台2021年首期建设功能包括:集群管理、资源概览、在线命令行、集群资源组及成员管理、账号管理、作业管理、数据管理、跨集群数据传输功能、可视化作业模板、远程可视化应用等。在集群调度方面,平台已支持Torque PBS和Slurm。用户可以通过校园网或VPN即可便捷的访问到计算平台,并通过平台进行作业和任务的跟踪。平台的便捷性受到用户的赞誉。平台用户、物质科学与技术学院学生刘晓迁表示,“自服务平台提供了各项集群基本操作功能,尤其‘在线命令行’模式,节省了许多装软件的过程,而且不限操作系统。可以说随时随地,哪怕不在校内,只需要带个pad也能随时访问学校的计算资源,随时随地查看任务完成情况。”


用户可通过移动设备浏览器进行访问并进行作业情况跟踪


科研计算自服务平台可以让用户直观地了解作业所在节点的运行数据,帮助用户提升对计算任务的规划管理能力和计算数据的管理途径。结合学校数据的驱动力,平台可以为计算用户、资源建设方提供资源使用效率的实时跟踪,为进一步合理规划资源建设和评估算力需求提供数据依据。

此外,科研计算自服务平台通过解耦资源账号和登录信息,向用户提供了租户式的管理授权方式,为计算平台上的跨学科、跨课题组的协作提供便捷;通过打通资源信息和人员信息,提升了资源授权的时效性;通过联动运行数据和作业信息,为用户的作业运行情况跟踪提供更便捷的窗口,可进一步促进科研任务的规划和资源的改善。

平台试运行两周以来,其各项功能和综合服务水平已得到高度认可。平台用户、免疫化学研究所助理教授白芳表示:“自开通自助服务平台以来,我们在管理与资源协调、计算任务提交与处理等方面的效率显著提升。同时,作业可视化分析更加清晰,极大提高了我们的科研工作效率!”


提供作业可视化分析


目前平台已对接集群调度系统3个,管理计算节点466个,累计记录作业约3760万核小时,登记的用户账号10210个,集群账号833个。

未来,科研计算自服务平台在便捷用户使用、优化资源使用效率的同时,将结合用户反馈、不断完善、优化平台功能,提升学校整体科研计算算力统筹交付能力,使高性能的资源从传统的赋能支撑向核心驱动转变,为学校高性能计算助力科研发展保驾护航。

上海科技大学高性能共享服务中心自2017年7月1日正式投入运行以来,已平稳运行了近5年,目前已累计服务用户651位,累计支撑391篇高质量论文产出。其中,CNS论文5篇,Nature Index来源刊论文77篇,SCI一区期刊论文105篇。通过统筹规划,资源共享的建设模式,校院已建设466台节点,整体算力9.38Pflops,为全校科研用户提供包含CPU、大内存、GPU等各类计算资源,通过 “资源配给”、“能力挖掘”、“运行优化”等多层级立体贴身的服务模式支撑科研的使用需求。