信息学院王春东课题组在计算存储并行化方向取得新进展

发布时间2026-06-11文章来源 信息科学与技术学院作者责任编辑

近年来,人工智能等新型应用对高效可靠的数据存储系统提出更高要求,如何挖掘CPU处理器和新一代存储设备的并行处理能力是当前研究的重要挑战“计算—存储”的串行式处理流程是当今数据存储的主流模式,深刻影响了系统性能。信息学院王春东课题组以LSM树(Log-Structured Merge-Tree)键值存储为研究对象,提出了新型的并行处理方案,研究论文被第35届国际高性能并行与分布式计算大会(35th ACM International Symposium on High-Performance Parallel and Distributed Computing,HPDC 2026)录用接收。

研究关注的键值存储,即key-value (KV) store,是目前多个应用场景的主要数据管理与存储架构。LSM树架构由于其优良的性能,被谷歌、脸书等大量采用存储各类数据,也在区块链等场景广泛应用。压缩(Compaction)是 LSM 树用于维护其分层树形结构的核心操作,该操作通过计算完成数据重排序、通过I/O操作完成数据重存储。团队发现计算与 I/O 操作采用串行执行方式:完成数据重排序后,用户线程需等待内核线程执行文件写入与 fsync 同步 I/O 操作直至结束。这类高开销的同步 I/O 会形成过长的关键路径,进而影响 LSM 树的性能。

针对问题,研究人员提出了一种面向高效LSM树数据存储的计算与 I/O 并行化方案,命名为Pome。Pome依托全新设计的协议,将 I/O 操作移出关键路径,在单次压缩操作中实现计算与 I/O 的解耦。为此,该方案借助 io_uring 实现异步 I/O 操作。此外,针对压缩加速可能引发的 I/O 拥塞问题,Pome 引入自适应 I/O 速率限制器,以保障执行流程平稳运行。在 RocksDB 之上实现了 Pome 原型系统。图1和图2展示了传统串行化处理方式和Pome的并行化方案的差异。对比两者可以看出,Pome大幅缩减了关键路径上的处理时间,可有效提升LSM树的效率。实验结果表明,Pome 显著提升了 RocksDB 的性能,且表现优于多款当前主流的 LSM 树改进方案。

 

1 原LSM树串行式压缩流程示意


2 论文提出的Pome并行化处理方案示意

 

王春东课题组长期关注传统与新型的系统优化、计算机体系结构、网络与系统安全等基础科学问题。该研究由王春东课题组独立完成。论文的共同第一作者是课题组研究生胡岩鹏与朱莉,贾磊为合作作者,三位同学均为上海科技大学信息学院计算机专业本科毕业生。王春东教授为通讯作者,上海科技大学是论文的唯一完成单位。

HPDC是中国计算机学会(CCF)推荐的A类会议。据悉,2026年HPDC共收到281篇论文投稿,41篇接收为正式论文,接收率约为14.6%。

论文标题:Pome: Parallelizing I/Os and Computations for Efficient LSM-tree-based Data Storage