报告题目 | 基于统一矩阵计算的HPC范式演进:迈向AI时代的计算未来 |
报告人 | 李琨 研究员 |
报告人单位 | 微软亚洲研究院 |
报告时间 | 2024-12-23 10:00:00 |
报告地点 | 物质科研B楼B1502会议室 |
主办单位 | 合肥微尺度物质科学国家研究中心 |
报告介绍 | 报告摘要: 人工智能(AI)的快速发展正在重塑高性能计算(HPC)的范式。深度学习模型的核心计算已高度标准化为矩阵乘法(MM)操作,推动处理器广泛采用Tensor Core Units(TCUs),显著提升了AI计算性能。然而,与深度学习中统一的MM操作不同,HPC任务的计算模式复杂多样,优化技术分散且缺乏通用性,难以充分利用AI硬件的潜力。本报告提出了一种基于统一矩阵计算的HPC新范式,通过将多样化的HPC计算模式转化为MM操作,充分发挥AI硬件加速器的能力。以科学计算中的性能瓶颈Stencil计算为例,我们探索了Cloud4Science系列工作,推动HPC与深度学习模式的融合。ConvStencil(PPoPP’24最佳论文)引入卷积算子优化思路,将Stencil计算映射为TCU矩阵乘法操作,实现了显著性能提升;LoRAStencil(SC’24)借鉴低秩适应(LoRA)技术,进一步减少多维数据访问冗余,优化访存效率。Cloud4Science系列工作首次实现了HPC、科学计算和深度学习领域计算模式的统一,为非矩阵乘法类的科学应用提供了性能优化的新途径,开创了AI时代高性能计算的新方向。 个人简介: 李琨,微软亚洲研究院高级研究员,2022年博士毕业于中国科学院计算技术研究所。主导的研究和项目在SC、PPoPP、ICS、IPDPS、TPDS等重要会议及期刊上发表论文30余篇,研究兴趣包括并行与分布式计算,AI4Science,高性能大语言模型系统等。获得中国计算机学会优秀博士学位论文奖,中国计算机学会高性能计算青年科技人才奖,ACM SIGHPC中国新星奖,ACM SIGHPC中国优秀博士学位论文奖,中科院院长奖等。Cloud4Science系列工作连续发表在SC、PPoPP等高性能计算顶会,并获得PPoPP’24最佳论文奖;CCF HPCChina 2024大会特邀报告讲者,CCF青年精英大会优秀讲者,夏培肃青年学者论坛优秀讲者;CCF高性能计算专委执行委员,CCF体系结构专委委员。 |