近日,中国科学技术大学针对大尺度数万原子分子固体体系的第一性原理计算模拟,以低标度平面波高精度计算软件DGDFT为基础,在国产神威•太湖之光超级计算机上实现了千万核超大规模并行计算,研究成果以“High performance computing of DGDFT for tens of thousands of atoms using millions of cores on Sunway TaihuLight”为题在线发表于《Science Bulletin》上。这项成果由合肥微尺度物质科学国家研究中心、化学与材料科学学院的杨金龙教授课题组,与计算机科学与技术学院安虹教授课题组联合攻关,在国家超级计算无锡中心和中国科学院软件研究所研究人员的紧密配合下完成。
图1 《Science Bulletin》期刊论文页面
神威·太湖之光超级计算机系统是我国也是世界第一台理论浮点计算能力达到〸亿亿次量级的超级计算机系统。与国际 TOP500 超级计算机列表中排名靠前的几台采用 “CPU + 加速器” 结构的超算系统不同的是,神威·太湖之光强大的理论浮点计算性能来自于40,960 个我国自主设计的第二代申威26010众核处理器。相比于同时代的商用多核处理器,申威众核处理器擅长处理计算密集型任务,具有更大规模的多级并行计算单元和独特的片上存储结构,其上的并行算法设计和性能优化面临许多挑战,迫切需要在重大应用问题的驱动下,发展其上的算法设计和优化实现方法。
DGDFT(Discontinuous Galerkin Density Functional Theory)方法是利用自洽场(Self-Consistent Field, SCF)迭代过程中动态生成的自适应局域基函数(Adaptive Local Basis, ALB)来求解KS (Kohn-Sham)方程,具有可媲美平面波基组的高精度计算结果。算法实现采用了两级并行化策略,用于处理并行计算中各种类型的数据分布、任务调度和数据通信方案等;同时结合申威SW26010众核处理器特点实现了主从核多线程异构并行和高性能计算函数库,在神威•太湖之光上完成了超大规模高性能DFT计算模拟。计算结果表明,DGDFT方法可以在神威•太湖之光超级计算机上并行扩展到8,519,680个计算处理核(131,072个核组),用于研究含有数万碳原子(11520碳原子)的二维金属石墨烯体系的电子结构性质。
图2 DGDFT的ALB基组,块状三对角Hamiltonian矩阵,流程图,神威主从核并行加速。
超级计算机和高性能计算技术的快速发展,使得基于KS方程密度泛函理论(KS-DFT)的第一性原理计算模拟在凝聚态物理、材料科学、化学和生物等研究领域变得越来越重要。自2010来以来,中国拥有了3台世界上计算速度最快的超级计算机,其中神威•太湖之光曾4次占据世界超级计算机TOP500排行榜第一。但是,国内第一性原理高性能计算软件却远远落后于超算硬件的发展。因此,随着国产超级计算机的快速发展,很有必要发展相应的理论算法和超大规模并行计算软件,从而充分发挥出这些超级计算机强大的计算能力,模拟研究更大尺度的物理化学问题。
这次通过超算应用团队、软件移植和性能优化团队,与基础算法库开发团队以及国家超算中心硬件技术支持团队的紧密合作,把我校理论与计算化学的低标度理论算法与国产高性能并行计算软硬件的优势结合起来,充分发挥了国产神威•太湖之光超级计算机的强大计算能力;开发了低标度、低通讯,低内存、低访存的并行计算方法;实现了具有平面波精度的千万核超大规模高性能并行计算。同时,模拟体系的大小(数万原子)比国际同等平面波精度的计算模拟软件提高了数百倍。这一成果说明,借助当代最先进的计算方法和世界顶级高性能计算平台,大体系、长时间的高精度第一性原理材料模拟已成为现实。
论文链接:https://www.sciencedirect.com/science/article/pii/S2095927320304230#!