ASC24 Post Competition Seminar
申明
本文是赛后研讨会的现场速记整理,内容以各高校分享的技术要点和团队情况为主,语言风格偏口语化纪实,未过多修饰。若有表述不当或冒犯之处,欢迎大家指出,我会第一时间修改~ orz
北京大学
核心分享围绕应用GPU化与优化策略展开:GoMars项目尝试CUDA加速但未成功,重点探索了编译参数优化、向量化提升吞吐量等方向;提到Fortran语言开发中,更倾向于通过C接口实现GPU相关操作——因为CUDA-Fortran不仅效率不高,还存在不少bug。
优化层面分为两类:白盒优化(可深入内部清晰修改,聚焦热点优化,适用于大量研究类应用);黑盒优化(软硬件结合,因代码量大、计算逻辑难修改,只能借助技巧实现,多应用于Fortran编写的复杂程序)。
另外分享了团队现状:超算队目前存在人员缺口,正在招募队员;但参与比赛没有加分,相关课程仅面向高年级学生,导致系统方向的储备人才较少。
中山大学
OpenCAEPoro:针对BLAS处理小矩阵效率不佳的问题,采用JIT(Just in Time)解决——直接根据数据动态计算矩阵,跳过中间格式转换环节,大幅提升效率。
GoMars:重点推进向量化优化,借助SIMD技术(功能类似GPU的Warp),优化后带宽始终维持在较高水平;并采用前缀和替代传统sum运算,进一步提升性能。
LLM相关:探索了vLLM+PP(流水线并行)的部署方案,同时尝试TRTLLM(重点在于调参优化)。
WannierTools:通过矩阵复用优化性能,在矩阵构建阶段将其拆分为两个独立模块,提升计算效率。
国防科技大学
OpenCAEPoro优化方向明确:采用NVhpc编译器,将BLAS库替换为CBLAS,推进项目GPU化。
浙江大学
本次分享比较简洁,由老师带队出席,核心是提建议而非技术分享:一是团队计划继续探索“一机八卡”的应用场景;二是强调团队传承的重要性,建议建立完善的传承机制,确保每届核心技术和经验都能延续;另外提到团队每年会招募十几个大一年级学生,提前进行培养。
齐鲁工业大学
团队组建:优先选拔有经验的队员,而非新生,保障团队核心竞争力。
集群搭建:注重实战化训练,开展“体检式模拟搭建”(真实场景部署,不走过场),并基于CentOS系统定制内核功能。
功率控制:创新性地将PID控制算法与前馈控制结合,实现精准的功率调控。
OpenCAEPoro优化:从多维度入手,包括提升代码块的运行效率、替换局部算法降低复杂度、优化集群通信效率等。
青海大学
先分享下羡慕的团队日常训练模式:定期召开组会,聚焦并行优化模型和大模型等核心知识点,队员轮流分享一周学习成果;拥有专属小集群(4个CPU节点),日常比赛训练均在此开展,且集群由超算队自主维护(ps:这种自主实操的环境也太香了,我也想要!)。
OpenCAEPoro优化:应用了多种经典优化手段,包括函数内联、循环展开、IMD(指令级并行)、算子融合以及访存优化等。
- Title: ASC24 Post Competition Seminar
- Author: Richard Yang
- Created at : 2024-06-08 10:28:00
- Updated at : 2026-01-03 16:59:27
- Link: http://www.yremmmm.com/2024/06/08/ASC24-Post-Competition-Seminar/
- License: This work is licensed under CC BY-NC-SA 4.0.