ASC24 Post Competition Seminar

申明

本文是赛后研讨会的现场速记整理，内容以各高校分享的技术要点和团队情况为主，语言风格偏口语化纪实，未过多修饰。若有表述不当或冒犯之处，欢迎大家指出，我会第一时间修改～ orz

北京大学

核心分享围绕应用GPU化与优化策略展开：GoMars项目尝试CUDA加速但未成功，重点探索了编译参数优化、向量化提升吞吐量等方向；提到Fortran语言开发中，更倾向于通过C接口实现GPU相关操作——因为CUDA-Fortran不仅效率不高，还存在不少bug。

优化层面分为两类：白盒优化（可深入内部清晰修改，聚焦热点优化，适用于大量研究类应用）；黑盒优化（软硬件结合，因代码量大、计算逻辑难修改，只能借助技巧实现，多应用于Fortran编写的复杂程序）。

另外分享了团队现状：超算队目前存在人员缺口，正在招募队员；但参与比赛没有加分，相关课程仅面向高年级学生，导致系统方向的储备人才较少。

中山大学

OpenCAEPoro：针对BLAS处理小矩阵效率不佳的问题，采用JIT（Just in Time）解决——直接根据数据动态计算矩阵，跳过中间格式转换环节，大幅提升效率。

GoMars：重点推进向量化优化，借助SIMD技术（功能类似GPU的Warp），优化后带宽始终维持在较高水平；并采用前缀和替代传统sum运算，进一步提升性能。

LLM相关：探索了vLLM+PP（流水线并行）的部署方案，同时尝试TRTLLM（重点在于调参优化）。

WannierTools：通过矩阵复用优化性能，在矩阵构建阶段将其拆分为两个独立模块，提升计算效率。

国防科技大学

OpenCAEPoro优化方向明确：采用NVhpc编译器，将BLAS库替换为CBLAS，推进项目GPU化。

浙江大学

本次分享比较简洁，由老师带队出席，核心是提建议而非技术分享：一是团队计划继续探索“一机八卡”的应用场景；二是强调团队传承的重要性，建议建立完善的传承机制，确保每届核心技术和经验都能延续；另外提到团队每年会招募十几个大一年级学生，提前进行培养。

齐鲁工业大学

团队组建：优先选拔有经验的队员，而非新生，保障团队核心竞争力。

集群搭建：注重实战化训练，开展“体检式模拟搭建”（真实场景部署，不走过场），并基于CentOS系统定制内核功能。

功率控制：创新性地将PID控制算法与前馈控制结合，实现精准的功率调控。

OpenCAEPoro优化：从多维度入手，包括提升代码块的运行效率、替换局部算法降低复杂度、优化集群通信效率等。

青海大学

先分享下羡慕的团队日常训练模式：定期召开组会，聚焦并行优化模型和大模型等核心知识点，队员轮流分享一周学习成果；拥有专属小集群（4个CPU节点），日常比赛训练均在此开展，且集群由超算队自主维护（ps：这种自主实操的环境也太香了，我也想要！）。

OpenCAEPoro优化：应用了多种经典优化手段，包括函数内联、循环展开、IMD（指令级并行）、算子融合以及访存优化等。

YRemmmm`s Blog