ASC24 Post Competition Seminar

Richard Yang Lv1

此文只是赛后研讨会临时做的笔记,未多加修饰。如有冒犯,还请指出,会立即修改 orz

北京大学

神秘应用GPU化。GoMars(cuda失败,无加速)编译参数,向量化吞吐量,fortran习惯用c接口来做(cuda-fortran效率并不是很高,还有一堆bug)。白盒优化(能从内部清晰可见的修改),热点优化,大量研究的应用;黑盒优化(软硬件结合。难改,只能借助技巧),代码量大,计算难改,Fortran。超算队缺人,比赛招人,打比赛不加分,课程是高年级的,系统方向人少。

中山大学

OpenCAEPoro:BLAS小矩阵处理不行,使用JIT(Just in Time)来解决。直接根据数据算矩阵,跳过了中间格式转换的过程。GoMars:向量化,simd类似于GPU warp,做了后带宽维持较高水平。使用前缀和代替sum。LLM:vLLM+PP,TRTLLM(调参)。WannierTools:矩阵复用,矩阵构建时拆成了两个。

国防科技大学

OpenCAEPoro:编译器NVhpc,换blas库->cblas,GPU化。(chatgpt纯度挺高)

浙江大学

想继续一机八卡,没讲个啥,因为是老师来讲的,他是来提建议的。确保每届可以传承各个方面,每年招十几个大一下。

齐鲁工业大学

超算队员选择有经验的,而非新生。集群搭建:体检模拟(真实搭建,不是水),centos定制内核功能。PID控制算法+前馈进行功率控制。OpenCAEPoro:优化代码块的运行效率,更换局部算法降低复杂度,优化集群通信效率。

青海大学

日常训练:定期召开组会学习并行优化模型和大模型,分享一周的学习内容,有自己的小集群,4cpu节点,平时比赛训练也在上面做,由超算队自行维护集群(ps:我也想要)。OpenCAEPoro:函数内联,循环展开,IMD,算子融合,访存优化等。

  • Title: ASC24 Post Competition Seminar
  • Author: Richard Yang
  • Created at : 2024-11-29 10:28:00
  • Updated at : 2025-03-01 20:43:32
  • Link: http://www.blog.saltedfishs.top/2024/11/29/ASC24-Post-Competition-Seminar/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments