ASC24 Finals Memories
QWQ
能亲手组装集群的机会不多,也是第一次整天靠着机架干活,兴奋之情远大于风扇的呼啸声

一、赛后技术总结
(一)工作分配
- 任务分工:ai模块1人负责,HPL&HPCG模块1人负责,其余人员按赛题分配
- 核心策略:
- HPL&HPCG可快速完成(脚本已完善,仅需cv+修改dat数据),完成后立即支援其他赛题
- 初赛需精细化处理各赛题,决赛需取舍(聚焦团队赛与单项奖)
- ai和HPL&HPCG依赖GPU性能,性能不足时直接提交单机版本保团队赛题分数
- 提交规范:赛题文件需放入组委会提供磁盘,支持热插拔,挂载失败可重新插拔尝试
(二)必备技能
- 社交能力
- 对外:主动请教超级团队赛队友,可与其他队伍交流进度(存在信息保密情况属正常)
- 对内:保持和谐避免争吵,以大局为重;严禁中途退出(会受多方鄙视)
- 赛后:建议与行业大佬交流,积累人脉
- 文档能力:熟练制作文档,要求排版简洁、语句精炼,全员参与
- 英语能力:保障跨队伍交流、赛题理解及答辩沟通,避免因语言问题被吐槽
- 脚本能力:通过脚本实现应用安装、编译、运行的一键化操作,减少手动输入
- 编程语言:必须掌握Fortran(决赛大量涉及古老语法的代码)
- 文件阅读
- 赛题README需仔细阅读(注意要求变化)
- 代码解析:从main主程序入手,善用vscode搜索替换功能,可通过代码原理推测未定义变量
- 数据保存
- 强制保存日志文件(所有赛题运行均需记录)
- 运行脚本需符合组委会要求(便于时间节点查验)
(三)基础环境搭建
- 系统环境
- 推荐:Rocky Linux最小化安装,通过dnf安装nfs等工具
- 特殊工具:docker需导入官方repo安装docker-ce(避免dnf直接安装替代品)
- 集群管理:建议使用slurm和module(调度管理便捷,需提前准备安装脚本)
- 密码策略:统一密码(如password),减少记忆成本
- 系统复制:可用联想硬盘底座或dd指令实现全盘复制(本次忘带底座)
- 网络环境
- 必做:搭建局域网(便于节点访问与管理)
- 建议:提前熟悉openwrt(本次因docker不熟练+未带软路由受影响)
- 防火墙:完全关闭(避免莫名问题)
- IB相关:暂不熟悉,建议参考其它前辈的经验,后续可考虑采购二手设备学习
(四)环境配置
- 组件分类
- 非必要(推荐):slurm、module
- 必要:Intel oneAPI(2022/2024)、Nvidia Driver & CUDA、mpich、openmpi、docker
- 环境加载:除驱动外,其他环境通过脚本临时加载(避免写死系统环境变量,保持系统整洁)
- 文件共享
- 配置:主节点共享/share目录,软件建议安装在共享文件夹
- 关键:正确设置文件权限
- 注意:避免将文件放在opt目录(重启后子节点可能出现容器相关文件夹导致NFS崩溃)
(五)HPL & HPCG
- GPU版本
- 建议:使用NVIDIA HPC-Benchmarks(理论性能远超CPU)
- 部署方式:单机用docker,多机用singularity(多机调度依赖slurm,自行调度较复杂)
- 备选:若理解深刻可编译运行GPU版(环境配置较复杂)
- CPU版本
- 适用场景:无GPU或GPU性能不足时
- 便捷方案:直接使用intel版本(路径通常在intel的mkl的share中,2024与2022版本存在差异)
- 编译建议:用intel库手动编译hpl官方代码(速度快于非intel编译版本)
二、赛后感受分享
(一)队伍内
尽量别出现争吵,线下的每时每刻都很重要,争吵不会解决问题(可以解决人),良好的对内氛围才能够让队伍走得长久。
出现不懂的地方至少应该尽快与队员反馈,说不定谁知道些什么偏方。一味得好强并不能一帆风顺,只会让一人的苦恼变成多人的苦恼,尽管队员不会责骂你,但是出现的问题会很头疼,更难以解决。
实在压力大了,就去吃茶歇吧:)。不过尽量别把茶歇拿回来,食物和电脑放一起总引起不好的回忆。
(二)队伍外
队伍外请一定一定一定要保持礼貌,这不仅是自己的脸面,同时也是学校的脸面,不要对外口出狂言,以及不要随便定义他人性别(错将一位女士当兄弟,我觉得我能记一辈子,一次的外向换来一辈子的内向),能用您尽量用您,这个词就是为此存在的QWQ。
- Title: ASC24 Finals Memories
- Author: Richard Yang
- Created at : 2024-04-20 10:17:09
- Updated at : 2026-01-03 16:59:27
- Link: http://www.yremmmm.com/2024/04/20/ASC24-Finals-Memories/
- License: This work is licensed under CC BY-NC-SA 4.0.