这是 浙江大学超算队(ZJUSCT) 的文档与博客,主要面向 团队成员及 HPC 爱好者,包含了我们在 高性能计算(HPC) 领域的技术积累和经验。
!!! warning "Falcon"
ZJU Mirror 和镜像站文档。
!!! abstract "Blog"
ZJUSCT 博客。
!!! question "竞赛"
竞赛相关文档。
!!! bug "运维"
硬件、软件、网络、可观测性等运维文档。
!!! tip "优化"
建设中
!!! quote "内部资料(语雀)"
不宜公开的内部资料,仅团队成员校内访问。
为团队留存技术资产 在构建系统或工具时,我们会经历资料检索、实践验证和经验总结的过程,最终成果往往浓缩为配置文件或代码片段。如果没有进行必要的记录,将来维护或新人接手时往往需要重新经历上述过程,这是一个非常耗时的过程。
建议在开发过程中同步记录:
- 构建流程与设计思路
- 参考的知识来源
- 遇到的问题及解决方案
运维工作尤其需要文档化 相比口头传授,文档能:
- 准确记录操作步骤
- 稳定传承运维经验
- 保障团队运维能力持续发展
HPC 作为系统工程,需要团队协作与技术积累。文档帮助我们:
- 永久保存各类问题的解决方案
- 避免因人员变动导致知识流失
- 促进成员间相互学习与技术提升
技术积累可能成为新成员的入门壁垒。优质文档能:
- 缩短新人适应周期
- 提供明确的学习路径
- 降低团队培养成本
!!! note "文档与内训"
相比传统内训,文档具备显著优势:
- 作者一次编写,多人受益
- 支持异步自主学习
- 时间安排灵活高效
与社区共建知识生态 我们曾从开源社区中受益良多,希望通过文档建设回馈社区:
- 与国内外 HPC 爱好者交流最佳实践
- 反哺开源社区的技术发展
- 高校团队间的方案互鉴
国内外众多高校、研究机构和企业都有质量不错的 HPC 教程和文档。这里列出一些比较有代表性的文档,供大家参考。
学校/机构 | 文档 | 简介 |
---|---|---|
北京大学 | hpcwiki.io | LCPU 发起的社区项目,目前处于早期阶段,更新乏力。 |
清华大学 | 高性能计算导论实验文档 | 国内最好的 HPC 课程之一。 |
中国科学技术大学 | LUG @ USTC | USTC LUG 的技术文档。 |
上海交通大学 | 交我算平台 | 上海交通大学拥有国内高校最大的超算平台。 |
上海科技大学 | GeekPie HPC Wiki | GeekPie 几乎毫无保留地分享了他们的 HPC 知识,包含 19-22 超算赛题。 |
学校/机构 | 文档 | 简介 |
---|---|---|
卢森堡大学 | ULHPC Technical Documentation | 大规模数据中心文档的典范,详细介绍了软硬件配置。 |
普林斯顿大学 | Princeton Research Computing | 普林斯顿大学的 HPC 知识库,专题总结质量较高。 |
美国橡树岭国家实验室 | OLCF User Documentation | 美国能源部下属实验室的文档,详细介绍重要 HPC 软件如 Profiler。 |
美国东北大学 | Northeastern University Research Computing | 涵盖研究计算的多方面内容。 |
德国科学基金会 | hpc-wiki.info | 内容完善但较为陈旧。 |