-
Couldn't load subscription status.
- Fork 49
Open
Description
1. Describe the current behavior / 问题描述
ModelArts 训练 MindYOLO 中的 YOLOv5s模型时,单卡训练是正常的,多卡(8卡)训练就会报底层CANN的错误,无法进行正常分布式训练。我尝试了Mindspore 2.5.0 和2.6.0,训练的时候都出现了相同的报错。(个人猜测可能是因为没有 C compiler,但我没有权限安装 gcc 编译器,是否有别的办法解决问题?)
2. Environment / 环境信息
- Hardware Environment / 硬件环境:Ascend910A,ModelArts 服务器
| 后端类型 | 硬件具体类别 |
|---|---|
| Ascend | 910PremiumA |
- Software Environment / 软件环境:
| 软件组件 | 版本信息 |
|---|---|
| MindSpore | 2.6.0 |
| CANN | 8.0 RC3 |
| Python | 3.9.20 |
| OS平台 | Ubuntu 20.04.3 LTS |
3. 报错关键日志截图:
Metadata
Metadata
Assignees
Labels
No labels
