Skip to content

910A分布式训练(8卡)报错,显示Inner Error #445

@weisuyuan

Description

@weisuyuan

1. Describe the current behavior / 问题描述

ModelArts 训练 MindYOLO 中的 YOLOv5s模型时,单卡训练是正常的,多卡(8卡)训练就会报底层CANN的错误,无法进行正常分布式训练。我尝试了Mindspore 2.5.0 和2.6.0,训练的时候都出现了相同的报错。(个人猜测可能是因为没有 C compiler,但我没有权限安装 gcc 编译器,是否有别的办法解决问题?)


2. Environment / 环境信息

  • Hardware Environment / 硬件环境:Ascend910A,ModelArts 服务器
后端类型 硬件具体类别
Ascend 910PremiumA
  • Software Environment / 软件环境
软件组件 版本信息
MindSpore 2.6.0
CANN 8.0 RC3
Python 3.9.20
OS平台 Ubuntu 20.04.3 LTS

3. 报错关键日志截图:

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions