用户实践｜使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

本文作者：张宁

浙江华双信息科技有限公司技术总监

负责带领技术团队进行重点产品、项目研发，负责系统架构设计，规划平台未来技术架构方向。目前主要研究领域为图像识别、目标检测、语义分割，曾负责“三防三白”中工作服、帽子及口罩佩戴检测预警、洪水预报预警等业务。

操作场景

使用 TeslaA100 GPU 云服务器进行 YOLOv5 模型训练用于目标检测任务，查看训练效果。

YOLOv5 模型简介

YOLOv5 模型是 Ultralytics 公司于 2020 年 6 月 9 日公开发布的。YOLOv5 模型是基于 YOLOv3 模型基础上改进而来的，由 Backbone、Neck 和 Head 组成。

示意图如下：

示例环境

PytochGPU 环境搭建

参考青云官方文档《UbuntuGPU 云服务器搭建深度学习环境》中的“GPU 云服务器显卡相关配置”和“Pytorch 安装”两大模块。

训练数据集选用 coco128，一共 128 张图片，一张图对应一个标注好的 Label。

数据集概览如下：

训练数据上传服务器

通过 Linux 连接工具，选择 sftp，输入对应的服务器公网 IP、账号、密码即可连接云服务器。

训练结果

利用 GPU 进行训练，每个 Epoch 在 1 秒内完成，300 轮 Epoch 总耗时 7 分钟，Percision 和 Recall 达到 90% 多，IOU0.5 情况下，mAP 接近 1。

每个Epoch在1秒内完成，300轮Epoch总耗时7分钟

Percision 和 Recall 达到 90% 多，IOU0.5 情况下，mAP 接近 1

查看训练结果：

补充测试

coco128 训练数据集较小，使用另一份较大的训练数据集做测试，图片约 8000 张，大小 790 M，每轮 epoch 在 40s 内完成，表现很好。

每轮 epoch 在 40s 内完成

张宁

浙江华双信息科技有限公司

技术总监

“青云 GPU 云服务器使用下来很惊喜，TeslaA100 显卡很给力，非常适合深度学习相关模型的训练。

而且，按需计费模式下，GPU 云服务器关机后，云服务器的 CPU、内存、GPU 卡这些计算资源不会收费，只有系统盘仍会产生费用，把系统盘的容量缩小就可以节省成本了。

如果训练样本过大，想以比较低的成本传输训练样本数据，可以创建一个硬盘，在 GPU 云服务器关机的时候，将硬盘卸载，然后创建一个低配置的云服务器，将硬盘再挂载这个低配服务器上进行样本数据传输，等训练时将硬盘再挂载至 GPU 云服务器进行训练。”

青云最新 GPU 云服务器申请试用

搭载 Ampere 架构 NVIDIAA100 Tensor Core GPU 显卡，单卡显存 40 GB，单台云服务器最多可挂载 8 块 GPU，适用于深度学习、科学计算应用加速。

即刻申请，新用户可获得 200元优惠券！

贡献实践文档还可获得 500-1000元大额优惠券奖励！

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。