用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

本文作者:张宁

浙江华双信息科技有限公司 技术总监

负责带领技术团队进行重点产品、项目研发,负责系统架构设计,规划平台未来技术架构方向。目前主要研究领域为图像识别、目标检测、语义分割,曾负责“三防三白”中工作服、帽子及口罩佩戴检测预警、洪水预报预警等业务。

操作场景

使用 TeslaA100 GPU 云服务器进行 YOLOv5 模型训练用于目标检测任务,查看训练效果。

YOLOv5 模型简介

YOLOv5 模型是 Ultralytics 公司于 2020 年 6 月 9 日公开发布的。YOLOv5 模型是基于 YOLOv3 模型基础上改进而来的,由 Backbone、Neck 和 Head 组成。

示意图如下:

示例环境

  • 实例类型:单卡TeslaA100 GPU 云服务器

  • 系统盘:50 GB高性能云硬盘

  • 操作系统:Ubuntu20.04

  • 带宽:20 M(按流量计费)

  • 本地操作系统:MacOS

PytochGPU 环境搭建

参考青云官方文档《UbuntuGPU 云服务器搭建深度学习环境》中的“GPU 云服务器显卡相关配置”和“Pytorch 安装”两大模块。

训练数据

训练数据集选用 coco128,一共 128 张图片,一张图对应一个标注好的 Label。

数据集概览如下:

训练数据上传服务器

通过 Linux 连接工具,选择 sftp,输入对应的服务器公网 IP、账号、密码即可连接云服务器。

训练结果

利用 GPU 进行训练,每个 Epoch 在 1 秒内完成,300 轮 Epoch 总耗时 7 分钟,Percision 和 Recall 达到 90% 多,IOU0.5 情况下,mAP 接近 1。

每个Epoch在1秒内完成,300轮Epoch总耗时7分钟

Percision 和 Recall 达到 90% 多,IOU0.5 情况下,mAP 接近 1

查看训练结果:

补充测试

coco128 训练数据集较小,使用另一份较大的训练数据集做测试,图片约 8000 张,大小 790 M,每轮 epoch 在 40s 内完成,表现很好。

每轮 epoch 在 40s 内完成

张 宁

浙江华双信息科技有限公司

技术总监

“青云 GPU 云服务器使用下来很惊喜,TeslaA100 显卡很给力,非常适合深度学习相关模型的训练。

而且,按需计费模式下,GPU 云服务器关机后,云服务器的 CPU、内存、GPU 卡这些计算资源不会收费,只有系统盘仍会产生费用,把系统盘的容量缩小就可以节省成本了。

如果训练样本过大,想以比较低的成本传输训练样本数据,可以创建一个硬盘,在 GPU 云服务器关机的时候,将硬盘卸载,然后创建一个低配置的云服务器,将硬盘再挂载这个低配服务器上进行样本数据传输,等训练时将硬盘再挂载至 GPU 云服务器进行训练。”

青云最新 GPU 云服务器申请试用

搭载 Ampere 架构 NVIDIAA100 Tensor Core GPU 显卡,单卡显存 40 GB,单台云服务器最多可挂载 8 块 GPU,适用于深度学习、科学计算应用加速。

即刻申请,新用户可获得 200元 优惠券!

贡献实践文档还可获得 500-1000元 大额优惠券奖励!

本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系admin#jikehao.com删除。
(0)
极客号的头像极客号
上一篇 2022年 9月 30日
下一篇 2022年 9月 30日

相关推荐

合作联系:1152QQ041010