开发者

模型训练时GPU利用率太低的原因及解决

开发者 https://www.devze.com 2023-02-23 09:19 出处:网络 作者: . 小王同学.
目录模型训练时G编程客栈PU利用率太低的原因问题的解决办法模型训练GPU利用率低,占用低怎么破GPU 显存占用低问题GPU利用率低问题总结模型训练时GPU利用率太低的原因
目录
  • 模型训练时G编程客栈PU利用率太低的原因
    • 问题的解决办法
  • 模型训练GPU利用率低,占用低怎么破
    • GPU 显存占用低问题
    • GPU利用率低问题
  • 总结

    模型训练时GPU利用率太低的原因

    最近在训练SSD模型时发现GPU的利用率只有8%,而CPU的利用率却python非常高。

    后来了解到,一般lCdMUyotj使用CPU进行数据的读取和预处理,而使用GPU进行模型的正向传播和反向传播。由于CPU数据读取跟不上(读到内存+多线程+二进制文件),而GPU的处理速度太快,导致GPU的利用率不高。

    最后总结一下,有的时候模型训练慢并不是因为显卡不行或者模型太大,而是在跑模型过程中有一些开发者_Go培训其他的操作导致速度很慢,尤其是文件的IO操作,这会导致GPU得不到连续性使用,整体速度特别慢。

    问题的解决办法

    1,关闭一些日志记录,减少日志IO操作频率。

    2,NVIDA提供了DALI库,可以将数据处理转移到GPU上。

    模型训练GPU利用率编程客栈低,占用低怎么破

    GPU 的显存占用和算力利用直接影响模型的训练速度

    GPU 显存占用低问题

    1、提高BATch_size

    2、提高模型输入尺寸

    3、增加模型深度

    推荐:优先提高batch_size, 其他方法会对模型结构产生影响

    GPU利用率低问题

    1、提高线程数

    2、打开pin_memory

    # 在pytorch 加载数据时提高线程数,打开pin_memory
    torch.utils.data.DataLoader(image_datasets[x],
                android  batch_size=batch_size,
                  shuffle=True,
                  num_workers=8,
                  pin_memory=True)

    总结

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。

    0

    精彩评论

    暂无评论...
    验证码 换一张
    取 消

    关注公众号