swda1234 发表于 2021-11-6 11:25:18

大家有遇到Batch_size愈開愈小的狀況嗎

本帖最后由 swda1234 于 2021-11-6 11:56 编辑

我的顯卡是 3070 8G


原始綠坝丹的次數520萬
但只要我用我自己的DST SRC訓練過

Batch_size一開始可以開5~6

訓練過後,540萬後,關掉再重開訓練

Batch_size就必須下降才能跑!!!????
只能跑3~4

如果開眼睛修正等等,就只能下降到2

有大大遇過相同的狀況嗎


======================== Model Summary ========================
==                                                         ==
==            Model name: 256dffd_SAEHD                      ==
==                                                         ==
==   Current iteration: 5216128                            ==
==                                                         ==
==---------------------- Model Options ----------------------==
==                                                         ==
==            resolution: 256                              ==
==             face_type: f                                  ==
==   models_opt_on_gpu: True                               ==
==               archi: df-d                               ==
==               ae_dims: 256                              ==
==                e_dims: 64                                 ==
==                d_dims: 64                                 ==
==         d_mask_dims: 22                                 ==
==       masked_training: True                               ==
==         uniform_yaw: False                              ==
==            lr_dropout: y                                  ==
==         random_warp: False                              ==
==             gan_power: 0.0                              ==
==       true_face_power: 0.0                              ==
==      face_style_power: 0.0                              ==
==      bg_style_power: 0.0                              ==
==               ct_mode: none                               ==
==            clipgrad: False                              ==
==            pretrain: False                              ==
==       autobackup_hour: 3                                  ==
== write_preview_history: False                              ==
==         target_iter: 0                                  ==
==         random_flip: True                               ==
==            batch_size: 3                                  ==
==       eyes_mouth_prio: False                              ==
==         blur_out_mask: False                              ==
==             adabelief: True                               ==
==       random_src_flip: False                              ==
==       random_dst_flip: False                              ==
==      gan_patch_size: 32                                 ==
==            gan_dims: 16                                 ==
==                                                         ==
==----------------------- Running On ------------------------==
==                                                         ==
==          Device index: 0                                  ==
==                  Name: NVIDIA GeForce RTX 3070 Laptop GPU ==
==                  VRAM: 6.45GB                           ==
==                                                         ==
===============================================================

swda1234 发表于 2021-11-6 11:35:38

本帖最后由 swda1234 于 2021-11-6 11:40 编辑

同樣條件下重開,就會顯示   顯存不足

Starting. Press "Enter" to stop training and save model.
Error: 2 root error(s) found.
(0) Resource exhausted: OOM when allocating tensor with shape and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
         []
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

swda1234 发表于 2021-11-6 11:54:03

我的SRC截圖大小是2048X2048 大概1300張

DST是1280大概3500張

lalakia2012 发表于 2021-11-6 12:55:17

有邏輯就知道啦!
:lol

whl716694 发表于 2021-11-6 15:16:48

同问帮顶

swda1234 发表于 2021-11-7 23:06:46

lalakia2012 发表于 2021-11-6 12:55
有邏輯就知道啦!

所以丹也不是練越多越好對嗎   因為開啟條件會被VRAM障礙(太多的丹吃掉太多)

Gottvonkarlberg 发表于 2021-11-8 05:31:36

我也遇到过这种情况,我的解决办法有两个,一个是重启电脑(真的有用),另一个是重建一个模型参数和当前模型一样的模型,然后将它的XXX_data.dat文件改成和现有模型的这个文件的文件名相同,接着覆盖掉现有的模型的这个文件

20210901 发表于 2021-11-9 01:10:35

adabelief: True

这个后期可以关了。能省不少显存

swda1234 发表于 2021-11-9 01:57:28

Gottvonkarlberg 发表于 2021-11-8 05:31
我也遇到过这种情况,我的解决办法有两个,一个是重启电脑(真的有用),另一个是重建一个模型参数和当前模 ...

這個的意思是

假如我有一個a模型   另新建一個參數相同沒跑過的全新的b模型,
然後把b的b_data.dat改名為a_data.dat覆蓋過去a模型該檔案

這樣對嗎

Gottvonkarlberg 发表于 2021-11-9 19:13:21

本帖最后由 Gottvonkarlberg 于 2021-11-9 19:14 编辑

swda1234 发表于 2021-11-9 01:57
這個的意思是

假如我有一個a模型   另新建一個參數相同沒跑過的全新的b模型,

对的,不过一定要模型参数完全一致,不然预览图会变得和一个全新的模型一样全是糊的。不过在这样做之前记得备份原文件,以防意外
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 大家有遇到Batch_size愈開愈小的狀況嗎