2020-07-27から1日間の記事一覧

Gradient Accumulation と Normalization

はじめに batch sizeは学習の安定性やモデル性能に大きな影響を与えるパラメータである。 大きなbatch sizeは学習を安定化するが、GPUのメモリを使い果たしてしまう。 GPT31などの近年の大規模モデルは複数のGPUに分散して非常に大きな batch sizeをとってお…