はじめに batch sizeは学習の安定性やモデル性能に大きな影響を与えるパラメータである。 大きなbatch sizeは学習を安定化するが、GPUのメモリを使い果たしてしまう。 GPT31などの近年の大規模モデルは複数のGPUに分散して非常に大きな batch sizeをとってお…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。