SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Scaling Laws for Neural Language Models” (2020)
Itsuki Okimura, PSI B3
アジェンダ
1. 書誌情報
2. Scaling Law
3. 概要
4. 設定
5. 結果
6. その他の結果
7. まとめ
8. その後
2
1 書誌情報
• 論文名: Scaling Laws for Neural Language Models
• 出典:arXiv https://arxiv.org/abs/2001.08361
• 著者: Jared Kaplan, Sam McCandlish, Tom Henighanら
OpenAIのチーム
• 選択理由:AGIの実現をミッションとするOpenAIがScaling Lawに初めて
言及したGPT-3, DALL・Eなどの大規模モデルを作る動機のような論文
Transformerアーキテクチャの他分野への一般化
3
2 Scaling Law
Scaling Law :べき乗則
𝑓 𝑥 = 𝑎𝑥𝑘
Ex.万有引力, クーロン力, ジップの法則, …
両辺で対数をとると
log 𝑓(𝑥) = klog 𝑥 + log(𝑎)
となり, 直線関係の式となる。
性質:スケール不変性
独立変数𝑥のスケールを変化させても, 関数のスケーリングの比例に帰結する
𝑓 𝑐𝑥 = 𝑎 𝑐𝑥 𝑘
= 𝑐𝑘
𝑓(𝑥) ∝ 𝑓(𝑥)
どのスケールでも同じような秩序が存在する
4
2 Scaling Law
ここ数年OpenAIはScaling Lawに関する論文と大規模モデルを
交互に発表している
5
GPT-2
(2019 Feb)
Scaling Laws
for Neural LM
(2020 Jan)
GPT-3
(2020 May)
Scaling Laws
for Autoregressive
GM (2020 Oct)
DALL·E
CLIP
(2021 Jan)
Scaling Laws
for Transfer
(2021 Feb)
???
https://deeplearning.hatenablog.com/entry/scaling_law参考に作成
2 Scaling Law
本発表ではGPT-2とGPT-3の間に発表された論文について紹介
6
GPT-2
(2019 Feb)
Scaling Laws
for Neural LM
(2020 Jan)
GPT-3
(2020 May)
Scaling Laws
for Autoregressive
GM (2020 Oct)
DALL・E
CLIP
(2021 Jan)
Scaling Laws
for Transfer
(2021 Feb)
???
3 概要
問題意識
自己回帰型言語モデル:それまでの単語から次の単語を予測する確率モデル
𝑃 𝑤𝑛+1 𝑤1, ⋯ , 𝑤𝑛
Ex. GPT, GPT-2
数ある語彙の中からある単語を選ぶタスクであるので,
クロスエントロピーが性能の指標となる。
→この性能はモデルアーキテクチャ, モデルのサイズ,
モデルを訓練するために使用される計算能力, および
この訓練プロセスで利用可能なデータに依存するのでは?
7
3 概要
• Transformer言語モデルにおける損失をモデルアーキテクチャ, モデルのサイズ,
モデルを訓練するための計算能力,およびこの訓練プロセスで利用可能なデータへの依存性を
様々な条件で変えて検証。
• 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。
• 具体的には, 他の2つにボトルネックがない場合,学習のための計算能力C,
データセットのサイズD,モデルのパラメータ数N(embedding除く)と性能の間で
べき乗則が観測された。
8
3 概要
他にも
• オーバーフィッティングの普遍性:パラメータ数NとデータサイズDの内片方が固定されていると
片方を増加させても, パフォーマンスにペナルティを受ける。
このペナルティはN0.74/Dに依存する。
(パラメータ数を8倍にすると, データ数を5倍にする必要がある)
• 訓練の普遍性:訓練曲線は予測可能な力則に従うもので, そのパラメータはモデルサイズにほぼ依存しな
い。訓練曲線の初期部分を外挿することで, より長く訓練した場合に達成される損失をおおよそ予測するこ
とが可能。
• サンプル効率:大規模モデルは小規模モデルよりもサンプル効率が高く, より少ない最適化ステップとより
少ないデータ・ポイントで同じレベルの性能に到達する。
• 大規模モデルの効率性:計算リソースが固定されている場合, 非常に大規模なモデルを学習することで最
適な性能が達成できる。
• 最適バッチサイズ:これらのモデルを学習するための理想的なバッチサイズは損失の累乗で表され, 勾配
ノイズスケールを測定することで決定可能。
9
4 設定
L: テストデータにおける言語モデルのクロスエントロピー損失
N: 語彙とPositional Embeddingを除くパラメーター数
C ≈ 6NBS: embedding以外の計算能力の推定値(B: バッチサイズ, S: ステップ数)
単位PF-days(= 1015 × 24 × 3600 = 8.64 × 1019fpo)
D:トークン単位のデータセットサイズ
10
主要なパラメーター
4 設定
パラメーターの概算方法
Transformerにおいて𝑑𝑎𝑡𝑡𝑛 =
𝑑𝑓𝑓
4
= 𝑑𝑚𝑜𝑑𝑒𝑙より
N ≈ 12𝑛𝑙𝑎𝑦𝑒𝑟𝑑𝑚𝑜𝑑𝑒𝑙
2
またバックワードパスの計算量は一般にフォーワードパスの2倍となるため
C ≈ 6N
11
4 設定
学習手順
デコーダーのみのTransformerモデルで
1024トークンのコンテキストで平均化されたクロスエントロピー損失を
Adamオプティマイザを用いて最適化、
1024トークンの512シーケンスのバッチサイズで、2.5 × 105ステップでモデルを学習
実験設定
言語モデルのスケーリングを特徴づけるために
モデルサイズN(768 ~ 1.5 × 1019
),
データセットサイズD(22 × 106
~23 × 109
),
形状(深さ、幅、アテンションヘッド、フィードフォワード次元など)
を変化させ, 様々なモデルを訓練。
12
4 設定
データセット
Webtext2(Webから収集された96GBのテキストと1.62 × 1010語を含む
20.3Mのドキュメント)をトークナイズし、一部をテストデータとして確保。
Books Corpus, Common Crawl, 英語版Wikipedia, および一般に公開されている イン
ターネット書籍についてもテストを行う。
13
5 結果
性能はモデルサイズNに大きく依存する
14
Embeddingを含んだパラメーター数を軸にとると性能はレイヤー数に依存するように見えるが, Embeddingを除
いたパラメーター数を軸にとると2層以上のモデルは一つの直線に帰着する
5 結果
訓練セットと異なる分布のデータセットにおける性能
15
訓練データ以外のデータセットにおいてもパラメータ数の推移とともに滑らかな改善
5 結果
同様に計算リソースC, データセットサイズDにも性能は依存
16
5 結果
モデルの形状はそれほど性能に影響を与えない
17
Nを固定しフィードフォワード比(𝑑𝑓𝑓/𝑑𝑚𝑜𝑑𝑒𝑙), パラメータ アスペクト比(𝑑𝑚𝑜𝑑𝑒𝑙/𝑛𝑙𝑎𝑦𝑒𝑟)アテンションヘッド次元
(𝑑𝑚𝑜𝑑𝑒𝑙/𝑛ℎ𝑒𝑎𝑑 )を変えLossを比較したが, 性能はあまり変化しない
6 その他の結果
LSTMとの比較
18
LSTMはコンテキストの初期に位置するトークンに対してはTransformerと同様の性能を示すが,
それ以降のトークンに対してはTransformerの性能に及ばない
6 その他の結果
大規模モデルのサンプル効率
19
大規模モデルは目的とする性能に対して, より少ないサンプル数によって到達する
6 その他の結果
矛盾点
20
• そもそも, 自然言語のクロスエントロピーは0にはならない。
• データサイズDと計算リソースC間にはオーバーフィッティングを避けるための制約条件が存在し,
L(Cmin)で予測される性能は最終的にL(D)の力則で設定された下限値に達する。
7 まとめ
• 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。
– 他の2つにボトルネックがない場合,学習のための計算量C, データセットのサイズD,
モデルのパラメータ数Nと性能Lの間でべき乗則が観測された。
• 言語モデルにおけるLossの下限値は存在するため, その点に到達する前までに
べき乗則は崩壊するはず。
– ただ, その計算量とモデルサイズまでは現時点では何桁も離れている。
21
8 その後
GPT-3のLoss
22
Scaling Lawをモチベーションとして
OpenAIはGPT-2の100倍以上の
パラメーターを持つGPT-3を発表。
GPT-3の論文内でも
Lossと計算リソースのべき乗則は
102のオーダーで続いていることが
示された。
一方で, もっとも大きいモデルを
示す黄色の曲線は少し外れる。
なんとも言えないらしい。。
8 その後
Scaling Laws for Autoregressive Generative Modeling
23
GPT-3の論文内で示唆された
マルチモーダルへの展開
言語モデルで見られた
計算リソース, モデルサイズに関するScaling
Lawを生成的画像・動画モデリング・マルチ
モーダル・数式といった
ドメインの自己回帰型生成モデルにまで拡
大
Text2Image→DALL·E
8 その後
Scaling Laws for Transfer
24
Zero-shot, Few-shotではなく
Fine-tuneに関する論文
Fine-tuneにおいて事前学習することで
同じ損失を達成するまでに
減らすことができるデータ量𝐷𝑇について, ファイン
チューニングで使用したデータ量𝐷𝐹,事前学習モ
デルのパラメータ数𝑁の間で
以下のべき乗則が観測された。
𝐷𝑇 ∝ 𝐷𝐹
𝛼
𝑁𝛽
下流のタスクにおいても
モデルサイズの重要性を示す
8 その後
???
25
• Bidirectional化???
– GPT-3論文内で示唆
• 強化学習でのFine-tuning???
– GPT-3論文内で示唆
– Fine-Tuning Language Models from Human Preferences(2019)
• 多言語化???
– T5→mT5的な
参考文献
Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling
laws for neural language models. arXiv preprint arXiv:2001.08361.
Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., ... & McCandlish, S. (2020). Scaling laws
for autoregressive generative modeling. arXiv preprint arXiv:2010.14701.
Hernandez, D., Kaplan, J., Henighan, T., & McCandlish, S. (2021). Scaling Laws for Transfer. arXiv preprint
arXiv:2102.01293.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language
models are few-shot learners. arXiv preprint arXiv:2005.14165.
Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., ... & Irving, G. (2019). Fine-tuning
language models from human preferences. arXiv preprint arXiv:1909.08593.
Ryobot(2021) ” OpenAIが発見したScaling Lawの秘密”
https://deeplearning.hatenablog.com/entry/scaling_law
26
DEEP LEARNING JP
[DL Papers]
“Scaling Laws for Neural Language Models” (2020)
Itsuki Okimura, PSI B3
http://deeplearning.jp/

More Related Content

PDF
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PPTX
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
大規模データに基づく自然言語処理
PPTX
マルチモーダル深層学習の研究動向
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
最近のDeep Learning (NLP) 界隈におけるAttention事情
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
大規模データに基づく自然言語処理
マルチモーダル深層学習の研究動向

What's hot (20)

PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PPTX
猫でも分かるVariational AutoEncoder
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
Curriculum Learning (関東CV勉強会)
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PDF
グラフニューラルネットワークとグラフ組合せ問題
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
不均衡データのクラス分類
PDF
自己教師学習(Self-Supervised Learning)
PDF
PRML学習者から入る深層生成モデル入門
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
強化学習における好奇心
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
GAN(と強化学習との関係)
PPTX
[DL輪読会]When Does Label Smoothing Help?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
猫でも分かるVariational AutoEncoder
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
[DL輪読会]Flow-based Deep Generative Models
Curriculum Learning (関東CV勉強会)
機械学習モデルの判断根拠の説明(Ver.2)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
グラフニューラルネットワークとグラフ組合せ問題
Transformerを多層にする際の勾配消失問題と解決法について
不均衡データのクラス分類
自己教師学習(Self-Supervised Learning)
PRML学習者から入る深層生成モデル入門
【メタサーベイ】数式ドリブン教師あり学習
強化学習における好奇心
畳み込みニューラルネットワークの高精度化と高速化
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
GAN(と強化学習との関係)
[DL輪読会]When Does Label Smoothing Help?
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Ad

Recently uploaded (20)

PDF
August Patch Tuesday
PPTX
OMC Textile Division Presentation 2021.pptx
PPTX
Group 1 Presentation -Planning and Decision Making .pptx
PDF
Getting Started with Data Integration: FME Form 101
PPTX
KOM of Painting work and Equipment Insulation REV00 update 25-dec.pptx
PDF
TokAI - TikTok AI Agent : The First AI Application That Analyzes 10,000+ Vira...
PPTX
Machine Learning_overview_presentation.pptx
PDF
Reach Out and Touch Someone: Haptics and Empathic Computing
PDF
Diabetes mellitus diagnosis method based random forest with bat algorithm
PPTX
TechTalks-8-2019-Service-Management-ITIL-Refresh-ITIL-4-Framework-Supports-Ou...
PDF
Agricultural_Statistics_at_a_Glance_2022_0.pdf
PDF
Mobile App Security Testing_ A Comprehensive Guide.pdf
PDF
A comparative study of natural language inference in Swahili using monolingua...
PDF
NewMind AI Weekly Chronicles - August'25-Week II
PPTX
1. Introduction to Computer Programming.pptx
PPTX
Spectroscopy.pptx food analysis technology
PDF
Univ-Connecticut-ChatGPT-Presentaion.pdf
PDF
Heart disease approach using modified random forest and particle swarm optimi...
PDF
Assigned Numbers - 2025 - Bluetooth® Document
PDF
Mushroom cultivation and it's methods.pdf
August Patch Tuesday
OMC Textile Division Presentation 2021.pptx
Group 1 Presentation -Planning and Decision Making .pptx
Getting Started with Data Integration: FME Form 101
KOM of Painting work and Equipment Insulation REV00 update 25-dec.pptx
TokAI - TikTok AI Agent : The First AI Application That Analyzes 10,000+ Vira...
Machine Learning_overview_presentation.pptx
Reach Out and Touch Someone: Haptics and Empathic Computing
Diabetes mellitus diagnosis method based random forest with bat algorithm
TechTalks-8-2019-Service-Management-ITIL-Refresh-ITIL-4-Framework-Supports-Ou...
Agricultural_Statistics_at_a_Glance_2022_0.pdf
Mobile App Security Testing_ A Comprehensive Guide.pdf
A comparative study of natural language inference in Swahili using monolingua...
NewMind AI Weekly Chronicles - August'25-Week II
1. Introduction to Computer Programming.pptx
Spectroscopy.pptx food analysis technology
Univ-Connecticut-ChatGPT-Presentaion.pdf
Heart disease approach using modified random forest and particle swarm optimi...
Assigned Numbers - 2025 - Bluetooth® Document
Mushroom cultivation and it's methods.pdf

【DL輪読会】Scaling Laws for Neural Language Models