SlideShare a Scribd company logo
Byte Pair Encoding
2019-05-29 チュートリアル M1 本間
なぜBPEが必要か
BPEって何?
の前に
なぜBPEが必要か
未知語言語モデルには の問題がある
なぜBPEが必要か
未知語
すべての単語 = ∞
首都大学東京
私
あなた
小町研究室
こんばんはこんにちは
\(^o^)/
今日
獰悪
頸筋
抛る
なぜBPEが必要か
未知語
すべての単語 = ∞
首都大学東京
私
あなた
小町研究室
こんばんはこんにちは
\(^o^)/
今日 獰悪
頸筋
抛る
学習データに含まれる単語
学習データに
含まれない
単語
(辞書)
なぜBPEが必要か
未知語
すべての単語 = ∞
首都大学東京
私
あなた
小町研究室
こんばんは
こんにちは
今日
獰悪
頸筋 抛る
学習データに含まれる単語
ニューラル
のモデルで
扱う
ニューラル
のモデルで
扱わない
\(^o^)/
学習データに
含まれない
単語
高頻度語 低頻度語 (rare words)
なぜBPEが必要か
未知語
すべての単語 = ∞
首都大学東京
私
あなた
小町研究室
こんばんは
こんにちは
今日
獰悪
頸筋 抛る
学習データに含まれる単語
ニューラル
のモデルで
扱う
ニューラル
のモデルで
扱わない
\(^o^)/
学習データに
含まれない
単語
=語彙サイズ (vocabulary size)
• ハイパーパラメータ
• モデル作成時に決定
なぜBPEが必要か
未知語
すべての単語 = ∞
首都大学東京
私
あなた
小町研究室
こんばんは
こんにちは
今日
獰悪
頸筋 抛る
学習データに含まれる単語
ニューラル
のモデルで
扱う
ニューラル
のモデルで
扱わない
\(^o^)/
学習データに
含まれない
単語=語彙数 (vocabulary size)
• ハイパーパラメータ
• モデル作成時に決定
Chainer の言語モデルの場合…
なぜBPEが必要か
未知語
すべての単語 = ∞
首都大学東京
私
あなた
小町研究室
こんばんは
こんにちは
今日
獰悪
頸筋 抛る
学習データに含まれる単語
ニューラル
のモデルで
扱う
ニューラル
のモデルで
扱わない
\(^o^)/
学習データに
含まれない
単語
OOV
(out-of-vocabulary)
=
未定義語
≒
未知語
なぜBPEが必要か
未知語に対応しなければいけない
なぜBPEが必要か
未知語に対応しなければいけない
未知語処理
なぜBPEが必要か
未知語処理
1.未知語を特殊トークンに置き換える
2.サブワード化 を行い未知語を無くす
(あるいは減らす)
なぜBPEが必要か
未知語処理
1.未知語を特殊トークンに置き換える
2.サブワード化 を行い未知語を無くす
(あるいは減らす)
I entered TMU .
↓
I entered <unk> .
私は <unk> に入った。
↓ (Pointer Networks とか)
私はTMUに入った。
なぜBPEが必要か
未知語処理
1.未知語を特殊トークンに置き換える
2.サブワード化 を行い未知語を無くす
(あるいは減らす)
サブワード化
なぜBPEが必要か
未知語処理:サブワード化
単語をより細かい単位
サブワード単位
にまで分割すること
語彙数が減少し
計算量の問題が解決し
学習データすべて扱える
なぜBPEが必要か
未知語処理:サブワード化
サブワード化の手法にはいくつか種類がある
その内のひとつが BPE
と、ここまでが BPE が必要な
理由でした。
次からは実際の BPE のお話です
歴史(1分で)
歴史(1分で)
• Byte Pair Encoding(バイト対符号化)は、
元は可逆圧縮のデータ圧縮法のひとつ
“A New Algorithm for Data Compression” (1994)
• これをニューラル機械翻訳に応用
“Neural Machine Translation of Rare Words with
Subword Units” (Sennrich, 2015)
• 2019年現在も多くのモデルで使われている
GPT-2 (OpenAI), MT-DNNKD (Microsoft), GMNMT (Google)
BPE は広く一般的に使われてる
つまり
知らなきゃまずい
BPEの気持ち
適当に分割するのではなくて、頻度とかを
見て賢く分割したいよね。
文字単位だと分割しすぎだし。
“unkingly” という語を ”un” と”king” と”ly”
に分割できたら、元の意味を復元できそう。
(王様らしくない) (ない) (王様) (らしい)
BPEの実装
BPEの実装
BPEの実装
この η を調整することで
語彙サイズを変更できる!
Sennrich の論文のコード。
短い..
https://github.com/google/sentencepiece
BPEの実装
Q. BPEを使いたいときは?
A. pip install sentencepiece
https://github.com/google/sentencepiece/
blob/master/doc/experiments.md
BPEの実装
Q. パラメータはどう設定すればよい?
A. ここ見て 🔗
まとめ
BPEは未知語処理の手法の一つ
BPEのハイパーパラメータ ∽ 語彙数
pip install sentencepiece
おしまい

More Related Content

PDF
CV分野におけるサーベイ方法
PDF
Layer Normalization@NIPS+読み会・関西
PDF
多様な強化学習の概念と課題認識
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
Optimizer入門&最新動向
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
Curriculum Learning (関東CV勉強会)
CV分野におけるサーベイ方法
Layer Normalization@NIPS+読み会・関西
多様な強化学習の概念と課題認識
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
Optimizer入門&最新動向
【DL輪読会】Scaling Laws for Neural Language Models
Curriculum Learning (関東CV勉強会)

What's hot (20)

PDF
Word2vecの並列実行時の学習速度の改善
PDF
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PDF
Deeplearning輪読会
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
PDF
三次元表現まとめ(深層学習を中心に)
PDF
学位論文の書き方メモ (Tips for writing thesis)
PDF
Transformerを用いたAutoEncoderの設計と実験
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
猫でも分かるVariational AutoEncoder
PDF
不均衡データのクラス分類
PDF
深層生成モデルと世界モデル
PPTX
劣モジュラ最適化と機械学習1章
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PPTX
【論文読み会】Autoregressive Diffusion Models.pptx
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Word2vecの並列実行時の学習速度の改善
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
[DL輪読会]Pay Attention to MLPs (gMLP)
機械学習モデルの判断根拠の説明(Ver.2)
Deeplearning輪読会
[DL輪読会]Graph R-CNN for Scene Graph Generation
三次元表現まとめ(深層学習を中心に)
学位論文の書き方メモ (Tips for writing thesis)
Transformerを用いたAutoEncoderの設計と実験
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
[DL輪読会]相互情報量最大化による表現学習
猫でも分かるVariational AutoEncoder
不均衡データのクラス分類
深層生成モデルと世界モデル
劣モジュラ最適化と機械学習1章
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
【論文読み会】Autoregressive Diffusion Models.pptx
[DL輪読会]ICLR2020の分布外検知速報
Transformerを多層にする際の勾配消失問題と解決法について
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Ad

More from 広樹 本間 (15)

PDF
論文紹介: Improving grammatical error correction models with purpose built advers...
PDF
Infusing sequential information into conditional masked translation model wit...
PDF
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
PPTX
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
PDF
2020 03 05_mar_revenshtein_transformer_tmu_homma
PDF
EMNLP 2019 parallel iterative edit models for local sequence transduction
PDF
2019 Levenshtein Transformer
PDF
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
PDF
論文紹介 Star-Transformer (NAACL 2019)
PDF
Unsupervised multilingual word embeddings
PDF
Improving neural machine translation by incorporating hierarchical subword fe...
PDF
A deep relevance model for zero shot document filtering
PDF
Reusing weights in subword aware neural language models
PDF
最終発表
PDF
企画書 VirtualDarts v2
論文紹介: Improving grammatical error correction models with purpose built advers...
Infusing sequential information into conditional masked translation model wit...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
2020 03 05_mar_revenshtein_transformer_tmu_homma
EMNLP 2019 parallel iterative edit models for local sequence transduction
2019 Levenshtein Transformer
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
論文紹介 Star-Transformer (NAACL 2019)
Unsupervised multilingual word embeddings
Improving neural machine translation by incorporating hierarchical subword fe...
A deep relevance model for zero shot document filtering
Reusing weights in subword aware neural language models
最終発表
企画書 VirtualDarts v2
Ad

2019年度チュートリアルBPE