Submit Search
2019年度チュートリアルBPE
0 likes
3,481 views
広
広樹 本間
2019年度 小町研 研究会 チュートリアル資料 本間
Technology
Read more
1 of 28
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
More Related Content
PDF
CV分野におけるサーベイ方法
Hirokatsu Kataoka
PDF
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
PDF
多様な強化学習の概念と課題認識
佑 甲野
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
PDF
Optimizer入門&最新動向
Motokawa Tetsuya
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
CV分野におけるサーベイ方法
Hirokatsu Kataoka
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
多様な強化学習の概念と課題認識
佑 甲野
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
Optimizer入門&最新動向
Motokawa Tetsuya
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
What's hot
(20)
PDF
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
PDF
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
PDF
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
PDF
Deeplearning輪読会
正志 坪坂
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
PDF
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
PDF
学位論文の書き方メモ (Tips for writing thesis)
Nobuyuki Umetani
PDF
Transformerを用いたAutoEncoderの設計と実験
myxymyxomatosis
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
PPTX
猫でも分かるVariational AutoEncoder
Sho Tatsuno
PDF
不均衡データのクラス分類
Shintaro Fukushima
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
PPTX
劣モジュラ最適化と機械学習1章
Hakky St
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
PPTX
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
Deeplearning輪読会
正志 坪坂
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
学位論文の書き方メモ (Tips for writing thesis)
Nobuyuki Umetani
Transformerを用いたAutoEncoderの設計と実験
myxymyxomatosis
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
猫でも分かるVariational AutoEncoder
Sho Tatsuno
不均衡データのクラス分類
Shintaro Fukushima
深層生成モデルと世界モデル
Masahiro Suzuki
劣モジュラ最適化と機械学習1章
Hakky St
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
Ad
More from 広樹 本間
(15)
PDF
論文紹介: Improving grammatical error correction models with purpose built advers...
広樹 本間
PDF
Infusing sequential information into conditional masked translation model wit...
広樹 本間
PDF
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
PPTX
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
広樹 本間
PDF
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
PDF
EMNLP 2019 parallel iterative edit models for local sequence transduction
広樹 本間
PDF
2019 Levenshtein Transformer
広樹 本間
PDF
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
広樹 本間
PDF
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
PDF
Unsupervised multilingual word embeddings
広樹 本間
PDF
Improving neural machine translation by incorporating hierarchical subword fe...
広樹 本間
PDF
A deep relevance model for zero shot document filtering
広樹 本間
PDF
Reusing weights in subword aware neural language models
広樹 本間
PDF
最終発表
広樹 本間
PDF
企画書 VirtualDarts v2
広樹 本間
論文紹介: Improving grammatical error correction models with purpose built advers...
広樹 本間
Infusing sequential information into conditional masked translation model wit...
広樹 本間
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
広樹 本間
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
EMNLP 2019 parallel iterative edit models for local sequence transduction
広樹 本間
2019 Levenshtein Transformer
広樹 本間
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
広樹 本間
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
Unsupervised multilingual word embeddings
広樹 本間
Improving neural machine translation by incorporating hierarchical subword fe...
広樹 本間
A deep relevance model for zero shot document filtering
広樹 本間
Reusing weights in subword aware neural language models
広樹 本間
最終発表
広樹 本間
企画書 VirtualDarts v2
広樹 本間
Ad
2019年度チュートリアルBPE
1.
Byte Pair Encoding 2019-05-29
チュートリアル M1 本間
2.
なぜBPEが必要か BPEって何? の前に
3.
なぜBPEが必要か 未知語言語モデルには の問題がある
4.
なぜBPEが必要か 未知語 すべての単語 = ∞ 首都大学東京 私 あなた 小町研究室 こんばんはこんにちは \(^o^)/ 今日 獰悪 頸筋 抛る
5.
なぜBPEが必要か 未知語 すべての単語 = ∞ 首都大学東京 私 あなた 小町研究室 こんばんはこんにちは \(^o^)/ 今日
獰悪 頸筋 抛る 学習データに含まれる単語 学習データに 含まれない 単語 (辞書)
6.
なぜBPEが必要か 未知語 すべての単語 = ∞ 首都大学東京 私 あなた 小町研究室 こんばんは こんにちは 今日 獰悪 頸筋
抛る 学習データに含まれる単語 ニューラル のモデルで 扱う ニューラル のモデルで 扱わない \(^o^)/ 学習データに 含まれない 単語 高頻度語 低頻度語 (rare words)
7.
なぜBPEが必要か 未知語 すべての単語 = ∞ 首都大学東京 私 あなた 小町研究室 こんばんは こんにちは 今日 獰悪 頸筋
抛る 学習データに含まれる単語 ニューラル のモデルで 扱う ニューラル のモデルで 扱わない \(^o^)/ 学習データに 含まれない 単語 =語彙サイズ (vocabulary size) • ハイパーパラメータ • モデル作成時に決定
8.
なぜBPEが必要か 未知語 すべての単語 = ∞ 首都大学東京 私 あなた 小町研究室 こんばんは こんにちは 今日 獰悪 頸筋
抛る 学習データに含まれる単語 ニューラル のモデルで 扱う ニューラル のモデルで 扱わない \(^o^)/ 学習データに 含まれない 単語=語彙数 (vocabulary size) • ハイパーパラメータ • モデル作成時に決定 Chainer の言語モデルの場合…
9.
なぜBPEが必要か 未知語 すべての単語 = ∞ 首都大学東京 私 あなた 小町研究室 こんばんは こんにちは 今日 獰悪 頸筋
抛る 学習データに含まれる単語 ニューラル のモデルで 扱う ニューラル のモデルで 扱わない \(^o^)/ 学習データに 含まれない 単語 OOV (out-of-vocabulary) = 未定義語 ≒ 未知語
10.
なぜBPEが必要か 未知語に対応しなければいけない
11.
なぜBPEが必要か 未知語に対応しなければいけない 未知語処理
12.
なぜBPEが必要か 未知語処理 1.未知語を特殊トークンに置き換える 2.サブワード化 を行い未知語を無くす (あるいは減らす)
13.
なぜBPEが必要か 未知語処理 1.未知語を特殊トークンに置き換える 2.サブワード化 を行い未知語を無くす (あるいは減らす) I entered
TMU . ↓ I entered <unk> . 私は <unk> に入った。 ↓ (Pointer Networks とか) 私はTMUに入った。
14.
なぜBPEが必要か 未知語処理 1.未知語を特殊トークンに置き換える 2.サブワード化 を行い未知語を無くす (あるいは減らす) サブワード化
15.
なぜBPEが必要か 未知語処理:サブワード化 単語をより細かい単位 サブワード単位 にまで分割すること 語彙数が減少し 計算量の問題が解決し 学習データすべて扱える
16.
なぜBPEが必要か 未知語処理:サブワード化 サブワード化の手法にはいくつか種類がある その内のひとつが BPE
17.
と、ここまでが BPE が必要な 理由でした。 次からは実際の
BPE のお話です
18.
歴史(1分で)
19.
歴史(1分で) • Byte Pair
Encoding(バイト対符号化)は、 元は可逆圧縮のデータ圧縮法のひとつ “A New Algorithm for Data Compression” (1994) • これをニューラル機械翻訳に応用 “Neural Machine Translation of Rare Words with Subword Units” (Sennrich, 2015) • 2019年現在も多くのモデルで使われている GPT-2 (OpenAI), MT-DNNKD (Microsoft), GMNMT (Google)
20.
BPE は広く一般的に使われてる つまり 知らなきゃまずい
21.
BPEの気持ち 適当に分割するのではなくて、頻度とかを 見て賢く分割したいよね。 文字単位だと分割しすぎだし。 “unkingly” という語を ”un”
と”king” と”ly” に分割できたら、元の意味を復元できそう。 (王様らしくない) (ない) (王様) (らしい)
22.
BPEの実装
23.
BPEの実装
24.
BPEの実装 この η を調整することで 語彙サイズを変更できる!
25.
Sennrich の論文のコード。 短い..
26.
https://github.com/google/sentencepiece BPEの実装 Q. BPEを使いたいときは? A. pip
install sentencepiece
27.
https://github.com/google/sentencepiece/ blob/master/doc/experiments.md BPEの実装 Q. パラメータはどう設定すればよい? A. ここ見て
🔗
28.
まとめ BPEは未知語処理の手法の一つ BPEのハイパーパラメータ ∽ 語彙数 pip
install sentencepiece おしまい
Download