Vext Blog

ベクストブログ

2023.2.14

COLING2022に参加しました～BERTの進化系のRoBERTaについて～

COLING2022のあれこれ

COLINGは、計算言語学に関する国際会議で、自然言語処理と計算言語学のトップカンファレンスの一つです。1965年に初めて設立されたCOLINGは、世界各地で開催されトップクラスの研究所や新興国からもの参加者が集まります。

今回のCOLINGは2022年10月、韓国の慶州でハイブリッド形式で開催されました。参加者は現地の会場に出席するか、バーチャルで参加することが選ぶことが可能でした。（ベクストはバーチャルで参加しましたが、実際の統計を見てみると８割が現地参加していました。海外はすでにエンドコロナが進んでいることが実感できました！）

今年は提出された2,253件のうち、約３割の632件の論文が採択されました。最も人気のあるテーマは「情報抽出」、その次に「自然言語生成＆要約」、「感情分析」が続きました。これらはTransformerアーキテクチャの発展に基づいた新しいトレンドです。

RoBERTaについて

https://arxiv.org/abs/1907.11692

BERTの変形型の発展はACL2021の参加ブログでも言及していますが、今回改めて感じた点は色々な変形の中で特にRoBERTaをベースにしたモデルが高い性能を出していることです。

RoBERTaは2019年7月にFACEBOOKで発表され、BERTモデルを学習させるためにより良い方法として提案されました。以下の3点が既存のBERTからの改善モデルであるRoBERTaの特徴です。
１）MLM（Masked Language Model）をダイナミックに変化
２）NSP（next sentence prediction）の除外＆より長いsequenceで学習
３）より大きなバッチとデータでモデルのスケールアップ

１）MLM（Masked Language Model）

従来のBERTはrandom masking した後、masked tokenを予測する方法を採用しています。データの前処理過程でmaskingされるため、1つの静的（static）maskを導出します。RoBERTaはMLMを学習する際に使用するmasking戦略を再実装したStatic（静的）またはDynamicの2つの方法に変更して検証が行われています。

Staic masking戦略
• 一つのデータをn回複製してそれぞれmaskingを独立的に適用すること
• 結果的に異なるn個のデータを使ってMLMを学習することになる。

Dynamic masking戦略
• Static masking戦略よりも自由にmaskingする方法
• モデルが入力として使用するたびにmaskingを新たにすること

上記の二つのmaskingでの結果は以下の通り従来手法より改善されることが確認でき、StaticよりDynamicの方が性能が（少しですが）良いことがわかります。

２）NSP（Next Sentence Prediction ）

NSP（Next Sentence Prediction）は2つの文章が連続する文章か否かを判断する二値分類です。Question-answering（QA）、Natural Language Inference（NLI）などのタスクでは、二つの文章間の関係を理解しなければならないです。文章間の関係は言語モデルでは学習しにくいので、NSPというtaskについても一緒に学習を進める必要があります。既存BERTのNSP設定からinputデータに色々な設定を加えて検証した結果が以下になります。

上記の実験結果からわかるようにDOC-SENTENCES > FULL-SENTENCE > SEGMENT-PAIR > SENTENCE-PAIR の順で性能が良かったです。個別の文章（SENTENCE-PAIR、短いinput単位）を使うと実際のタスクにおいて良くない性能をもたらします。また、NSPプロセスを除去することで性能改善が見られました。この際、FULL-SENTENCE（全文、１つの文書（ドキュメント）を超えることが可能）をinputするより、DOC-SENTENCE（ドキュメントの境界を越えることはできません）をinputで書く方が性能が改善されました。

３）バッチのサイズとデータセットのスケールアップ

２）のSENTENCE-PAIR+NSPとDOC-SENTENCESの場合、トークンの長さが通常512より短い確率が高いです。このような場合、配置サイズを増やして1つの配置サイズから十分な数のトークン数が出るように修正を行います。
データセットのサイズも大きくします。BERTで事前学習に使用したデータセットはWikipediaデータセットで約16GBです。RoBERTaでは、その他のデータセットを追加して合計160GBに増やしました。

１）、２）、３）を通して最適な組み合わせでもう一度既存のBERTと比較したところRoBERTaの方が以下のようにより良い性能が出ました。