Vext Blog

ベクストブログ

2023.2.1

NeurIPS 2022のOutstanding Papersから分かるAIトレンド – その１全体像 –

ベクストの社員の一人が、AIのトップカンファレンスであるNeurIPS（Neural Information Processing Systems）2022に参加してきました。NeurIPSは世界最高峰の研究者が集うトップカンファレンスです。

2022年は、２週間・ハイブリッド形式で行われました。一週目は、米国ルイジアナ州ニューオリンズで現地開催、二週目はリモートでSlido・ZOOM・RocketChatを使って開催という形態で進行されました。

ベクストでは過去３年間で自然言語処理（Natural Language Processing：NLP）のトップカンファレンスであるACL, EMNLP, NAACL, COLINGに参加していますが、昨今は、NLPの中で起こったブレークスルーであるBERTやGPTを始めとしたTransformerを多層に積み重ねた深層学習モデルが人工知能の学術領域全体で認知されるようになり、マルチモーダルシステムの事前学習に関する研究成果がNLPでの精度向上に寄与する（例：CLIP with knowledge graphs）といった学術領域を跨いだ発展が見られています。

Transformerを用いた巨大事前学習モデルに、再学習と人間によるフィードバックを報酬とする強化学習を用いたChatGPTは、IT業界にとどまらず広く認知され、加速度的に進化・普及をしている状況です。我々も井の中の蛙でいてはならないと、NLP以外の学会にも足を運ぶようにしています。

2022年はEMNLPやCOLINGに加えてAIと人間とのインターフェースを研究するHCIIや、深層学習モデル全般を扱うNeurIPSでの情報収集を行いました。

本連載記事（計２本）ではNeurIPS 2022でOutstanding paper（以後、優秀論文と省略して表記します。）に選ばれた論文発表を聞いて気づいたAIに関するトレンドを解説していきます。まず、１本目では全体像を解説していきます。

NeurIPS 2022 Outstanding Papersの全体像

まず、NeurIPS 2022の優秀論文たちを、横軸を「ベンチマーク、手法、指標」、縦軸を「テキスト、マルチモーダルデータ、数値他」という切り口で分類してみます。論文のabstractや概略図をベースにざっくり分類しておりますので、正確性に関して保証はできませんのでご容赦ください。

トレンド１: Diffusion Model

去年に続いて生成モデルに関する発表が多くあり、優秀論文に選出されていました。一昔前は生成モデル(Generative Model)といえば、GAN、VAE、FLOWといった生成手法が有名でしたが、現在はそれらの抱える課題を解決したDiffusion Modelが大きなトレンドを形成しています。

中でも、Imagen[1]はテキストデータから画像を生成(Text-To-Image)するベンチマークCOCOでDALL・E2を上回る性能が確認されており、DrawBenchというテキストから画像を生成するモデルを評価するためのベンチマークも同時に公開されています。今回公開されたベンチマークでより巨大なものとしては、LAION-5B[12]も優秀論文に選出されています。巨大な画像・テキストデータセットのペア（約56億ペア）をドイツのLAIONというグループが無償公開しており、ここからアクセス可能です。Text-To-ImageやImage-To-Textの評価に利用することができます。Diffusion Modelに関しては、本連載二本目の記事でも深掘りしていく予定です。

トレンド２: マルチモーダルな汎用AIエージェントシミュレーション

テキストと画像の両方を扱うマルチモーダルなエージェントシミュレーションの研究が数多くありました。中でも優秀論文に選出されたMineDojoはMinecraft上でエージェントにテキストベースで命令を与えると創造的タスク・目的達成型タスクの両方をこなすことができる汎用AIエージェントを提案しています。大量の動画フレーム(画像)と字幕（テキスト）のペア情報で、画像とテキストのエンコーダを対照学習（詳細はCLIP論文参照）するMineCLIPという手法も同時に提案しており、これによりタスクを遂行した動画フレームとテキストプロンプトとの類似度を算出できるようにします。この類似度を報酬として強化学習を行う、という画期的な方法により、タスクごとに報酬関数を設計することなく汎用的なAIエージェントを作ることに成功しています。

トレンド３: スケーリング仮説（Scaling Law）

昨今の深層学習モデルはTransformerを積み重ねたアーキテクチャを採用しているものが多いですが、これまでにもRNN(LSTM)/CNN/gMLP(aMLP)など多種多様な形をしたニューラルネットワークが提案されてきました。2020年にOpenAIの発表したスケーリング仮説によると、深層学習モデルの性能（正解とモデルが予測した値との差である損失）は、データセット・モデル・計算資源のそれぞれに対してべき乗則に従うという法則が確認されており、ネットワークの幅や深さなどの詳細なアーキテクチャの影響は限定的であるということが主張されています。

今年のNeurIPSでも、スケーリング仮説を支持する結果や、更に効率的に性能をスケールさせていくための重要な発見がいくつかありました。Deepmindの調査[13]によると、現在公開されている巨大言語モデルは、未学習の状態にあるものが多く、データセットサイズとモデルサイズを同時にスケールさせていくことで、特定の計算資源(FLOPs)下でも、より性能を発揮できるということが主張されています。実際にそのようにして訓練されたChinchillaはGopherと比較してパラメタ数1/4程度と少ないにも関わらず、4倍のデータセットを学習に用いたことによりマルチタスク言語理解のベンチマークであるMMLUタスクでGopherの性能を大きく上回っています。

（画像取得元）https://arxiv.org/pdf/2203.15556.pdf

その他: PAC学習（OODは学習可能か？）

ニューラルネットワークを実務に活用する上で非常に重要な問題の一つに、訓練時に利用したデータと、実務で利用するテストデータの分布が異なりうまく適合できないことが挙げられます。訓練時のデータと著しく特徴が異なる未知なるデータ（OOD：Out Of Distribution）をどのように扱うかは特に業務視点では重要です。

Is Out-Of-Distribution Learnable？[5]では、どんな場合もOODを検出できるような汎用的なアルゴリズムというものは存在しないことを数学的に証明し、ID(In Distribution)とOODに重複データが存在しない場合はOODの検出を学習可能なケースがあることや、その必要十分条件を明らかにしています。イギリスの理論計算機科学者 Leslie Valiant が1984年に A Theory of the learnableで提唱したPAC学習 (Probability Approximately Correct learning)の理論をベースとした50頁を超える難解な論文ではありますが、機械学習全分野にとって非常に重要な問題を扱っていますので触れさせていただきます。上述のスケーリング仮説と符号する点として、ニューラルネットワークのアーキテクチャが大きいほど、OOD検出の達成確率が高くなるということも確認されています。

本記事では、NeurIPS 2022の概要、参加動機（モチベーション）、優秀論文の全体像と３つのトレンドについて紹介しました。ベクストではこのような最新技術トレンドを追いかけて製品に取り込みテキストマイニングツールを開発・提供させていただいております。

2023年2月中にメジャーバージョンアップを予定しております。VOC分析結果を閲覧・配信可能なVextPortalや、コンタクトセンターで対話中のオペレータが欲しいFAQや将来話すであろう話題に関連するFAQをリアルタイムにリコメンドするVextRecommendの大幅な性能向上を予定しています。宝の山である大量のテキストをお持ちの方は一度当社までお問い合わせいただけますと幸いです。

参考文献：Outstanding Paper Awards受賞論文

[1]Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
[2]ProcTHOR: Large-Scale Embodied AI Using Procedural Generation
[3]A Neural Corpus Indexer for Document Retrieval
[4]Riemannian Score-Based Generative Modelling
[5]Is Out-of-Distribution Detection Learnable?
[6]High-dimensional limit theorems for SGD: Effective dynamics and critical scaling
[7]On-Demand Sampling: Learning Optimally from Multiple Distributions
[8]Gradient Descent: The Ultimate Optimizer
[9]Using natural language and program abstractions to instill human inductive biases in machines
[10]Elucidating the Design Space of Diffusion-Based Generative Models
[11]Gradient Estimation with Discrete Stein Operators
[12]LAION-5B: An open large-scale dataset for training next generation image-text models
[13]An empirical analysis of compute-optimal large language model training
[14]Beyond neural scaling laws: beating power law scaling via data pruning
[15]MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge