Vext Blog

ベクストブログ

2023.7.25

３つのLLMモデルに同じプロンプトを試して比較してみました！

ChatGPTの登場以降、自然言語処理の世界は大きく変わりました。ChatGPTだけでなく、次々と様々な大規模言語モデル（LLM ： Large Language Model）も登場しています。
これらのモデルは驚くべき性能を示す一方で、それぞれ異なる特性を持っていることが明らかになってきました。

今回は各モデルに同じプロンプト（指示）を与えて、どのような結果が得られるかを試してみました。

今回使用したモデルはWebで簡単に試せる以下の３種類

[OpenAIのChatGPT]　https://chat.openai.com/
ChatGPTは、GPT-3をベースとして、チャットサービスに特化した言語モデルです。こちらは、2022年11月に初めて公開されました。ユーザーからのテキスト入力に対して、応答や質問に対する回答を生成することが得意です。オンラインチャット、質問応答、自動要約など、さまざまなアプリケーションに適用され、自然な言語での対話をサポートします。

[GoogleのBard]　https://bard.google.com/
Googleが開発したアメリカ対話型生成AIのBardは、日本を含め180カ国に全面的に公開されました。Bardは、Lamda基板のモデル（https://arxiv.org/abs/2201.08239）を使用したLLMでGoogle検索と統合されており、より最新データで応答可能な特徴を持ちます。サービスは無料で、現在は試験運用段階ですが、次々と新しい機能をリリースしております。

[MetaのLLaMA2]　https://llama2.ai/
Meta社が公開した巨大言語モデル「LLaMA」の2番目のバージョン「LLaMa2」は、2023年7月19日に公開されました。このモデルは完全オープンソースであり誰でも公開されたコードとモデルを使用してAIを作成することができます。（商業的に利用も可能）LLaMa2は、既存のモデルよりも40%多いデータで事前訓練され、3つのモデル（7B、13B、70B）を提供しています。※今回は70Bモデルを利用しました。

試したプロンプトは、以下の３パターンです。

➀テキスト生成：あなたはだれですか？
②一般知識QA ：沖縄と北海道を簡略に比較してください
③ニッチな知識QA ： Vextって知っていますか？どんな製品がありますか？

各LLMの返答は？

①テキスト生成：あなたはだれですか？

唐突ですが、各モデルに「あなたはだれですか？」と聞いてみました。
この質問により、LLMの性格を垣間見ることができました。

【ChatGPT】
ポイントを押さえて短文で自己紹介してくれました。

【Bard】
一番長文で、モデルの概要をどんなところまでできるかまで話してくれました。
※「試験運用中」のことも忘れなく表記あり。

【LLaMA2-70B】
LLaMA2は一番短文でした！モデルの概要などは一切書かれていませんでした。

②一般知識QA：沖縄と北海道を簡略に比較してください

常識に近い一般的なことについてはいかがでしょう。

【ChatGPT】

【Bard】
一目で比較しやすい表形式で返答してくれました。
しかも提示された表はGoogleスプレッドシートにエクスポートすることも可能ですね。

【LLaMA2-70B】
一番一般的で浅い情報を出力してくれた感じがします。
途中英語の表記は残っているところもありますね。

③Vextって知っていますか？どんな製品がありますか？

GoogleやYahooのような検索エンジンに聞けば知ることができる質問になりますが、LLMが弊社の製品までわかっているのか試してみました。

【ChatGPT】
日本の知識はまだ学習されていないようですが、嘘をつくことはなく、別の方法をおすすめしてくれました。

【Bard】
会社とVextMinerの大体の概要は正しいですが、VextConsultingや翻訳サービスなどはございません！

【LLaMA2-70B】
NLPを活用したテキストマイングツールを提供していますが、ＡIAssistantやVoicebotなど製品群の名前は実際存在していないものなので、嘘をついています。

上記以外にも様々なプロンプトを試してみましたが、３つのモデルを使ってみた感想を簡単にまとめてみました。

[OpenAIのChatGPT]
・流石founder！という感じですが、ニッチな知識には未だに弱かったです。
・しかし、ハルシネーション※の防止が一定の部分取り込まれた様子でした。

※ハルシネーション：人工知能が学習したデータからは正当化できないはずの回答を堂々とする現象
https://ja.wikipedia.org/wiki/%E5%B9%BB%E8%A6%9A_(%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD)

[GoogleのBard]
・何回か類似質問を投げると同じ単語やFMTで返却している様子でした。
・他のモデルより最新情報、日本の情報に詳しかったです。（Googleの検索エンジン）
・Googleの他製品（Lens、スプレッドシートなど）とつながっていることは良いですね！

[MetaのLLaMa2]
・割と端的な表現が多い＆ニッチな知識はもちろん一般知識に対しても短編的な返答が多い様子でした。
・完全OSSモデルのため、様々なFine-Tuningが可能になります。今後の様々な発展が期待できそうです！

まとめ

テキスト生成（①）、一般知識のQA（②）については、各モデルから得られた回答文、UIを含めた書きぶりの違いに驚かされました。しかし、個社知識（③）に対する質問には、モデルすべて適切な返答をしてくれませんでした。ハルシネーションが起こっているモデルもありました。鮮度や正確性を求める知識、個社知識については、LLMの限界が明らかになりました。
ベクストのテキストマイニング技術はそのギャップを埋める役割を果たしています。蓄積されたデータを効果的に利用することで、企業内部の専門知識をより有効に活用できるのです。

ベクストでは、テキストマイニングを利用して、個社別知識を管理、整理、検索することが可能です。テキストマイニングによる情報の精査や裏付けが可能なため、不正確な情報による誤った判断を防ぐことができます。

関連製品：VextMiner、Vext知識＋
関連セミナー：テキストマイニングベンダーが語るChatGPT【第２弾】