「ChatGPT」などの生成AIが世界で注目される中、東京工業大学、東北大学、富士通、理化学研究所は、スーパーコンピュ-ター「富岳」を活用した国産生成AIを学習するための手法を開発することを5月22日に発表した。

そもそも生成AIとは、「ChatGPT」など、インターネット上のデータを学習し、自然な文章や画像を自動で生成する人工知能。研究チーム(東京工業大学、東北大学、富士通、理化学研究所)は、スパコン「富岳」を活用して、生成AIの中核として使用されている大規模言語モデルの学習手法の独自開発を始める。

スーパーコンピューター「富岳」
スーパーコンピューター「富岳」
この記事の画像(4枚)

アメリカのOpenAIが開発した「ChatGPT」の場合、主に英語で学習していることから、日本語の精度が低いとの指摘がある。今回、研究チームが開発予定の生成AIは、大量の日本語データを中心に学習させ、日本語能力を高めたものを目指す。2024年度には、大規模言語モデルを公開し、企業や大学などに無償提供することを目指している。

国産の生成AIに期待が高まるわけだが、スパコン性能ランキング世界2位を誇る計算能力の「富岳」を活用することでどんな利点があるのか?また、「ChatGPT」に比べどんな点で優れているものになるのか?

研究チームの一員である東京工業大学学術国際情報センターの横田理央教授と東北大学大学院情報科学研究科の坂口慶祐准教授に詳しく話を聞いてみた。

人間が書くようなテキストを生成できる人工知能

――生成AIの基盤となる「大規模言語モデル」とはどんなもの?

「生成AIの基盤となる大規模言語モデル」とは、人間が書くようなテキストを生成することができる人工知能の一種です。これは非常に多数の文書(たとえば、インターネット上のウェブページ、書籍、記事など)から学習します。この学習プロセスは、どの単語が他の単語の後に来るかを予測するというタスクに基づいています。

たとえば、「仙台のご当地グルメとして知られている」の後に何が来るか予測する場合、人間は「牛タン」や「はらこ飯」などの単語を思い浮かべるかもしれません。大規模言語モデルも同じように学習し、ある文のコンテキストに基づいて次に何が来るかを予測します。

そして、このモデルは生成された予測を元に、新たな文章を作り出すことができます。だから、人が入力した質問に答えたり、文章を書いたり、情報を検索したりすることが、ある程度可能になります。

しかし、大規模言語モデルには限界もあります。それは学習したデータに基づいて予測を行うだけで、自発的な思考や意識、感情を持つわけではありません。また、モデルが学習した時間点までの情報しか持っておらず、それ以降の情報については知り得ないという点も重要な制限です。それに、モデルは文字列を予測することが得意なだけで、根本的な真実や倫理を理解する能力はありません。

「ChatGPT」(画像はイメージ)
「ChatGPT」(画像はイメージ)

――「富岳」を使うことで、どんなメリットがある?

国内にある最大のGPU(画像処理半導体)資源はABCI (AI橋渡しクラウド)の4千GPU程度のシステムで「富岳」の16万CPU(中央演算処理装置)に比べると規模が小さいです。「富岳」のCPUは単体ではGPUと比べて遅いですが、LLM(大規模言語モデル)の学習は台数効果が高いので資源が多いとそれだけ速く学習できます。また、ABCIは幅広いユーザーが共同で利用するのに対して、「富岳」はスパコンの専門家が利用する用途に向いています。


――完成したら、私たちはどのように使うことができる?

大規模言語モデルは、ユーザーが追加学習を行うことで色々なアプリケーションが考えられます。例えば、「ChatGPT」などのチャットボットや、文章の推敲、誤字や文法の訂正、簡単な要約や翻訳などがあります。重要なのは、実用的な性能(使えるアプリ)に至るには「追加学習」が必要になるという点です。

本プロジェクトでは、追加学習の前に(大規模なデータや計算資源を必要とする)「事前学習」にフォーカスしています。(「ChatGPT」のようなアプリ自体を作るわけではありませんが、「ChatGPT」のもとを作るというようにイメージ頂ければと思います。)

日本語に関して処理効率の良いモデルに

――ChatGPT」より優れている点はどんなところになりそう?

日本語中心の大規模言語モデルができて、初めて「ChatGPT」との客観的な性能比較が可能になります。現時点では優れている点についてはっきりとしたことを述べることはできませんが、日本語中心のデータを用いることで、日本語に関して処理効率の良いモデルになることを期待しています。また、どのように学習させたのか、どのようなデータを用いたのか等の情報の透明性についても説明可能な形で進めていきます。


――いつごろの公開を目指している?

今回の「富岳」政策対応枠の目的は、大規模言語モデルを学習して公開することではなく、その学習を行うための基盤技術の開発となっておりますが、2023年度末までに学習したモデルはその時点で公開することを予定しています。


――課題となっている著作権や正確性についてはどう対策していく?

自分(坂口)は専門ではないので、AIの著作権に関して詳しい弁護士に相談しながら進めていく予定です。

生成AIはまだ新しい技術で、活用については自治体でも意見が分かれている。著作権などの課題もあるが、国産AIを開発することで、様々な社会課題の解決につなげていってほしい。

プライムオンライン編集部
プライムオンライン編集部

FNNプライムオンラインのオリジナル取材班が、ネットで話題になっている事象や気になる社会問題を独自の視点をまじえて取材しています。