世界の動きを知るうえで押さえておきたいトピックの第一人者に、長野光と関瑶子のビデオクリエイター・ユニットがインタビューをするYouTubeチャンネル「Point Alpha」。今回は、生成AI(人工知能)の学習スキームや「マルチモーダルAI」など複数のAIを連携させることで広がる可能性について、東京大学名誉教授・須藤修氏に話を聞いた。 ※主な発言を抜粋・編集してあります。
──生成AIは、質問に対して思考して回答しているのではなく、入力されたプロンプト(AIに対するユーザーの指示)に対して、よく使われる言葉を選んでつなげて出力していると言われます。どのように私たちの質問に対して回答を構成しているのでしょうか?
「言葉に対応して文章を紡ぎ出す『トランスフォーマー』という深層学習モデルが重要な機能を担っています。人間のように思考して話をしているわけではありません。では、どのように文章を構成しているのかというと、トランスフォーマーのロジックにはいくつかの段階がある」
「最初に『トークン化』という段階があります。今、私が話している内容を文章にすると、文を単語ごとに区切ることができる。この各単語を『トークン』と呼びます」
「次に『埋め込み化』という言い方をしますが、X軸とY軸で座標を作り、言葉の意味の関連性を座標上にはめ込んで、言葉同士の意味の距離感(各単語の意味が近いか遠いか)を明らかにして人工知能に記憶させるのです。このトレーニングには、ウィキペディアなどを中心とした世界中のウェブ上にある情報が使われ、これを教材にして人工知能は学習します」
「次に『トランスファー・ブロック』と呼ばれる言葉と言葉を関係づける作業があります。過去の情報をもとに、ある言葉が出てくると、その言葉の次にどんな言葉が出てくるのかをAIに推測させるのです」
「『走る』という言葉が出てきたら、その前には確率的に『人』や『自動車』といった言葉が出てくると予想を立てる。『走る』という言葉の前に『人』という言葉が出てくる確率が70%で『自動車』が出てくる確率が30%だとしたら『人』のほうを取る。このように、確率分布によって言葉の並び方を決めています」
「AIは『文脈依存型』と言われ、これまでの文章や会話の内容から、次にどんな単語がくることが妥当かを確率で推定して言葉を選んでいる。文法としておかしくないように、単語を確率的に並べて文章を構成しているのです」
──生成AIは、同じ質問でも、質問をするたびに回答が異なります。なぜこのようなことが起きるのでしょうか?
「ChatGPTにはプロンプトを書き込む所があり、ユーザーはここにAIに対する質問を書き込みます。この時に、どういう順番で質問するかによって人工知能の回答が変わります」
「今年2月頃『須藤修とは誰ですか?』という質問をプロンプトに記入したら『日本の俳優です』という回答が返ってきました」
「ところが『人工知能とは?』『マシンラーニングとは?』といった質問をプロンプトに書き込んでChatGPTに回答させ、その後に『須藤修とは誰ですか?』という質問をすると、今度は『須藤修はマシンラーニングの研究をしている』『日本政府のAIの原則を作る議長を務めた』といった情報が回答として返ってくるようになりました。それまでの会話の文脈と結び付け、その周辺の人物を選ぶようになったのです」
「しかし、私が所属する組織名が少し違っていたりして、部分的には間違った情報が見られることもあります。こうした間違いもまた文脈への依存から生じるものです。また、違う質問をいくつかして『須藤修とは誰ですか?』と聞くと、それ以前の文脈に影響されて、回答がまた少し変わる」
「フォーサイト」は、月額800円のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。