紛争研究に「SNS分析」を導入した国連職員の挑戦（前編）｜ノイズをいかに取り除くか：高橋タイマノフ尚子 | 記事 | 新潮社　Foresight(フォーサイト)

様々な「ノイズ」をいかに取り除いていくかがSNS分析の成否を分ける（C）metamorworks／shutterstock

世界中で何十億人ものユーザーがいるSNSの投稿を分析することは、いまや公共政策や学術研究、ビジネスといった各分野において必須スキルのひとつとなっている。国連での紛争研究にSNS分析を導入した日本人職員が、その有用性と具体的な手法について、課題や弱点も含めて解説する。

　2023年はSNS分析業界にとって激震の年であった。年初にTwitter社（現X社だが、本稿ではわかりやすさを優先し、引き続きTwitterおよびツイートという語を使用する）が、研究目的でのTwitterデータへの無料アクセスを廃止したのである。筆者はSNS分析の黎明期に学術や公共目的のSNS分析の重要性を国連内で喚起し、その手法の普及などをものすごく頑張った自負があるので、この努力が花開いたら定年退職後に自慢するつもりでいたのだが、それが黎明から日の出を待たずに日没した感があった。

　ところで、この「SNS分析」というちょっと胡散臭い言葉が人口に膾炙して久しい。お陰様で私も自己紹介で「初めまして、私が国連の紛争分析にSNS分析を導入した日本人です」などと謳っている。しかし、このような雑な、中身の薄い自己紹介は警戒されるべきである。そもそも「SNS分析」とやらは何なのか。なんなら、「『SNS分析』って分析対象の話であって、分析方法については一切言及していないですよね。実際何してるんですか？」くらい問い詰めても良い。でもみなさんお優しいせいか、誰も私が適当なことを言っていないかチェックしてくれないので、この場を借りて自分で質問して自分で答弁したいと思う。

国連がSNS分析に取り組む理由

　さすがに「国際政治とSNSってなんか関係あるんですか？」と訊く方は少なくなった。2023年の国連の報告によると、世界のSNSユーザーは30億人を数え、プラットフォームによっては１億人ユーザーをわずか９ヶ月で獲得するなど未だ成長の止まらない産業である。社会運動から選挙、戦争まで、SNSはこれまで幾度となく政治的、社会的な事件に影響を与えてきた。とりわけ、伝統的なメディアでは伝えきれなかった、もしくはなかったことになっていた事件や人々について知るためには、SNSは重要な情報ソースとなった。確かにSNS上では不確かな情報や悪い噂、ヘイトスピーチなどは蔓延しがちだが、裏を返せば、これらを見つけ、データ化し、分析するのにSNSはとても役立つ。

　実際に国連でも2022年には国連開発計画イラク事務所がSNS分析を通じてイラク人の将来感を調査したり、2021年にはレバノン特別調整官事務所（UNSCOL）が伝統的メディアとソーシャルメディアの両方を対象にヘイトスピーチの論調について調査した実績がある。ヘイトスピーチを防ぐ活動にも積極的に取り組みつつ、そのヘイト（憎しみ）の背景にはどのような不満が存在するのか分析する上で、国連にとってもSNS上のデータは非常に有用なのである。

　もちろん、有用でない情報もSNSには多い。例えば、「前髪切りたい」とか「今日も推しが尊い」などの投稿は特定の事件事故とは無関係であり、これらは一般的に「ノイズ」と呼ばれる。SNS分析ではいかにこういった「ノイズ」を取り除いていくかが分析の成否を分ける。

いかにノイズを取り除くか

　ノイズの排除には様々な手法がある。一つの分け方としては、手作業か、それともコンピューターを介したものか、である。SNSを手作業で分析する人がいるのかと驚く人もいるかもしれないし、自分は手作業で分析しているが何が悪いんだと思う人もいるかもしれない。正解はなく、どちらも目的に応じて一長一短がある。

　もう一歩進んだ分け方としては、ファイヤーホース（消火ホース）方式か、キュレーション（展覧）方式か、という違いがあり、これは分析範囲の設定手法に関するものである。例えば、2023️年のアルゼンチンの選挙情勢についてSNS分析をしたい研究者がいるとする。ファイヤーホース方式を採る場合、研究者はまずその議題「アルゼンチンの選挙」に関わる重要キーワード（アルゼンチン、選挙、ミレイなど）をアルゼンチンの公用語であるスペイン語でリストアップする。その後、ソフトウェアを用いて、それらの単語を一言でも使用しているスペイン語の公開ツイートを全てダウンロードし、それがその研究者の「分析範囲」となる。

　このファイヤーホース方式では、消火ホースからとめどなく流れる水の如く大量の、関連する単語を含むポストを全て収集して分析範囲とするため、網羅性が高く、「アルゼンチンの選挙に関する言及が先月と比べてどう増減したか」などの分析に向いている。課題は、ノイズの確率が高いことである。この例で言えば、「アルゼンチン」という単語を含むツイートを全てダウンロードしてしまうと、そのほとんどがサッカーや、音楽など、選挙とは無関係のものになりうる。たとえ「選挙」と検索しても、その内容は前回のものを含むかもしれないし、アルゼンチンではなくペルーやスペインの選挙関連ツイートを集めてしまうかもしれない。

　その難点をクリアするのがキュレーション方式だ。この方法では、研究者はまず、アルゼンチンの選挙に常に関心をもって頻繁に発信しているSNSアカウントをコツコツと探し出し、リスト化する。次に、ソフトウェアを用いてそれらのアカウントの投稿を全てダウンロードし、それを「分析範囲」とする。この方法では信頼あるソースを研究者が、まるで学芸員（キュレーター）のように手作業で集めるので、データの関連性が高くノイズの確率が下がる。特に「アルゼンチンの選挙に関心のある人たちの間で今週は何が注目トピックなのか」などの分析に向いている。課題は、「信頼ある」「関連深い」の定義が研究者の一存に委ねられているので、バイアスが入り込む可能性が高いことである。例えば、研究者ならば長年の知識を元にアルゼンチンの与野党の有名議員のSNSアカウントを探すことは容易いだろうが、一方で「昨年から若者の間でバズり始めた、イグアスの滝の環境保全に情熱を燃やす現地の匿名の大学生のアカウント」などは見落とすかもしれない。SNSならではの新しい、無名の、しかし拡大中のムーブメントを分析に含み損ねれば、新聞を分析するのと何が違うんだという批判を受けかねない。要するに、網羅性という点ではファイヤーホース方式に劣る。

　では、これら二手法を組み合わせたらどうなるか。その場合、まずファイヤーホース方式で膨大なデータを手に入れ、その中でエンゲージメント（いいね、閲覧回数、引用回数など）を元にランキングを作り、上位アカウントとトピックとの関連性を精査し（アルゼンチンのサッカーに関するポストを消すなど）、残ったものをリストにする。そのリストに含まれていないが研究者の知見的に重要だと思われるアカウント（一月に一回しか投稿しないのでエンゲージメントは低いが注目度は高い現役大臣のアカウントなど）を手作業で追加し、合わせたものを分析対象とすることになる。この手法の課題は、分析範囲の定義がぶれているため、なんの調査なのかわからなくなることである。「アルゼンチンの選挙に関心がある人と、関心が別に高くないけれどエンゲージメントが高い人たちを合わせた5000人の間で、今週の注目トピックが何かを調べたところ、一番言及されていたのはメッシ選手でした」という分析結果になりがちなので、経験上一概にはおすすめできない。

発信者はどこにいる？

　ファイヤーホース方式の難点の一つに「スペイン語で選挙と検索するだけではアルゼンチンのみならずスペインやペルーのデータも含んでしまう可能性が高い」と述べた。アルゼンチン政治に限定したデータを取るためには「選挙」という一般名詞よりも「ミレイ」などアルゼンチン選挙関連の固有名詞を入れるのが良いだろう。ただし、それだけではスペイン在住でハビエル・ミレイ氏に興味のあるペルー人の投稿を分析から排除することはできない。

　Facebookの一部例外的な取り組みを除いて、SNSプラットフォームはユーザーが自らタグ付けした以外の位置情報を研究者に共有していないので、タグづけされていない限り、発信者がアルゼンチンにいるのかスペインにいるのか、はたまた実は日本にいるのかは他のユーザーにも研究者にも判断できない。さらに言えば、当地の政治的な状況によって発信者の多くがVPN（仮想プライベートネットワーク）を使用している場合、ますます地理情報は混乱させられる。当然、発信者の人種や国籍などについても、よほど本人がプロフィールで大きく主張していない限り判断できない。この課題は特に、ディアスポラ（母国を離れて異国で暮らす民族集団）が多い国や地域に関するトピックについてSNS分析を行いたいときに必ず議論される。

　しかし、地理的障害のないSNSの世界で、発信者が地理的にどこにいるのかは果たして重要なのだろうか？　相手がどこにいるのかも、本当に存在しているのかもわからないながら情報交換が行われているのがSNSの醍醐味ではないだろうか。SNS分析をするならば、分析の範囲を「ディアスポラ」対「母国住民」と分けるのではなく、「どこにいる何人でも構わないけどxx語でA反対の人」対「どこにいる何人でも構わないけどxx語でA賛成の人」と分ける方が無理なく、SNS社会のリアリティをよく反映しているように思える。

人間の頭脳は（今のところ）必要である

　むしろファイヤーホース方式の問題点の中で、私がより検討に値すると思うのはボット問題である。SNSにはボットと呼ばれる、自動的に投稿をするロボットアカウントが存在する。あるキーワードやハッシュタグがあるタイミングで一気に拡散されたことがわかった場合、不自然な増え方をしていないかどうかその発信元を調べることでボットの存否を明らかにできる。ボットは人間が見たら明らかにボットだと判断できるケースが多いが、AIは意外とボットの判断が苦手である。

　上記に紹介した以外にもSNS分析には様々な手法がある。今回は国際政治分析を目的とした場合の手法を紹介したが、マーケティング目的のSNS分析では全く異なる手法が用いられるらしいことを、最近（よく知らないYouTuberの怪しい）YouTube番組で学んだ。結局は、目的とその手法が合っているかどうかが最も重要なのだ。研究者はまずリサーチ・クエスチョンを思いつき、それをどのようなクエリ（処理要求）にすればコンピューターが理解できるかを考え、コンピューターに命令する。そこまでが人間の仕事で、あとはコンピューターが出力するだけである。ChatGPTに代表されるような生成AIの基礎であるLLM（大規模言語モデル）技術の発展のおかげで、コンピューターは人間の自然言語をより理解できるようになったが、洗練された「お題」を設定するのはなお人間の領域である。人間の頭脳は（今のところ）必要だということである。

紛争研究に「SNS分析」を導入した国連職員の挑戦（前編）｜ノイズをいかに取り除くか

国連がSNS分析に取り組む理由

いかにノイズを取り除くか

発信者はどこにいる？

人間の頭脳は（今のところ）必要である

池内恵の中東通信