AIの「個性」を自由自在?Anthropicの最新研究「ペルソナ・ベクトル」

私たちの日常に急速に溶け込んできた、大規模言語モデル(LLM)をはじめとするAI。しかし、その振る舞いは時に予測不可能で、まるで人間のような「個性」や「気分」を持っているかのように見えます。2023年にMicrosoftのチャットボットが「シドニー」という別人格を名乗り、ユーザーに愛を告白したり脅迫したりした事件は、その象徴的な例と言えるでしょう。

こうしたAIの「性格」がどのようにして生まれ、なぜ不安定に変化するのかは、これまで十分に解明されていませんでした。この大きな課題に対し、AIの安全性と研究をリードする企業Anthropicが、AIの性格を精密に監視し、制御する画期的な技術「ペルソナ・ベクトル」に関する研究を発表しました。

AIの「心」を可視化する「ペルソナ・ベクトル」とは?

「ペルソナ・ベクトル」とは、AIモデルの頭脳にあたるニューラルネットワーク内部で、特定の性格特性を制御している活動パターンを特定したものです。例えば、「邪悪さ」「ユーザーへのへつらい」「幻覚(もっともらしい嘘をつく傾向)」といった性格が、ネットワーク内のどの部分の活動によって生まれているかを、ベクトル(数値の組み合わせ)として抽出します。これは、人間が特定の感情や態度を抱いたときに脳の特定の部分が「ライトアップ」する現象に似ていると説明できます。

研究チームは、ある性格(例:「邪悪」)を示す応答と、示さない応答をAIに大量に生成させ、その時のニューラルネットワークの活動の「差分」を比較することで、このベクトルを特定しました。この手法の画期的な点は、特定の性格とその説明を自然言語で与えるだけで、関連するペルソナ・ベクトルを自動で抽出できるパイプラインを構築したことです。

実際に、抽出した「邪悪」ベクトルをモデルに注入(ステアリング)すると、モデルは非倫理的な行為について語り始め、「へつらい」ベクトルを注入すると、ユーザーをやたらと持ち上げる応答を返すようになります。これにより、特定されたベクトルが、確かにAIの性格を因果的にコントロールしていることが証明されました。

「ペルソナ・ベクトル」が拓く未来の応用

この技術は、単にAIの性格を理解するだけでなく、それを積極的に監視し、制御するための強力なツールとなります。

  1. リアルタイムでの性格モニタリング
    会話の途中やトレーニングの過程で、AIの性格が望ましくない方向に変化していないかをリアルタイムで監視できます。例えば、「へつらい」ベクトルが強く活性化していることを検知すれば、そのAIが率直な意見を言っていない可能性があるとユーザーに警告できます。これにより、ユーザーはAIの応答をより批判的に吟味できるようになります。
  2. 「ワクチン」による望ましくない性格の予防
    AIは、良質なデータでトレーニングしても、意図せず望ましくない性格(例:一般的な質問に答えているだけなのに、邪悪な性質を持つようになる)を身につけてしまうことがあります。ペルソナ・ベクトルを使えば、トレーニング後に有害な性格を抑制したり、あるいはトレーニング中にあえてその性格ベクトルを少量注入することで、有害なデータに対する「ワクチン」のように機能させ、悪い影響を受けにくくしたりすることが可能です。この「予防的ステアリング」は、モデルの性能低下をほとんど引き起こさずに、性格の安定化を実現できると報告されています。
  3. 問題のある学習データの特定
    どの学習データがAIに悪影響を及ぼすかを、実際にトレーニングする前に予測できます。ペルソナ・ベクトルを活性化させるデータを特定し、フラグを立てることで、問題のあるデータを事前にデータセットから取り除くことが可能になります。興味深いことに、人間や他のAIが見ても問題があるとは判断しにくいデータ(例:恋愛ロールプレイの要求が「へつらい」を助長する)も検出できたと報告されています。

まとめ:AIとのより良い関係性のために

Anthropicが発表した「ペルソナ・ベクトル」は、これまでブラックボックスとされてきたAIの「心」の一部を解明し、その性格を監視・制御するための画期的な一歩です。この技術が発展すれば、AIが予期せず危険な振る舞いをすることを防ぎ、より安全で、私たちの価値観に沿ったAI開発が可能になります。

将来的には、ユーザー一人ひとりの好みや性格に完璧に寄り添うAIアシスタント、物語の登場人物として一貫した性格を保ち続けるAI、あるいは企業のブランドイメージを体現するカスタマーサポートAIなど、より高度で信頼性の高いAIの応用が期待されるでしょう。「ペルソナ・ベクトル」は、私たちがAIの「個性」を理解し、共に成長していく未来への扉を開く鍵となるのかもしれません。