【コラム】AIのトレードオフ:強力なパワーと危険な潜在的バイアスのバランス

次の記事

中国のコンピューター革命で徹底した改造が行われた経緯、常に「アルファベット」という限界に挑戦してきた中国の技術者たち

新たなAIツールのリリースが続く現在、有害なバイアスが存続するリスクがますます高まっている。特に、今までAIアルゴリズムのトレーニングに使用されてきた社会的・文化的規範の多くが改めて認識された2020年以降、このリスクは増大し続けると考えられる。

膨大な量のトレーニングデータを元に本質的に強力な基本モデルがいくつか開発されているが、有害なバイアスのリスクは残存している。私たちはこの事実を認識する必要がある。

認識すること自体は簡単だろう。理解すること、そして将来のリスクを軽減することははるかに困難だ。AIモデルの開発にともなうリスクをより正しく理解するためには、まずバイアスの根源を確実に知る必要がある。

バイアスの隠された原因

現在のAIモデルは、事前に学習されたオープンソースであることが多く、研究者や企業はAIをすばやく導入し、個々のニーズに合わせて調整することができる。

このアプローチではAIを商業的に利用しやすくなるが、真の弱点もここにある。つまり、業界や地域を問わず、AIアプリケーションの大半が一握りのモデルに支えられているのだ。これらのAIモデルは、検出されていないバイアス、あるいは未知のバイアスから逃れられず、これらのモデルを自分のアプリケーションに適応させることは、脆弱な基盤の上で作業することを意味する。

スタンフォード大学のCenter for Research on Foundation Models(CRFM)が最近行った研究によると、これらの基本モデルやその基礎となるデータに偏りがあると、それが使用されるアプリケーションにも引き継がれ、増幅される可能性があるという。

例えばYFCC100MはFlickrで公開されているデータセットで、一般的にモデルの学習に利用される。このデータセットの人物画像を見ると、全世界(であるはず)の画像が米国に大きく偏っていて、他の地域や文化の人々の画像が不足していることがわかる。

このように学習データに偏りがあると、AIモデルの出力に、白人や欧米の文化に偏るといった過小評価や過大評価のバイアスがかかる。複数のデータセットを組み合わせて大規模なトレーニングデータを作成すると、透明性が損なわれ、人や地域、文化がバランス良く混在しているかどうかを知ることがますます困難になる。結果として重大なバイアスが含まれたAIモデルが開発されてしまうのは当然と言えるだろう。

さらに、基本となるAIモデルが公開されても、通常、そのモデルの限界に関する情報はほとんど提供されない。潜在的な問題の検出はエンドユーザーによるテストに委ねられているが、このステップは往々にして見過ごされる。透明性と特定のデータセットの完全な理解がなければ、女性や子ども、発展途上国の出力結果が偏るといったAIモデルの限界を検出することは困難だ。

Getty Images(ゲッティイメージズ)では、さまざまなレベルの能力を持つ人、性的流動性、健康状態など、実存して生活している人物の画像を含む一連のテストで、コンピュータビジョンモデルにバイアスが存在するかどうかを評価している。すべてのバイアスを検出することはできないが、包括的な世界を表現することの重要性を認識し、存在する可能性のあるバイアスを理解し、可能な限りそれに立ち向かうことが重要だと考えている。

メタデータを活用してバイアスを軽減する

具体的にはどうすれば良いのだろうか?Getty ImagesでAIを使用する際は、まずトレーニング用データセットに含まれる人物の年齢、性別、民族などの内訳を確認することから始める。

幸いなことに、Getty Imagesがライセンスを供与するクリエイティブコンテンツでは、モデルリリース(写真の被写体による当該写真を公表することへの許諾)を要求しているので、この確認が可能である。そして、写真のメタデータ(データを記述する一連のデータ、データに関するデータ)に自己識別情報を含めることで、Getty ImagesのAIチームは何百万枚、何千万枚もの画像を自動的に検索し、データの偏りを迅速に特定できる。オープンソースのデータセットは、メタデータの不足によって制約を受けることが多い。複数のソースのデータセットを組み合わせてより大きなデータセットを作ろうとすると、メタデータの不足という問題はさらに悪化する。

しかしながら、現実としては、すべてのAIチームが膨大なメタデータにアクセスできるわけではないし、Getty Imagesも完璧ではない。より強力なモデルを構築するためにトレーニングデータセットを大きくすればするほど、そのデータに含まれる歪みやバイアスの理解は犠牲になってしまう、という本質的なトレードオフが存在するのだ。

世界中の産業や人々がデータに依存している現在、AI業界はこのトレードオフを克服する方法を見つける必要がある。鍵となるのは、データを中心としたAIモデルをもっと注視していくことであり、その動きは徐々に活発になっている

私たちができること

AIのバイアスに対処するのは簡単ではなく、今後数年間はテクノロジー業界全体で協力していく必要があるが、小さいながらも確実な変化をもたらすために、実務者が今からできる予防的な対策がある。

例えば基本となるモデルを公表する際には、その基礎となったトレーニングデータを記述したデータシートを公開し、データセットに何が含まれているかの記述統計(データの特徴を表す数値)を提供することが考えられる。そうすれば、ユーザーはモデルの長所と短所を把握することが可能で、情報に基づいた意思決定を行えるようになる。このインパクトは非常に大きいはずだ。

前述の基本モデルに関するCRFMの研究では「十分なドキュメンテーションを提供するための、コストがかかり過ぎず、入手が困難ではない適切な統計情報は何か?」という問題が提起されている。ビジュアルデータでいえば、メタデータとして年齢、性別、人種、宗教、地域、能力、性的指向、健康状態などの分布が提供されれば理想的だが、複数のソースから構成された大規模なデータセットでは、コストがかかり過ぎ、入手も困難である。

これを補完するアプローチとして、基本モデルの既知のバイアスや一般的な制約をまとめたリストにアクセスできるようにする。簡単にアクセスできるバイアステストのデータベースを開発し、そのモデルを使用するAI研究者に定期的にアクセスしてもらうこともできるだろう。

この例としては、Twitter(ツイッター)は先ごろ、AIのエキスパートにアルゴリズムのバイアスを検出してもらうというコンペを開催した。繰り返しになるが、認識と自覚はバイアスを緩和するための鍵である。このコンテストのような取り組みが、あらゆる場面でもっと必要だ。このようなクラウドソーシングを定期的に実践すれば、個々の実務者の負担も軽減することができる。

まだ答えがすべて出ているわけではないが、より強力なモデルを構築していくためには、業界として、使用しているデータをしっかりと見直す必要がある。強力なモデルではバイアスが増幅されるから、モデル構築の際に自分が果たすべき役割を受け入れなければならない。特に、AIシステムが実際の人間を表現したり、人間と対話したりするために使用される場合は、使用しているトレーニングデータをより深く理解する方法を模索することが重要だ。

このように発想を転換すれば、どのような規模でもどのような業種でも、歪みをすばやく検出し、開発段階で対策を講じてバイアスを緩和することが可能だ。

編集部注:本稿の執筆者Andrea Gagliano(アンドレア・ガリアーノ)氏は、Getty Imagesのデータサイエンス部門の責任者。

画像クレジット:Hiroshi Watanabe / Getty Images

原文へ

(文:Andrea Gagliano、翻訳:Dragonfly)