自然言語処理を簡単にアプリ実装できる「NLPCloud.io」のプラットフォーム

次の記事

薬局体験アシスタント「Musubi」のカケハシが全国規模の導入基盤構築でNTT東日本と提携

企業は、従業員のためにソフトウェアを構成するプロ集団が社内にいなくても、ビジュアル型「ノーコード」ツールの助けを借りてコンピューティングを上手く活用できる。しかし「ディープテック」である人工知能(AI)領域の現場で非常に強力なテックツールを活用するには、やはりまだ専門家の助け(または高い給料を払って社内にプロを雇うこと)が必要だ。

このニーズに着目した創業者が単独で起業し、MLOps(機械学習基盤)やAIOps(人工知能によるIT運用)の分野で「サービスとしてのコンピュートプラットフォーム」(自前のサーバーでクエリを実行するためこう呼ばれる)を提供しているのが、フランスのスタートアップNLPCloud.io(NLPクラウド)だ。社名からわかりとおり、自然言語処理(NLP)に焦点を置いている。

人工知能の進歩により、近年、NLPの分野は目覚ましい進展を遂げてきた。NLPとは、固有表現認識、センチメント分析、テキスト分類、文章要約、質問応答、品詞タグ付けなどのタスクを自動化することにより、企業があらゆるコミュニケーションに人工知能を活用して取り組むためのキャパシティーを拡大するテクノロジーだ。人間がこういった作業をしなくてよくなるので、スタッフはもっと複雑で繊細さが求められる仕事に集中できる(だが、NLPに関する研究の大部分は英語に集中しているため、このテクノロジーが最も進んでいる言語は英語であり、この分野におけるAIが世界全体で一様に進歩しているわけではないことは強調しておく)。

「追加開発なし」で使える実運用対応(事前トレーニング済み)の英語向けNLPモデルはすでに利用可能である。また、トレーニングモデルを専門に提供しているオープンソースフレームワークもある。とはいえ、企業がNLPを活用するには依然として、NLPモデルを実装するためのDevOps(開発運用)リソースと高い技術を自前で確保することが必要だ。

NLPCloud.ioは、企業が実装にともなう課題で苦労しなくて済むよう「実運用対応のNLP API」を「DevOps不要」といううたい文句で提供している。

このAPIのベースとなっているのは、Hugging Face(ハギング・フェイス)とspaCy(スペイシー)のオープンソースモデルである。顧客は、実運用対応のトレーニング済みモデルを使うこともできるし(つまりNLPCloud.ioのAPIが「ベスト」なオープンソースモデルを選択してくれる。NLPCloud.ioがモデルを構築するわけではない)、社内のデータサイエンティストが開発した独自のカスタムモデルをアップロードして使うこともできる。NLPCloud.ioによると、これこそが、Google Natural Language(GoogleのMLモデルを使用)やAmazon ComprehendおよびMonkey LearnなどのSaaSサービスと差別化できる点であるという。

関連記事:自然言語処理ライブラリをオープンソースで提供するHugging Faceが43.6億円調達

NLPCloud.ioは、NLPプロジェクトを「適正価格ですばやく」完成させることができるよう開発者やデータサイエンティストをサポートすることによって、NLPの民主化を図っているという。価格体系は分単位のリクエストに基づくモデルとなっている。カスタムモデル1つをGPU1台で実行する場合、企業側が支払う料金は1分あたり39~1199ドル(約4260〜約13万930円)だ。また、無料利用枠もあり、低速度でモデルをテストするだけであれば、無料で利用できる。

NLPCloud.ioを単独で創業し、CTOを務めるJulien Salinas(ジュリアン・サリナス)氏は次のように語る。「デプロイから実運用段階に上手く移行できずに失敗したAIプロジェクトをいくつも見てきたソフトウェアエンジニアとしての経験から、NLPCloud.ioを起業するアイデアを思いつきました。正確で高速なAIモデルの構築に注力する企業が数多く見受けられますが、最近は、かなり使える優秀なオープンソースモデルがどんどん出てきています。現時点で最大の課題は、それらのモデルをいかにして実運用で効果的に使うか、という点です。そのためにはAIスキル、DevOpsスキル、プログラミングスキルが必要ですが、これらのスキルが社内にない企業はたくさんあります。それで、NLPCloud.ioを起業することにしました」。

アルプス山脈に囲まれたフランスの山岳都市グルノーブルに拠点を置くNLPCloud.ioは社員3名のスタートアップだ。社外の独立した請負業者も数名使っている(サリナス氏によると、2021年の年末までに社員をあと5名増員する計画だという)。2021年1月にローンチされたNLPCloud.ioのプラットフォームは現在すでに500ユーザーを抱えており、そのうちの30は有料ユーザーだ。

TechCrunchの取材に対し、サリナス氏は次のように語ってくれた。「ユーザーのほとんどはテック系スタートアップですが、最近はもっと規模が大きい企業数社にもご利用いただけるようになりました。ソフトウェアエンジニアとデータサイエンティストからの引き合いが一番大きく、データサイエンスのスキルはあるがDevOpsスキルがない(あるいはそこに時間をかけたくない)チームからも、ときどき引き合いがあります。データサイエンスのチームを丸ごと雇わずに追加開発なしでNLPを活用したいと考えている技術チームにご利用いただくこともあります」。

「単独創業のスタートアップから、BBVA、Mintel(ミンテル)、Seuto(セウト)などの大企業まで、とても幅広い客層にご利用いただいています。業界も、バンキング、PR、市場調査などさまざまです」とサリナス氏は付け加えた。

顧客のユースケースの例としては、(ウェブページなどの)非構造化テキストからの固有表現抽出によるリードジェネレーションや、センチメント分析で判別された緊急度に基づくサポートチケットの分別などがある。

サリナス氏によれば、ユーザーの中には、(自動要約を介した)トピック生成にNLPCloud.ioのプラットフォームを使用しているコンテンツマーケターもいるそうだ。また、同プラットフォームのテキスト分類機能は経済情報および財務データの抽出に使用されている。

サリナス氏は、CTOとしての経験や、数多くのテック企業のNLPプロジェクトに関わるソフトウェアエンジニアとしての経験を通じて、AIの実装に関する課題解決にビジネス機会を見い出したと語る。

サリナス氏は次のように説明する。「spaCyやHugging Face Transformersなどの優れたオープンソースフレームワークのおかげで、条件に合うNLPモデルの構築は比較的簡単にできます。しかし、それらのモデルを実運用で使えるようにすることが非常に難しいことに気づきました。APIを開発するにはプログラミングスキルが必要ですし、NLPモデル(たいていのAIモデルは、大量のリソースを消費する)に対応する強固で高速なインフラストラクチャを構築するには、かなりのDevOpsスキルが必要です。もちろん、データサイエンスのスキルも必要になります」。

「追加開発なしで使えて、数週間分の作業時間を削減できるようなクラウドソリューションを探しましたが、納得できるものは見つかりませんでした。そういうプラットフォームがあれば、技術チームは時間をかなり節約できると直感しました。強力なDevOpsスキルを持つ人材がいなければ数カ月かかることもある作業を削減できるのです」。

サリナス氏は次のように続ける。「NLPが世に出て数十年が経ちますが、最近までは、データサイエンティストのチーム全員が集まらなければ、条件に合うNLPを構築できませんでした。ここ2年ほどで、NLPモデルは正確性と速度の面ですばらしい発展を遂げました。NLPの分野に何十年も関わっている専門家たちの間でも、NLPは『コモディティ化』しつつあると考える人が増えています。spaCyなどのフレームワークにより、開発者は、高度なデータサイエンスの知識がなくてもNLPモデルを非常に簡単に活用できるようになりました。また、Hugging Faceのオープンソースレポジトリも、NLPモデルの発展に大きく寄与しています」。

「しかし、そのようなモデルを実運用段階で実行するのは今でも難しく、さらに、spaCyやHugging Faceの新しいモデルは大量のリソースを消費するため、実運用へのハードルはこれまで以上に高くなっています」。

サリナス氏によると、NLPCloud.ioは、パフォーマンス面で「正確性とスピードのバランス」が「ベスト」なものを選んで提供している。さらに、NLPはさまざまなユースケースに応用できるため、コンテキストにも注意を払い、それぞれのケースに対応できるよう複数のモデルを提案しているそうだ。

「最初は固有表現抽出を専門にしたモデルからスタートしましたが、当時のお客様のほとんどから他のユースケースについても問い合わせをいただいたため、他のモデルも追加することにしました」と同氏は語り、さらに多くのユースケースや言語に対応できるよう、spaCyとHugging Faceのモデルを継続的に追加していく、と付け加えた。

サリナス氏によれば、NLPCloud.ioのAPIを通じて提供されるモデルをspaCyとHugging Faceから選ぶことに決めた理由は、企業として優れた実績があったこと、NLPライブラリが充実していたこと、実運用フレームワークに特化していたことだったという。これらの特徴により、NLPCloud.ioは、それぞれのトレードオフの範囲内で、高速かつ正確なモデルを選択して提供できる。

サリナス氏は次のように説明する。「spaCyは、Explosion.aiというドイツの実績ある企業が開発していて、(学究的な目的のみではなく)『リアルに』NLPを運用したいと考えている企業の間で最も広く利用されているライブラリの1つです。高速で、ほとんどのシナリオで高い正確性を発揮し、しっかりと方向づけられたフレームワークであり、データサイエンティストでなくても、とても簡単に使用できます」。

Hugging Faceは、Explosion.aiよりもさらに安定した企業で、その実績から最近、4000万ドル(約43億5700万円)を調達しました。Hugging Faceは、NLPモデルの正確性を大幅に向上させる驚異的なNLPライブラリ『Transformers』を作り出しました(リソース消費量が相当多いというトレードオフはありますが)。これで、センチメント分析、分類、自動要約など、さらに多くのユースケースに対応できるようになります。Hugging Faceはさらに、それぞれのユースケースにベストなモデルを簡単に選べるオープンソースレポジトリも作成しました」。

関連記事:自然言語処理ライブラリ開発のHugging Faceが約16億円調達

英語のNLPなど、AIは一定の方向で急速に進歩を遂げているが、言語処理と分析の自動化に付き物である問題や落とし穴が潜んでおり、間違いを発生させたり事態を悪化させたりするリスクが存在する。例えば、人間が作成したデータでトレーニングされたAIモデルには、トレーニングの基盤となるデータを集めた人の偏見や差別意識が反映されることが判明している。

NLPが差別や女性蔑視などの「懸念すべき偏見」を示す場合があることを、サリナス氏は認めている。しかし同氏は、NLPCloud.ioが選んだモデルについては信頼しているようだ。

サリナス氏は次のように説明する。「たいていの場合、NLPが示す偏見は、そのモデルをトレーニングするのに使われた基盤データに由来しているようです。そのため、データの出どころにもっと注意を払う必要があります。これは私見ですが、この問題を解決するための最善な方法は、何らかのモデルの使用中に不適切な挙動を発見したら、NLPユーザーのコミュニティがそれを積極的に報告することだと思います。そうすれば、そのモデルの運用を一時的に止めて修正できます」。

「当社が提案しているモデルにも、そのような偏見が存在している可能性がありますので、不適切な点を見つけたら報告していただくようユーザーの方々にお願いしたいと思います。その報告に基づいて当社でも対応策を講じていきます」と同氏は付け加えた。

カテゴリー:人工知能・AI
タグ:NLPCloud.io自然言語処理機械学習フランス

画像クレジット:Ledi Nuge / Getty Images

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)