MicrosoftのCaptionbotは画像のキャプションを作り出す未来的AI、デベロッパーにオブジェクト認識APIを提供

次の記事

2016 SXSW日本勢の展示から──AR風のスマートグラス、IoTシャツ、スマート浄水器、うつ病支援などが競う

クラウドの力は私たちの多くにとってそれほど明瞭ではないが、しかしMicrosoftは、デベロッパーに一連のAPIツールを与えることによって、この事態を変えようとしている。そのスイートはCognitive Services〔複数形〕と呼ばれ、デベロッパーに彼らのソフトウェアを大幅にスマートにする能力を与える。たとえばその中には、ユーザーが訓練できる音声テキスト変換処理や、高品質でまるでマジックのようなオブジェクト認識がある。

Drizzle a bit of API-enabled artificial intelligence on your applications with Microsoft's new Cognitive Services.

MicrosoftのCognitive Servicesを使ってAPIによる人工知能機能をあなたのアプリケーションにちょいと加えよう。

Cognitive Servicesのスローガンは、“あなたのアプリケーションに人間性を(give your apps a human side)”だ。つまりそれは、デベロッパーが自分のアプリケーションに利用するAPIの集合だ。今年のBuildカンファレンスで紹介された二つのデモのひとつが、新作のオブジェクト認識エンジンで、たぶんそれはProject Oxfordをリプレースするのだろう。このAPIのデモとしてMicrosoftは、Captionbot.aiというものを作った。これは、やり始めるとやめられなくなるかっぱえびせん的アプリケーションで、しかもSF的なすごさもある。〔自分の手元にある写真をいろいろアップロードしてこのAIと遊ぶ—猫を“猫”と認識するから、けっこうすごい。〕

もうひとつのデモは、スピーチなどの音声からテキストを書き起こす音声認識ツールの、APIの用例だ。低品質のオーディオでも認識できるが、このAPIのキモはユーザーが訓練して自分の目的に合った“書き起こし屋”さんを作れることだ。たとえば、アクセントに癖のある某氏用とか、子ども用、特定のノイズに邪魔されているスピーチ用、などだ。最後のは、たとえば高速道路のドライブスルーなど、騒音の多い環境で使えるだろう。

今年のBuildで見たあらゆるデモの中で、Cognitive Servicesのそれらは、いちばん未来的と言っても大げさではない。今後デベロッパーたちがこれを使って何を作るか、非常に楽しみだ。

〔参考記事: Googleの画像認識API。ほかにも、AlpacaDB(Labellio)など。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))