Headroom、AIを使ってビデオ会議の質を飛躍的に向上させるために500万ドルのシード資金を調達

次の記事

コロナ禍で大活躍、空間内の人々を匿名で正確に追跡するDensityのOpen Areaレーダー

ビデオ会議は昨今の我々の業務形態を支える要となってきた。主要なビデオ会議システムのZoom(ズーム)にいたっては、世間にあまりに浸透したため、「Zoomする」という動詞が生まれたほどだ。

しかし、だからといってビデオ会議は本来の機能を十分に果たせているのだろうか。果たせていないという確信のもとに、Headroom(ヘッドルーム)という新しいスタートアップが本日、ステルスモードを解除してその姿を現した。AIツールの原動力とも言えるコンピュータービジョン、自然言語処理などを手がけるヘッドルームによれば、先の問いの答えは明らかに「いいえ」なのである。

ヘッドルームは、ビデオ会議システムに加えて、トランスクリプト(文字起こし)機能、要約と見出しを書き出す機能、ジェスチャー認識機能、ビデオ画質の最適化などを提供する。フリーミアムサービスの立ち上げに向けて、同社はシード投資ラウンドで500万ドル(約5億2700万円)の資金調達を行ったと発表した。

ここから、パイロットに参加するための順番待ち名簿に登録したり、その他の最新情報を入手したりできる。

今回の投資ラウンドには、グーグルのAIに特化したベンチャーファンド「Gradient Ventures」(グラディエント・ベンチャーズ)のAnna Patterson(アンナ・パターソン)氏、 視覚技術の企業を支援するスペシャリストVC「LDV Capital」(LDVキャピタル)のEvan Nisselson(エバン・ニセルソン)氏、Yahoo!(ヤフー)の創業者で近年AME Cloud Ventures(AMEクラウドベンチャーズ)を創設したJerry Yang(ジェリー・ヤング)氏、 Morado Ventures(モラド・ベンチャーズ)のAsh Patel(アッシュ・パテル)氏、Kaggle.com(カグル・ドット・コム)の共同創業者でCEOのAnthony Goldbloom(アンソニー・ゴールドブルーム)氏、Cornell Tech(コーネルテック)の副学部長でコンピュータービジョン技術と機械学習の教授でもあるSerge Belongie(サージ・ベロンギ)氏が参加している。

なかなか興味深い顔ぶれだが、それは投資家たち自身が幾年にもわたり最先端の視覚技術を駆使して個人や企業の顧客に向けたサービスを構築し、特筆すべき業績を収めてきたことによるのかもしれない。

英国の移住者であるJulian Green(ジュリアン・グリーン)氏は、つい先日までGoogle(グーグル)に勤務しており、Cloud Vision APIのリリースを統括するなど、同社のコンピュータービジョン製品を手がけていたやり手だ。 同氏がグーグルに入社したのは、自身のスタートアップであるJetpac(ジェットパック)をグーグルが買収したことによるが、ジェットパックはディープラーニング(深層学習)やその他のAIツールを活用して写真を分析し、旅行先を提案するサービスを提供していた。Jetpacの前には、視覚的な対話システムを利用するまた別のプラットフォーム、Houzz(ハウズ)を共同で創業した経歴の持ち主だ。

ロシア生まれのAndrew Rabinovich(アンドリュー・ラビノヴィッチ)氏について言えば、過去5年間、Magic Leap(マジック・リープ)に勤務していた。深層学習のディレクターとエンジニアリングの責任者を経て、AIの責任者を務めた経歴を持つ。マジック・リープに入社する前は、同氏もグーグルに勤務しており、コンピュータービジョンと機械学習を専門とするソフトウェアエンジニアだった。

ビデオ会議システムのサービスを改良する分野への転職という選択は、今年に入ってから起きたこのシステムの急激な需要拡大を考えると、日和見的な動きに見えるかもしれない。しかし、グリーン氏によれば、このサービスの構想を練り、サービスの構築に着手したのは、「新型コロナウイルス感染症」という言葉が存在もしなかった2019年の終わりだと言う。

「もちろん、感染症の大流行によって、ビデオ会議システムの分野への関心は高まった」とグリーン氏は冗談めかして語り、実際、資金調達が非常に容易になったと付け加えた(シード投資ラウンドは7月に終了したとのことである)。

AR(拡張現実)やVR(拡張現実)はビジネス展開が極めて難しいことが判明している。とりわけ短~中期的に難しく、VCから数億ドルの支援を得たスタートアップであっても厳しい。実際、マジック・リープは長い間苦境に立たされていた。また、事業の方向性を転換し興味深いアイデアの数々に手を出すこともできたこと、マウンテンビューの本社に全技術が集結するグーグルにはグーグルの意義があることを考えると、両氏が以前の所属企業に技術を売り込むのではなく、独立してヘッドルームを創設することにしたのは、これまた興味深い。

これには理由が2つあるとグリーン氏は語っている。 1つ目の理由は、物事の構築には小さな組織の方が効率が良いことだ。「スタートアップのスピードに合わせて動けるのはとても良い」と同氏は述べている。

2つ目の理由は、物事を一から構築していく場合、従来のプラットフォームを使うと新しいプラットフォームとは異なる課題が生じることだ。

ビジネスユーザー向けのMeet(ミート)や一般ユーザー向けのHangouts(ハングアウト)の開発チームにアイデアを持ち込むことは考えなかったのはなぜかと尋ねると、「グーグルであれば、やりたいことは何でもできる。ただし、ビデオ会議システムでリアルタイムのAIを実行するには、開発当初からそれを念頭に置いて構築しておく必要がある。ヘッドルームでは最初からそのように開発を始めた」とグリーン氏は回答した。

ヘッドルームの面白みは、何と言ってもその課題にあるようだ。サービスがいたるところにあふれ、テレワークが主流の状況下では、ビデオ通話を利用することにさほど抵抗がなかった一方、良くも悪くも、すでに使用しているものに慣れ親しんでいるということでもある。それで、1つ2つのサービスに課金してプレミアムユーザーとなっている多くの企業は、新しくて実績があまりないプラットフォームを試すことに乗り気ではないというのが実情だろう。

しかし、テクノロジー業界が往々にしてそうであるように、後発者が報われることもあり、先発者が常に勝者とは限らない。

ヘッドルームの初回のイテレーションでは、会話の内容をすべて自動的に書き起こすトランスクリプト(文字起こし)機能、トランスクリプトで間違っている箇所をビデオを再生して編集できる機能、通話内容の要点を書き出す機能、およびジェスチャーを認識して会話が切り替わるタイミングを見極める機能が提供される。

グリーン氏によれば、同社は今後のイテレーションで追加する機能の開発もすでに始めているということだ。ビデオ会議でプレゼンテーションの補足資料を使用する際にも、要点を書き出したり文字起こしをしたりするエンジンを利用できる。

また、画面のピクセルを最適化して、ビデオ画質を大幅に向上させる機能も開発しているとのことだ。この機能はインターネットへの接続状況が悪いときに特に重宝すると考えられる。
グリーン氏は、「ビデオ会議の画面のどこに何のピクセルがあるかを特定し、適切なピクセルを送信できる。画面内の人や背景はそれほど変化するものではないので、そうしたものを常時送信する必要はないのだ」と語っている。

こうした機能はすべて、高度なコンピュータービジョンと自然言語アルゴリズムのとても興味深い側面のいくつかを利用したものだ。たとえば、要約の作成機能では、発言内容を認識するだけでなく、発言の最も重要な部分を抽出する技術を利用している。

また、ビデオ通話で、話に直接割り込まずに、発言したいという意思を表示するのに苦労した経験があると、ジェスチャー機能が非常に有効である理由を理解できる。

この機能は、聴衆の注意が散漫になっているかどうかを発言者が確認するためにも役立つ。発言したいと思っている参加者のジェスチャーを検出するためにヘッドルームが使用しているのと同じ技術で、聴衆が退屈したりイライラしたりしていることを検出し、発言者に知らせることができるのだ。

グリーン氏が「要はEQのサポートだ」と言った時に半分からかっているように見えたが、対話に使用していたグーグルミートには表情を読む機能がないため、勘違いかもしれない。

グリーン氏の言葉から、ヘッドルームが興味深いビジネスチャンスを活用する理由がうかがえる。このようなツールがその真価を遺憾なく発揮すると、ビデオ会議の質を飛躍的に向上させるだけでなく、対面式の会議で起こり得る問題を解決できる可能性さえ秘めているのだ。実際に「本物」よりも優れているかもしれないソフトウェアを構築することは、現在の状況(永続的なものではないことを願うが)において高まる需要に対応できる底力を実証する1つの形なのである。

関連記事:Twilioはいかにして社内で独自の会議プラットフォームを構築したのか
カテゴリー:ネットサービス
タグ:リモートワーク ビデオチャット 資金調達

[原文へ]

(翻訳:Dragonfly)