紙の帳票のデジタル化に今でも使われているOCRをやや賢くするAmazon Textract

次の記事

推論過程をGPUで加速するAmazon Elastic Inferenceはディープラーニングのコストを75%削減する

ほとんどの企業が困ってることのひとつが、各種の伝票をはじめ、いろんな書式(フォーム, form)をデジタル情報に変えて、保存したりソフトウェアで処理したりすることだ。よくあるやり方は、人間の事務職員がコンピューターにデータ入力すること。最新技術を使う方法としては、OCRに書式を自動的に読ませるやり方がある。

しかしAWSのCEO Andy Jassyに言わせると、OCRは要するに無能な読み取り機にすぎない。それはテキストのタイプなどを認識しない。それを変えたいAmazonは今日(米国時間11/28)、Amazon Textractという、ややお利口なOCRツールを発表した。これなら書式上のデータを、もっと使いやすい形でデジタル化してくれそうだ。

Jassyが例として見せたのは、表のある書式だ。通常のOCRは表を認識しないから、表の各欄の枠を超えて、ひとつのテキストとして読み出す。Textractは、表などの、よく使われる成分を認識して、妥当な形でデータを取り出す。

Jassyによると、書式はよく形が変わるので、OCRの無能を補うためにテンプレートを使っていても、形が変わるとテンプレートは役に立たない。一方Textractは、よく使われるデータタイプ、たとえば社会保障番号、誕生日、住所などなどを知っているので、それらがどんな形で収まっていても正しく解釈できる。

“Textractには、この形の文字集合なら誕生日、これなら社会保障番号、等々と教えてあるので、書式が変わってもそれらを見逃さない”、とJassyは説明した。

more AWS re:Invent 2018 coverage

[原文へ]
(翻訳:iwatani(a.k.a. hiwa