Kaggle

江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

次の記事

次世代型テーマパーク「リトルプラネット」が「レーザーミニ四駆」向けにXR技術採用したデジタルコース開発に着手

データサイエンス共同利用基盤施設(ROIS-DS)人文学オープンデータ共同利用センター(CODH)は8月30日、江戸時代の版本に書かれているくずし字を現代の書体に変換(翻刻)するアプリ「みを」(miwo)を無料公開した(Android版iOS版)。開発者は、カラーヌワット・タリン氏。共同開発者は北本朝展氏とMikel Bober-Irizar氏。共同研究者はAlex Lamb氏、Siyu Han氏。

AIくずし字認識については、CODH開発の「KuroNetくずし字認識サービス(AI OCR)」および「Kaggleくずし字認識コンペ」1位のtascj氏が開発したくずし字認識モデルを用いている。また両AIモデルの学習には、同センターが開発し国文学研究資料館が公開している「日本古典籍くずし字データセット」を利用。Flutterを活用したクロスプラットフォーム開発により、Android・iOS対応アプリを作成した。

みをでは、カメラでくずし字を撮影し、画面下中央の「認識ボタン」をタップすると、ほぼ瞬時にして画像の個々のくずし字の上に、対応する現代の書体が緑色で示される。画面下のスライダーを動かすと、翻刻されたレイヤーを部分的に隠せるので、原文との比較がしやすくなる。まだ完ぺきではないとCODHも言っているように、実際に使ってみると、たまに文字が抜けたり違っていたりもするが、まったくくずし字が読めない人間にすれば、かなりの助けになる。

原文または翻刻された文字をタップすると両方の対応する文字にマーカーが付く。また画面右上の四角形のアイコンをタップすると、認識したすべての文字が四角形で囲まれる。四角形は色分けされ、どの文字がどれに対応しているのかがわかるようになる。

またCODHのくずし字データセットと連携し、認識結果に疑問を抱いた際には、くずし字の用例を確認できる。

江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

CODHによれば、くずし字が読める人は、日本の人口のわずか0.01%程度(数千人程度)だという。歴史的資料は大量にあるものの、くずし字を読める人が少ないために翻刻には大変な時間がかかるのが現状だ。そこで、AIを使った翻刻システムを開発しようと考えたとのこと。アプリ名の「みを」は、「源氏物語」の第14帖「みをつくし」に由来する。航路を示す標識「澪標」を意味するが、「人々の水先案内となるように、「みを」アプリがくずし字資料の海を旅する案内となることを目指しています」とCODHは話している。