くずし字を自動判別してくれるOCR技術を凸版印刷が開発したという話

| コメント(0)
凸版印刷の開発した技術は、書物のくずし字を自動で判読し、テキストデータ化することを可能にするもの。2014年に実施した検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することができたとのこと。OCRで判読した文字は専門家によって校正・校閲され、その結果はくずし字のデータベースにフィードバックされます。

明治以前、場合によっては明治期も含め、昔の書籍に使われているくずし字。言葉は悪いけれどミミズが這いつくばったようなうねうねした感じで、部分部分は文字の判別が出来るけれど、全体的な内容把握は素人には非常に難しい。日本語のみの知識で中国語を読むとか、英語がそこそこ出来る人がドイツ語を読むような感じ。あるいは精度の悪い自動翻訳ソフトを使った時みたいな。

で、昨今ではOCR技術も発展し、データの蓄積がなされ、随分と精度が向上している。要は印刷されているものをデータ化した上でパターン分析し、該当する文字のに差し替えるわけだから、普通の日本語でも英語でも、そしてくずし字でも出来るやろ、という話。あとはデータの蓄積次第。この方法なら、そして言語形態が同じなら、対応表さえ取得出来れば他の言語でも似たような話はできるはず。

今件は本文説明の通り、ベイズ理論的に逐次データが改善化されていくので、数年もたてば精度はさらに上昇していくはず。今後古典方面の学問も随分と進むことになる、かもしれない。


......もちろんデータ補正を行うサイドからは、こんな悲鳴も聞かれるけれど(汗)

関連記事             

コメントする

            
Powered by Movable Type 4.27-ja
Garbagenews.com

この記事について

このページは、不破雷蔵が2015年7月12日 07:35に書いた記事です。

ひとつ前の記事は「「顧客の声を聞いていたら製品がどんどんダメになる」という話」です。

次の記事は「同じ内容を同時につぶやく大量のアカウントの存在理由を推測する」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

* * * * * * * * * * * * * *


2021年6月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30