OCRの精度向上と自動認識入力の効率化と

| コメント(0)


昔はスキャナから取り込んだグラフィックデータをテキスト化してデータとして取り扱いやすくするOCR的な作業の効率も80%前後だったりした時代もあって、なんだこりゃ意味が無いじゃないかという笑い話と共に、分析技術とスキャナの性能がアップすれば、この精度ももりもり上がっていくんだろうなあという予見もあったり。

現状では90%台の後半ぐらいを行き来している状況で、まだまだ精度は上がっていく気配はあるのだけど、取り込む対象の状況や取り込み環境、さらには書かれているテキストのフォントや状態で大きく揺れ動く感じだったり。

で、これは実際にやってみると実感できるのだけど、中途半端に間違った文書に目を通して調整するぐらいだったら、最初から自分で打ち込んだ方が早いってのは、真理ではあったりする。OCRでの読み取りのミスは規則性が無いので、どこが間違っているのか分からないから、全部いちいち読み通していかなきゃならない。90%の精度だったら10文字に1文字間違っているということになるので、そのレベルの文書を修正していくのは、正直いって地獄ではある。


お仕事として翻訳をする場合も同じこと。機械に投げてもいいやというレベルのものならそれでいいのだけど、そうでない場合にはちゃんと精査しなきゃならないので、その精査はかえって面倒くさくなるから、いちから全部自分でやった方が早いという。

精度95%だとしても20文字に1文字。98%なら50文字に1文字。どれぐらいの精度なら「間違いを正していった方が早いし手間がかからないのでいいや」って判断ができるようになるのだろうか。

関連記事             

コメントする

            
Powered by Movable Type 4.27-ja
Garbagenews.com

この記事について

このページは、不破雷蔵が2019年3月 3日 07:59に書いた記事です。

ひとつ前の記事は「SNSの複数アカウント化」です。

次の記事は「生活の質の向上には温かい食事」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

* * * * * * * * * * * * * *


2019年3月

          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31