OCRとは
OCRとは、「Optical Character Recognition(光学文字認識)」の略で、紙や画像上にある文字情報をデジタルデータとして認識・読み取る技術のことである。具体的には、スキャナやカメラで読み取った文書や画像ファイルに含まれる文字を自動で識別し、コンピュータが読み取り可能なテキスト形式に変換するものである。OCRは、印刷文字だけでなく、手書き文字の認識にも対応することができる。なお最近では、AI(人工知能)技術と組み合わせることによってさらに精度が向上している。
OCRが注目される背景
近年、ビジネスにおけるDX化やデジタル化が進む中、OCRは業務効率化、ペーパーレス化に効果が期待できる技術として広がっている。特にペーパーレス化を促進する上でOCRは非常に大きな役割を果たしており、環境保全への取り組みや、働き方改革の一環としてテレワークやリモートワークへの対応にも貢献している。
また、2022年1月に改正された電子帳簿保存法では、業務や経理に必要な帳簿や書類などを、電子データで保存することを定めている。それまで紙で保管していた請求書や領収書などの帳票をデータ化するため、人の手でデータ入力をする作業が必要となり、多くの会社が対応に迫られた。こうした問題に対し、OCR機能で紙の書類を自動でデータ化することで手間や時間を削減することができ、法令への対応もしやすくなるため、そのメリットが注目されるようになった。
OCRの仕組み
OCRの仕組みは、主に以下のようなプロセスに分かれて解析が行われる。
- 画像のスキャン
まず最初に、画像ファイルやスキャンされたドキュメントから文字を認識するための事前準備が行われる。文字を識別する前に、あらかじめ画像の解像度を調整したり、ノイズを除去したりして、認識精度が上がるように画像のクオリティを改善する。
- 特徴抽出
次に、前処理が完了した画像から文字を識別するための「特徴抽出」が行われる。ここでは文字の形状や線の太さ、傾きなどを検出し、特定のパターンや特徴を取得する。
- 文字認識
特徴が抽出されたら、次は「文字認識」を行う。OCRエンジンは、取得した特徴を既存の文字パターンと照合し、どの文字に最も近いかを判別する。このプロセスで、手書きや印刷文字など異なるフォントに対応する認識精度が試される。
- 後処理
最後に、データに変換したテキストを、Excel、PDF、テキストデータ等のコンピュータで使えるファイルにして出力する。
これらの一連のプロセスにより、画像上の文字をテキストデータとして扱うことができるようになる。
OCRとAI OCRの違い
現在は、機械学習やディープラーニングを活用したOCRも登場しており、特にAIを用いた「AI OCR」では、より高精度な認識が可能になっている。通常のOCRの精度は、上記の仕組みで解説したように、登録されたパターンに依存している。特定のフォントや印刷文字に対しては高い精度を発揮する一方、手書き文字や特殊フォント、ノイズの多い画像では認識精度が低下することがある。
一方、AI OCR(AI-powered OCR)の文字認識技術では、従来のOCRにAIの人工知能技術を組み合わせている。画像中の文字の特徴を学習し、データのパターンをAIが継続的に分析することで、異なるフォントや筆跡、ノイズの多い画像でも高精度に認識できるように設計されている。そのため、従来のOCRに比べて柔軟で、様々なパターンの文字や手書き文字の認識精度を向上させることができる。
OCRを導入するメリット
以下では、OCRを導入することで得られるメリットについて紹介する。
業務の効率化
OCRを導入することで、業務効率化とデータのデジタル化を大幅に進めることができる。従来の紙の書類を扱う業務では、手動での入力作業が多く、人手や時間が必要という課題があった。しかし、OCRを利用することで紙媒体からデジタルデータへの変換が自動化され、業務の高速化を実現することができる。また、OCR機能でデータ化を自動化することによって、手入力の場合に比べて入力ミスや記入漏れが減り、データの正確性も向上する。そのため、確認や修正作業にかかる手間を軽減することができる。
コストの削減
OCRによって文書をデータ化することで、コピー用紙やインク代などの印刷コストを削減することができる。また、物理的な書類の保管スペースが不要になるため、省スペース化にもつながり、その分の管理・運用コストを削減することができる。
検索性の向上
OCRによって紙の書類や画像に含まれる文字情報がデジタルデータに変換されることで、データの検索性が大幅に向上する。例えば、必要な情報をキーワードで即座に検索できるようにすることで、膨大な書類の中から該当する項目を手作業で探す手間が省け、情報へのアクセスがスムーズになる。特に大量の文書を扱う企業では、検索性が高まることで膨大な情報の中からデータを素早く引き出せるため、業務スピードの向上や迅速な意思決定にも貢献する。また、OCRによってデジタル化されたテキストデータは、検索エンジンやデータベースと連携しやすいため、社内での文書管理を効率よく進めることができるようになる。
書類修正の効率化
OCRを用いてデジタル化された文字列は、テキスト編集が可能になる点もメリットである。例えば、紙の契約書や報告書をデジタル化した後で内容に修正が必要な場合、デジタルデータなら直接編集ができるため、新たに書類を作成し直す必要がなくなる。これは特に、頻繁に更新が必要な書類やフォームなどにおいて有用である。また、修正したデータをそのまま再保存できるため、書類の最新状態を常に保つことができ、情報管理の精度が向上する。
OCR機能が使えるOSS
以下では、OCR機能を提供するOSSについて紹介する。
Tesseract
Tesseractは、OSSのOCRエンジンである。1985年にHP社によって開発が始まり、2005年にオープンソース化された後、Googleによって開発が行われた。
全文検索エンジンFessとTesseractの連携
Fessとは、CodeLibsというプロジェクトで開発されているオープンソース全文検索システムである。Webサイト内やファイルサーバ内のファイルに対し、高速な全文検索を行うことができる。また、さまざまな種類のファイル形式や検索方法に対応し、検索条件の絞り込みも行える。そのため、探したいファイルを瞬時に見つけることができる。専用のWebインタフェースからユーザやグループごとの閲覧権限を設定することも可能なため、本来見ることができないファイルが検索結果に表示されることを防ぎ、企業内でも全文検索を安心して使うことができる。
Fessは、高速な全文検索を実現するため、対象フォルダに定期的にアクセスしてファイルの内容を取得し、インデックスを生成する。このインデックス生成時にTesseractと連携することで、OCR技術で読み取ったPNGやPDF(画像)に含まれる文字情報も全文検索の対象とすることができる。デージーネットの調査結果では、1/4倍まで縮小コピーされた文書でも十分に読み取り可能であることが分かっており、紙の書類をスキャンした場合でも高い認識率で文字を検索することができる。ただし、手書きの文章の場合は認識率が低くなる可能性がある。
FessのOCR機能については、以下の記事で詳しく解説している。
デージーネットの取り組み
デージーネットでは、OCR機能を付加したFessの全文検索システムの構築サービスを行っている。Fessでは、検索対象のファイル数や容量が多くなると、チューニングが必要となったりクローリングに時間がかかったりすることから、システム構成やクローリング設定にも工夫が必要となる。デージーネットでは、システム構成やクローリング設定のほか、オンプレ型やクラウド型環境への対応など、お客様のご要望に応じた最適な全文検索の環境を構築している。
また、弊社で構築したシステムの場合、導入後の支援として保守サポートも提供している。このサービスでは、使い方から運用方法まで幅広い範囲でのQ&Aや、セキュリティ情報の提供、障害調査など、導入後も安心して利用して頂けるよう管理者の運用業務をサポートしている。
【カテゴリ】:AI  ファイルシステム  
【Webセミナー】Rocket.Chatだけじゃない!OSSビジネスチャットの最新情報
日程: | 12月19日(木)Webセミナー「BigBlueButton」を使用します。 |
内容: | Rocket.Chatの機能制限でお困りの方も必見!ライセンスフリーで利用できるOSSのビジネスチャットを紹介します。 |
ご興味のあるかたはぜひご参加ください。 |