全文検索システムのFessとOCRのTesseract
OSS研究室 大野 公善
今回はOCRを実装するためのオープンソースをご紹介します。
OCRは、印刷されたドキュメントをイメージスキャナ等で読み取って、ドキュメントに記載されている文字を、コンピュータが利用できるデータに変換する技術です。かつては、FAXで送信されてくるドキュメントを自動的にデータベースに登録したり、スキャナで読み込んだドキュメントを自動的にデータベースに登録したりするシステムでOCR技術がよく利用されていました。
現在は、様々な企業でペーパーレス化が推進されています。ここで検討が必要になるのは、過去に作成されて、印刷物しか存在しないドキュメントをどのように扱うかということです。ペーパーレス化を推進するには、ドキュメントをスキャナで読み込んでPDFファイル化してファイルサーバに保存する、という方法が一般的です。しかしファイルサーバに保管されたこれらのドキュメントをどのように検索するか課題が残ります。
そこで活躍するのがOCR技術と全文検索システムです。印刷されたドキュメントをスキャナで読み取り、OCRでそのドキュメントにかかれている文字を読み取ります。そして、全文検索のインデックスとして登録しておきます。これができれば、過去のドキュメントを全文検索で探すことができるようになります。
今回紹介するオープンソースは、全文検索システムのFessとOCRのTesseractです。Fessは全文検索のインデックスを作成する時にTesseractと連携することができます。画像ファイルに含まれる文字をTesseractのOCR技術を使用して読み取り、Fessの全文検索のインデックスとして登録します。この仕組みを使用すれば、スキャナで読み取ったドキュメントを全文検索の対象とすることができます。ただし、手書きの文章の場合は認識率が低くなる可能性があります。
Fess + Tesseract を使用すると、業務改善の向上を期待することができます。過去のドキュメントをPDF化してファイルサーバに保存することで、ペーパーレス化を推進できます。その時、全文検索+OCR技術を使用することで「必要な情報を探しにくかった」という課題を解決できます。欲しい情報をすぐに検索して入手できるようになります。
また、FessとTesseractはオープンソースソフトウェアですので、ライセンス費用は必要ありません。そのため運用コストの削減も期待できます。
デージーネットでは、FessとTesseractを組み合わせたシステムの動作検証を行ないました。ドキュメントをスキャンする時の解像度やドキュメントの文字の大きさによる認識率の比較等を行っています。検証結果は調査報告書にまとめて公開しています。ぜひダウンロードしてご確認ください。
関連ページ
OCR機能で文書画像の全文検索
OCR(Optical Character Recognition 光学文字認識)とは、手書きの文字や印刷された文字をスキャナやカメラ等で読み取り、コンピュータで利用できるようにテキスト化するための技術です。ここでは、全文検索システムFessに追加されたOCR機能を紹介します。
デージーネットからのお知らせ
脱PPAPへ、パスワード付きZIPファイルに代わるセキュリティ対策セミナー
今回は、パスワード付きZIPファイルに代わるセキュリティ対策をご紹介します。
- 日程:2022年5月19日(木)
- 時間:15:00〜16:00
詳細↓↓
https://www.designet.co.jp/seminar/seminar.php?seminar_id=68
サポート品質の向上ができる!OSSの問い合わせ管理システム CuMAS紹介セミナー
今回は、OSSの問い合わせ管理システムをCuMASの特徴や機能、利用事例を紹介します。
- 日程:2022年5月25日(水)
- 時間:15:00〜16:00
詳細↓↓
https://www.designet.co.jp/seminar/seminar.php?seminar_id=67
2022年ゴールデンウィーク休業期間について
https://www.designet.co.jp/info/?id=512
無料資料ダウンロードに【Jitsi調査報告書_2022年版】を掲載しました。
Jitsiはオープンソースのビデオ会議システムです。リモートワークなどで、離れた場所にいるメンバーとの会議などに活用できます。自組織専用のシステムを構築できるため、安心して使えるビデオ会議システムを提供することができます。また、Jibriという録画ができるコンポーネントと連携して会議の録画も行うことができます。本書は、Jitsiについて調査した内容をまとめたものです。
https://www.designet.co.jp/download/#remotework
進捗状況の可視化で対応漏れを防ぎ業務効率を改善 問い合わせ管理システムのクラウドサービス『CuMAS cloud(カマスクラウド)』 2022年5月1日より提供開始
https://www.designet.co.jp/info/?id=508
メールサーバの安全性を無料でチェックできるサイトを公開しています。
メールセキュリティへの関心が高まる中、メールセキュリティのチェック項目を整理して、誰でも簡単にチェックできるツールはありませんでした。本サイトでは、メールアドレスを入力するだけで、メールサーバのセキュリティを無料でチェックできます。