本資料は2021年1月14日に社内共有資料として展開していたものをWEBページ向けにリニューアルした内容になります。
■目次
- OCRとは
- OCRの出力形式
- OCRの種類
- 文字の種類
- OCRのパッケージの紹介
■OCRとは
- OCRは【Optical Character Recognition】の頭文字を取ったもの。
- 画像データのテキスト部分を認識しテキストデータとして出力する。
■OCRの出力形式
OCRの出力形式は大きく分けて2通りある
- 出力したテキストと項目の対応はつけない形式 非定型帳票パッケージの出力形式。
- 出力したテキストと項目の対応をつける形式(キーバリュー形式。
構造化されたデータともよんでいる) 定型帳票パッケージ、
請求書パッケージ等の出力形式 顧客は②の形式を欲している場合が多い。
■OCRの種類
OCRは大きく2種類にわかれる
①定型OCR:
帳票のフォーマットが決まっているOCR(免許証、同じ会社の保険証券等)。
- OCRの難易度低め。
- フォーマットが決まっているため、読み取りたい項目の座標を指定することで、項目との紐づけが可能 。
②非定型OCR:
票のフォーマットが決まっていないOCR (請求書、健康保険証等)。
- OCRの難易度高め。
- フォーマットが決まっていないため、読み取りたい項目の場所も決まっていない 。
■文字の種類
文字の種類は大きく2種類にわかれる
- 活字文字・・・プリンター等で印刷された文字。OCRの難易度低め。
- 手書き文字・・・人の手によって手書きで書かれた文字。OCRの難易度高め。