OCR技術紹介セミナー

本資料は2021年1月14日に社内共有資料として展開していたものをWEBページ向けにリニューアルした内容になります。

■目次

  • OCRとは
  • OCRの出力形式
  • OCRの種類
  • 文字の種類
  • OCRのパッケージの紹介

■OCRとは

  • OCRは【Optical Character Recognition】の頭文字を取ったもの。
  • 画像データのテキスト部分を認識しテキストデータとして出力する。

■OCRの出力形式

OCRの出力形式は大きく分けて2通りある

  1. 出力したテキストと項目の対応はつけない形式 非定型帳票パッケージの出力形式。
  2. 出力したテキストと項目の対応をつける形式(キーバリュー形式。
    構造化されたデータともよんでいる) 定型帳票パッケージ、
    請求書パッケージ等の出力形式 顧客は②の形式を欲している場合が多い。

■OCRの種類

OCRは大きく2種類にわかれる

①定型OCR:
 帳票のフォーマットが決まっているOCR(免許証、同じ会社の保険証券等)。

  • OCRの難易度低め。
  • フォーマットが決まっているため、読み取りたい項目の座標を指定することで、項目との紐づけが可能 。

②非定型OCR:
 票のフォーマットが決まっていないOCR (請求書、健康保険証等)。

  • OCRの難易度高め。
  • フォーマットが決まっていないため、読み取りたい項目の場所も決まっていない 。

■文字の種類

文字の種類は大きく2種類にわかれる

  • 活字文字・・・プリンター等で印刷された文字。OCRの難易度低め。
  • 手書き文字・・・人の手によって手書きで書かれた文字。OCRの難易度高め。

■OCRのパッケージ紹介

■ダウンロード

OCR技術紹介セミナー.pdf