Google Drive のOCR(画像文字認識)機能を簡単に試す

2012.04.26

Google Drive今朝方、Googleを開くと、Googleバーか ら、Google Drive(グーグルドライブ)のアカウントが有効になった事がわかり、早速利用してみた。(因みに、Gmailには6時34分にメールが届いてた) このページでは、Google DriveのOCR機能について、簡単に紹介します。(以下、オンライン版での説明です。)

OCRは、通常は、スキャナなどで画像の文字を読み取る光学式文字認識を指しますが、Google DriveのOCRは、アップロードされた画像から文字を読み取り、Google Driveの検索窓から文字で画像を検索できる機能です。

尚、現在は日本語の文字認識は未サポートなので、英文のみのテストで、ファイル名も画像とは無関係な通し番号にして行った。 また、同様なテストをしても、フォントサイズや配置位置や画質などによっては、結果が異なる可能性があるのは暗黙のお約束事項です。

アップロードは普通にマイドライブに、”アップロード”のアイコンをクリックして、ファイル単位,フォルダ単位で行います。特にGoogleドキュメント形式などへの変換は不要。

OCR成功例 簡単な単語

左のテスト。”Times New Roman”などのフォントが識字率が高いとあったのでその通りに。
右のテスト。一般的なゴシックフォントで色違い文字でのテスト。何の問題も無い。

OCR失敗例 簡単な単語

左のテスト。識字率の高い”Times New Roman”でも、反転文字は駄目となった。
右のテスト。少し縦長の字体にすると駄目だった。

OCR成功例 写真画像と文字

写真のタイトル文字を入れた物でテスト。各々、”SAKURA”,”YOZAKURA”で正常にヒットした。”This”や”blossom”でもヒットする。 尚、タイトルは写真の下に配置しても、正常にヒットした。因みに、”もしかして夜桜”と出ているが、”夜桜”で検索してもヒットしない。

OCR失敗例 写真画像と文字

1つ前の成功例の”SAKURA”から”This is cherry blossom.”の一行を削除した画像。これだけで、”SAKURA”ではヒットしなくなった。画像中の文字認識には、単語だけで無く、文章も必要なのかも知れない。

OCR成功例 英語サイト,英字新聞

左は米Googleの公式ブログ、Google Driveに関する記事をキャプチャしてアップロードしたもの。見出しなどだけでは無く、文中の”plannning a wedding”でヒットし、日付部分などを除く殆どの単語で検索可能だった。(100%では無い)
右の英字新聞は、見出し中の単語のみヒットした。品位やフォントなどが影響しているように思う。

以上、簡単にGoogle DriveのOCRのテストを紹介した。文字起こしができる訳でも無く、実務では流石に使えないと思うが、分類分けされて無いような画像 フォルダを、適当にGoogle Driveに放り込んでも、英文テキストが付随しているような画像データならば、後から楽に探せる可能性があると言う事が伝わったかなと思う。

無料サイト集 Kooss (run)記

本日のお勧めページ一覧。※以下は編集室外の内部リンクです。

14759065
BACK
リンクはご自由に(LinkFree)