Cloud Vision API を使って手書き文字をテキストデータ化する

2021-08-28

vision-api

はじめに

勉強メモを A4 コピー用紙に書くことが多かったのですが、正直場所を取るし、意外と見直さないし…という状態だったため、OCR（Optical Character Recognition）でテキストデータ化を試してみることにしました。

やったこと

Google Cloud Platform（以下、GCP）の Cloud Vision API を使い、OCR を行う Node.js スクリプトを TypeScript で書きました。コードはこちらです。

https://github.com/mokajima/vision-api-demo

使い方

$ GOOGLE_APPLICATION_CREDENTIALS=./serviceAccount.json ts-node index.ts -f './image.jpg'

$ GOOGLE_APPLICATION_CREDENTIALS=./serviceAccount.json node index.js -f './image.jpg'

ts-node index.ts か node index.js を実行します。スクリプトの実行に成功すると、実行結果が result.txt というファイル名で出力されます。

環境変数 GOOGLE_APPLICATION_CREDENTIALS に GCP のサービスアカウントキーが含まれる JSON ファイルのパスを指定します。GCP のサービスアカウントキーの取得方法については後述します。

-f は fileName の略で、OCR を行う画像ファイルのパスを指定します。

GCP のサービスアカウントキーの取得

GCP のサービスアカウントキーを取得するには、GCP のプロジェクトを作成する必要があります。GCP コンソールのヘッダーの「プロジェクトの選択」をクリックし、「プロジェクトの選択」ダイアログを表示します。

「プロジェクトの選択」ダイアログの右上の「新しいプロジェクト」をクリックし、「新しいプロジェクト」ページに遷移します。

「新しいプロジェクト」ページで「作成」をクリックします。「プロジェクト名」「場所」は初期値のままで問題ありません。この記事では「プロジェクト名」を「vision-api-demo」としました。

プロジェクトの作成が完了すると、右上に通知が表示されます。「プロジェクト『vision-api-demo』を作成」の下の「プロジェクトを選択」クリックし、プロジェクトのダッシュボードに遷移します。

次に、GCP コンソールのヘッダーの検索バーに「Cloud Vision API」と入力します。検索結果の「MARKETPLACE」＞「Cloud Vision API」をクリックし、Cloud Vision API のページに遷移します。

Cloud Vision API のページの「有効にする」クリックし、Cloud Vision API を有効化します。

次に、ナビゲーションメニューの「IAM と管理」＞「サービスアカウント」をクリックします。

「プロジェクト『vision-api-demo』のサービスアカウント」の上の「サービスアカウントを作成」をクリックします。

「サービスアカウントの詳細」ページで「サービスアカウント名」と「サービスアカウント ID」を入力し、「作成して続行」をクリックします。この記事では「サービスアカウント名」を「サービスアカウント」としました。

「このサービスアカウントにプロジェクトへのアクセスを許可する (省略可)」で「続行」をクリックします。

「ユーザーにこのサービスアカウントへのアクセスを許可 (省略可)」で「完了」をクリックします。

サービスアカウントの作成が完了すると、「プロジェクト『vision-api-demo』のサービスアカウント」ページに遷移します。作成したサービスアカウント ID（「メール」カラムの値）をクリックします。

「詳細」タブの内容が表示されます。「キー」タブをクリックします。

「鍵を追加」＞「新しい鍵を作成」をクリックします。

「『サービスアカウント』の秘密鍵の作成」ダイアログで「キーのタイプ」＞「JSON」を選択します。「作成」をクリックすると、秘密鍵をダウンロードします。この JSON ファイルがサービスアカウントキーで、使い方の serviceAccount.json です。

コード

import { ImageAnnotatorClient } from '@google-cloud/vision'
import { program } from 'commander' // (1)
import * as fs from 'fs'

// Creates a client
const client = new ImageAnnotatorClient()

program // (2)
  .requiredOption('-f, --fileName <fileName>')
  .action(async () => { // (3)
    const { fileName } = program.opts() // (4)

    try {
      const [{ fullTextAnnotation }] =
        await client.documentTextDetection(fileName) // (5)

      fs.writeFile( // (6)
        './result.txt',
        fullTextAnnotation?.text ?? '',
        (error) => {
          if (error) {
            throw error
          }
        },
      )
    } catch (error) {
      console.error(error)
    }
  })

program.parse(process.argv) // (7)

(1) Commander.js

Commander.js は Node.js で Command Line Interface（以下、CLI）を作成するためのライブラリです。

(2) program

commander からインポートした program は Command クラスのインスタンスです。commander から Command クラスをインポートし、new Command() することも可能です。¹

requiredOption() はスクリプト実行時に必須オプションを渡せるようにするためのメソッドです。requiredOption() の第1引数はフラグ名です。-f, --fileName <fileName> のように フラグ名 <任意の名前> とすることで、オプションが真偽値以外の値を取ることができます。なお、オプションの値は program.opts() で取得可能ですが、<任意の名前> は program.opts() の返り値に影響しません。そのため、.requiredOption('-f, --fileName <fileName>') を .requiredOption('-f, --fileName <value>') のようにすることも可能です。

(3) action

action() に CLI 実行時の処理を記述しています。

(4) program.opts()

program.opts() で fileName を取得しています。

(5) client.documentTextDetection()

client.documentTextDetection() で OCR を実行します。レスポンスは配列で解決する Promise で、型定義は Promise<[protoTypes.google.cloud.vision.v1.IAnnotateImageResponse]> となっています。IAnnotateImageResponse の型定義は次の通りです。

/** Properties of an AnnotateImageResponse. */
interface IAnnotateImageResponse {
  /** AnnotateImageResponse faceAnnotations */
  faceAnnotations?: google.cloud.vision.v1.IFaceAnnotation[] | null;

  /** AnnotateImageResponse landmarkAnnotations */
  landmarkAnnotations?: google.cloud.vision.v1.IEntityAnnotation[] | null;

  /** AnnotateImageResponse logoAnnotations */
  logoAnnotations?: google.cloud.vision.v1.IEntityAnnotation[] | null;
  /** AnnotateImageResponse labelAnnotations */
  labelAnnotations?: google.cloud.vision.v1.IEntityAnnotation[] | null;

  /** AnnotateImageResponse localizedObjectAnnotations */
  localizedObjectAnnotations?:
    | google.cloud.vision.v1.ILocalizedObjectAnnotation[]
    | null;

  /** AnnotateImageResponse textAnnotations */
  textAnnotations?: google.cloud.vision.v1.IEntityAnnotation[] | null;

  /** AnnotateImageResponse fullTextAnnotation */
  fullTextAnnotation?: google.cloud.vision.v1.ITextAnnotation | null;

  /** AnnotateImageResponse safeSearchAnnotation */
  safeSearchAnnotation?: google.cloud.vision.v1.ISafeSearchAnnotation | null;

  /** AnnotateImageResponse imagePropertiesAnnotation */
  imagePropertiesAnnotation?: google.cloud.vision.v1.IImageProperties | null;

  /** AnnotateImageResponse cropHintsAnnotation */
  cropHintsAnnotation?: google.cloud.vision.v1.ICropHintsAnnotation | null;

  /** AnnotateImageResponse webDetection */
  webDetection?: google.cloud.vision.v1.IWebDetection | null;

  /** AnnotateImageResponse productSearchResults */
  productSearchResults?: google.cloud.vision.v1.IProductSearchResults | null;

  /** AnnotateImageResponse error */
  error?: google.rpc.IStatus | null;

  /** AnnotateImageResponse context */
  context?: google.cloud.vision.v1.IImageAnnotationContext | null;
}

今回は fullTextAnnotation プロパティから実行結果のテキストを取得しています。fullTextAnnotation プロパティは pages と text をプロパティに持つオブジェクトです。

https://googleapis.dev/nodejs/vision/latest/google.cloud.vision.v1.ITextAnnotation.html

(6) fs.writeFile()

実行結果を fs.writeFile() で result.txt として出力しています。

(7) program.parse(process.argv)

program.parse(process.argv) は引数を処理し、オプションによって使われなかった引数を program.args 配列に残します。たとえば、次のコマンドを実行した場合、program.args は ['foo', 'bar'] となります。

$ GOOGLE_APPLICATION_CREDENTIALS=./serviceAccount.json ts-node index.ts -f './image.jpg' foo bar

実験

3枚の画像で OCR を実行してみました。

実験1: 英語の手書き文字

公式ドキュメントの画像を試した結果はこちらです。

Google Cloud
Platform

実験2: 日本語の手書き文字

文章を青空文庫から引用し、実験用の画像を用意しました。

この画像を試した結果はこちらです。

あのイーハトーヴオのすきとおった風,
夏でも底に冷たさをもつ青いそら
うつくしい森で飾られたモリーオ市
郊外のぎらぎらひかる草の波

実験3: 英語と日本語の混ざった手書き文字

文章をCloud Vision のドキュメント | Cloud Vision API | Google Cloudから引用し、実験用の画像を用意しました。