Google Colabを用いたgcv2hocrの実行例:Google Vision APIを用いた透明テキスト付きPDFファイルの作成

概要

gcv2ocrは、Google Cloud Vision OCR出力からhocrに変換して、検索可能なpdfを作成するリポジトリです。

https://github.com/dinosauria123/gcv2hocr

今回、上記リポジトリGoogle Colabで実行するノートブックを作成しました。

https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/gcv2hocr%E3%81%AE%E5%AE%9F%E8%A1%8C%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AB.ipynb

以下のように、検索可能なpdfファイルを作成することができます。

使い方

以下のノートブックにアクセスします。

https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/gcv2hocr%E3%81%AE%E5%AE%9F%E8%A1%8C%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AB.ipynb

まず、Google Cloud Vision APIを使用するためのAPIキーを取得します。以下の記事などが参考になります。

https://zenn.dev/tmitsuoka0423/articles/get-gcp-api-key

APIキーを入力したら、以下の初期セットアップに関する3つの再生ボタンを押します。

その後は、以下に示す実行オプションから、適切なものを選択します。

  • 画像
    • 画像のURL
    • 画像のアップロード
  • PDF
    • PDFのURL
    • PDFのアップロード
  • IIIF
    • IIIF

例えば、「画像のURL」を指定する場合、以下に示す「設定」と「実行」の2つの再生ボタンを押します。

実行後、PDFファイルがダウンロードされます。また、認識結果等が出力されるパスが表示されます。

まとめ

gcv2ocrhocr-toolsなど、便利なツールを開発してくださった方々に感謝いたします。