DATA

【最強OCR】パワークエリなし、PDFをテキスト化・CSV変換

記事内に商品プロモーションを含む場合があります

ペーパーレス化がすすみ、紙そのものの資料は少なってきました。
しかし、紙をスキャニングしたPDFファイルには、スナップショットなど画像として貼られた文字は、テキスト認識できず、画像データとして認識されます。
そのため、資料の画像で保存された文字は、エクセルのパワークエリなどでデータ変換できないものがあります。

こういったデータは画像であり、数値そのものを利用できる電子データとは全く違うものです。

このようなことで困っていませんか?
  • 使っているエクセルにパワークエリの機能がなく、PDFをCSVやエクセルに 変換できない。
  • PDFの中に画像データが混じり、パワークエリでエクセルやCSVに変換できない
  • 古い紙の資料をスキャニングして作成されたPDFやJPEGなので、文字データを抽出するこができない

勤務先で使用しているエクセルには、パワークエリがついていないので、オンライン上で変換できるものを探してみました。

技術もすすみ、以前よりはテキストを抽出できるようになっています。いろいろテストしてみた方法をご紹介します。

この記事でわかること
  • PDFや画像のデータから文字を抽出できるアプリケーションの種類
  • アプリケーションの使い方→どなたでもわかるように図解で説明しています
  • どれが一番使いやすいアプリケーションか

テキストを取得できる技術は、OCR。OCRとは?

光学文字認識(こうがくもじにんしき、英:Optical character recognition)は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真 (風景内の看板の文字など)、画像内の字幕 (テレビ放送画像内など)が使われる。一般にOCRと略記される。

ウィキペディアより

と書かれています。

初期は、文字列を読み取るスキャナーの開発から始まりました。
マッチング機能をつけることで検索可能になり、読み取った文字データを変換してバーコードを作成するなど、さまざまなところで技術がブラッシュアップされています。

グーグルレンズが最近では有名ですが、他の検索エンジンやデータ変換サイトでも、OCRの技術が使われています。

一番身近なOCRのGoogle レンズ

スマホであれば、画像から文字データを取得するには、グーグルレンズ はタップ一つなので一番簡単です。↓ の赤枠をタップするだけです。

Googleの検索_レンズ
Google の検索画面

グーグルレンズによると、

“Google レンズとは
Google レンズは、視覚ベースのコンピューティング機能のセットです。目の前にあるものを認識し、その情報を使って、テキストのコピーや翻訳を行ったり、植物や動物の種類を特定したり、場所やメニュー、商品、見た目が似ている画像を検索したりするなど、さまざまな便利な使い方ができます。”

と書かれています。画像検索のほかに、テキストを取得できます。

検索機能に Google レンズ が、いつの間にか追加され、一番身近なOCRの技術のアプリケーションですね。

OCRを利用したアプリケーションはどれが使いやすいか?

テストに使用したファイル

私が画像やPDFから取得したい文字データは、数値、日本語の文字、数式といろいろなタイプがあります。

テストとして↓ のデータを用意し、各方法を試してみました。

  • 上部が数字、アルファベット、ひらがな
  • 中部が竹取物語で、ひらがなと漢字がまざった文章
  • 下部が数式
OCRの技術_テスト
テスト用のファイル

数字と日本語はワードに入力しました。

赤い枠内の式は、一般に公開されている水質関係の式ですが、スナップショット(画像)で貼りつけています。

紙の資料で送られてくるものは、紙資料をスキャニングしてPDF化したものが多いです。同じクォリティのものでテストをしたいと思い、入力したデータと画像を貼りつけたワードをPDF化し、プリントアウトし、 スキャニング して再びPDF化したものです。

Google レンズ

Google レンズはスマホでの使用になります。グーグルレンズでテキストを抽出し、パソコンへデータを送ることができます。

グーグルレンズでのテキストの抽出

①スマホのグーグル検索画面の赤枠のレンズマークをタップ
②読み取るファイルに焦点を当て、楕円の「テキスト」を選択
③タップして撮影
④ 「すべて選択」を選択
⑤ 「パソコンにコピー」を選択
⑥ この文字データを保管するパソコンを選択

パソコンを選択時点で、パソコンで使用している、メモかワードなどテキストを貼りつけることのできるアプリケーションを立ち上げます。

マウスの右クリックで「貼り付け」を選択するか、Ctrl+Vのショートカットキーで貼りつけをすると、レンズで抽出したテキストを貼りつけることができます。

Googleフォト

撮影した写真からテキストを抽出します。ファイルを撮影した後、パソコンで Googleフォト を立ち上げます。

撮影したファイルを表示すると、

①右上に「画像からテキストをコピー」をクリック
②右側にウィンドウが表れるので、「テキストをコピー」をクリック

Googleフォト のテキスト抽出
Googleフォト のテキスト抽出

テキストをコピーすると、文字がパソコン上のクリックボードにコピーされた状態になるので、メモかワードなどテキストを貼りつけることのできるアプリケーションを立ち上げます。

マウスの右クリックで「貼り付け」を選択するか、Ctrl+Vのショートカットキーで貼りつけをすると、抽出したテキストを貼りつけることができます。

Google ドライブ

Googleドライブにファイルをアップロードして、ファイルをGoogleドキュメントのアプリで開くことでテキストを抽出することができます。

Google ドライブ を利用してテキストを抽出

①パソコンのマイドライブにファイルをドラッグ
②アップロードしたファイルの上で右クリック
③アプリで選択
④ Googleドキュメント を選択

Googleドキュメント が作成されます。 Googleドキュメント はワードのようなファイル形式です。

↓ 下の画面の左側が、リボンの部分、右がドキュメントです。

Googleドキュメント

Googleドキュメント は、 Google のクラウド上に存在しているので、自分のパソコンにデータで利用するために、コピーします。Googleドキュメント のテキストをすべて選択して、ワードやエクセルなど使用するファイルに貼りつけることで、データを利用できます。

Convertio

無料で一日10ファイル変換できます。文字だけではなく、オーディオ、ビデオ、画像の変換もできるサイトです。

文字データに日本語と英語など他の言語が入っている場合は↓ のように2つの言語を選択してください。

Convertioの使い方
Convertioの使い方 言語の選択

日本語と英語を選択すると、以下↓ のようになります。英語はほぼ変換されていますが、日本語に少し文字化けがあります。

Convertioで日本語と英語を選択した場合
Convertioで日本語と英語を選択した場合

日本語のみを選択すると、以下↓ のようになります。英語の部分は文字化けになってしまいます。 

Convertioで日本語のみを選択した場合
Convertioで日本語のみを選択した場合
Conbertioの竹取物語
Conbertioの竹取物語

日本語に少しだけ、文字化けがあります。

Conbertioの式
Conbertioの式

画像の数式は認識できないようです。

free online OCR

無料オンラインOCRサービス 対応言語が46と多いのが特徴です。ファイルをドラッグするだけで、データ変換できます。使い方はこちら↓ の記事で紹介しています。

【初心者向け・図解】PDFをCSVに変換、弥生の「スマート取引取込」対応

free online OCR_数字
free online OCR 数字と文字
free online OCR_竹取物語
free online OCR 竹取物語
free online OCR_式
free online OCR_式

変換の作成時間は、Convertioより早いですが、文字化けが多いようです。

言語の選択が一つなので、日本語と英語など他の言語が混じったデータですと、文字化けが多くなってしまいます。

変換でできる言語は46と多いので、混在しているデータは、日本語で1回、英語で1回データを変換して、編集するというやり方がいいのかもしれません。

bing レンズ

bingにもレンズ機能があります。

bingの使い方
bingの使い方1

①タスクバーの検索ボックス中、赤い矢印指している白いボックスをクリック
②青い点線の部分、ウィンドウがあきます。
③レンズのマークを押すと、画面が暗くなるのでキャプチャーを撮影します。

bingの使い方3
bingの使い方2

黄色の枠の中がテキスト抽出できた部分ですが、日本語は抽出できず、抽出できたデータは少ないです。

bing_英語が得意
bing_英語の抽出データ

↑ 上は、英語の分を変換したものです。きれいに、文字データを抽出できています。

結論:データの内容によって使い方わける

結論、今回のテストデータを一つのアプリ―ケーションで完成することはできなかったです。

どれも、何かかしら、文字化けがありました。

わかったこと
  • 全体にきれいに変換できるのは、Google ドライブ。(数式以外)
  • 英語の文であれば、bingのレンズがクオリティが高い。スナップショットで認識をしてくれるので、使い勝手がよい。
  • 画像検索としては、bingのレンズ は、パソコンでスマホの Google レンズを使う感覚に近いので、使いやすい。

数年前までは、紙の資料をスキャニングしたものは、手入力でしかデータ化できなかったことを思うと、アプリケーションの進化は助かります。

アプリケーションを組み合わせることで、使いこなしたいですね。

今回の情報が、少しでもお役に立てるなら、嬉しいです。

紙の書類をデータ化するには、スキャナーが必要です。
高性能のスキャナーは、読取り能力が高く、テキスト化の精度が高いです。
高性能のスキャナーについては、こちらの記事で紹介しています。