【最強OCR】パワークエリなし、PDFをテキスト化・CSV変換

ペーパーレス化がすすみ、紙そのものの資料は少なってきました。
しかし、紙をスキャニングしたPDFファイルには、スナップショットなど画像として貼られた文字は、テキスト認識できず、画像データとして認識されます。
そのため、資料の画像で保存された文字は、エクセルのパワークエリなどでデータ変換できないものがあります。

こういったデータは画像であり、数値そのものを利用できる電子データとは全く違うものです。

このようなことで困っていませんか？

使っているエクセルにパワークエリの機能がなく、PDFをCSVやエクセルに変換できない。
PDFの中に画像データが混じり、パワークエリでエクセルやCSVに変換できない
古い紙の資料をスキャニングして作成されたPDFやJPEGなので、文字データを抽出するこができない

勤務先で使用しているエクセルには、パワークエリがついていないので、オンライン上で変換できるものを探してみました。

技術もすすみ、以前よりはテキストを抽出できるようになっています。いろいろテストしてみた方法をご紹介します。

この記事でわかること

PDFや画像のデータから文字を抽出できるアプリケーションの種類
アプリケーションの使い方→どなたでもわかるように図解で説明しています
どれが一番使いやすいアプリケーションか

Contents

テキストを取得できる技術は、OCR。OCRとは？
一番身近なOCRのGoogle レンズ
OCRを利用したアプリケーションはどれが使いやすいか？
結論:データの内容によって使い方わける

テキストを取得できる技術は、OCR。OCRとは？

光学文字認識（こうがくもじにんしき、英:Optical character recognition）は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真 (風景内の看板の文字など)、画像内の字幕 (テレビ放送画像内など)が使われる。一般にOCRと略記される。
ウィキペディアより

と書かれています。

初期は、文字列を読み取るスキャナーの開発から始まりました。
マッチング機能をつけることで検索可能になり、読み取った文字データを変換してバーコードを作成するなど、さまざまなところで技術がブラッシュアップされています。

グーグルレンズが最近では有名ですが、他の検索エンジンやデータ変換サイトでも、OCRの技術が使われています。

一番身近なOCRのGoogle レンズ

スマホであれば、画像から文字データを取得するには、グーグルレンズはタップ一つなので一番簡単です。↓　の赤枠をタップするだけです。

グーグルレンズによると、

“Google レンズとは
Google レンズは、視覚ベースのコンピューティング機能のセットです。目の前にあるものを認識し、その情報を使って、テキストのコピーや翻訳を行ったり、植物や動物の種類を特定したり、場所やメニュー、商品、見た目が似ている画像を検索したりするなど、さまざまな便利な使い方ができます。”

と書かれています。画像検索のほかに、テキストを取得できます。

検索機能に Google レンズが、いつの間にか追加され、一番身近なOCRの技術のアプリケーションですね。

OCRを利用したアプリケーションはどれが使いやすいか？

テストに使用したファイル

私が画像やPDFから取得したい文字データは、数値、日本語の文字、数式といろいろなタイプがあります。

テストとして↓　のデータを用意し、各方法を試してみました。

上部が数字、アルファベット、ひらがな
中部が竹取物語で、ひらがなと漢字がまざった文章
下部が数式

数字と日本語はワードに入力しました。

赤い枠内の式は、一般に公開されている水質関係の式ですが、スナップショット(画像)で貼りつけています。

紙の資料で送られてくるものは、紙資料をスキャニングしてPDF化したものが多いです。同じクォリティのものでテストをしたいと思い、入力したデータと画像を貼りつけたワードをPDF化し、プリントアウトし、スキャニングして再びPDF化したものです。

Google レンズ

Google レンズはスマホでの使用になります。グーグルレンズでテキストを抽出し、パソコンへデータを送ることができます。

①スマホのグーグル検索画面の赤枠のレンズマークをタップ
②読み取るファイルに焦点を当て、楕円の「テキスト」を選択
③タップして撮影
④ 「すべて選択」を選択
⑤ 「パソコンにコピー」を選択
⑥ この文字データを保管するパソコンを選択

パソコンを選択時点で、パソコンで使用している、メモかワードなどテキストを貼りつけることのできるアプリケーションを立ち上げます。

マウスの右クリックで「貼り付け」を選択するか、Ctrl＋Vのショートカットキーで貼りつけをすると、レンズで抽出したテキストを貼りつけることができます。

Googleフォト

撮影した写真からテキストを抽出します。ファイルを撮影した後、パソコンで Googleフォトを立ち上げます。

撮影したファイルを表示すると、

①右上に「画像からテキストをコピー」をクリック
②右側にウィンドウが表れるので、「テキストをコピー」をクリック

テキストをコピーすると、文字がパソコン上のクリックボードにコピーされた状態になるので、メモかワードなどテキストを貼りつけることのできるアプリケーションを立ち上げます。

マウスの右クリックで「貼り付け」を選択するか、Ctrl＋Vのショートカットキーで貼りつけをすると、抽出したテキストを貼りつけることができます。

Google ドライブ

Googleドライブにファイルをアップロードして、ファイルをGoogleドキュメントのアプリで開くことでテキストを抽出することができます。

①パソコンのマイドライブにファイルをドラッグ
②アップロードしたファイルの上で右クリック
③アプリで選択
④ Googleドキュメントを選択

Googleドキュメントが作成されます。 Googleドキュメントはワードのようなファイル形式です。

↓　下の画面の左側が、リボンの部分、右がドキュメントです。

Googleドキュメントは、 Google のクラウド上に存在しているので、自分のパソコンにデータで利用するために、コピーします。Googleドキュメントのテキストをすべて選択して、ワードやエクセルなど使用するファイルに貼りつけることで、データを利用できます。

Convertio

無料で一日10ファイル変換できます。文字だけではなく、オーディオ、ビデオ、画像の変換もできるサイトです。

文字データに日本語と英語など他の言語が入っている場合は↓　のように2つの言語を選択してください。

日本語と英語を選択すると、以下↓　のようになります。英語はほぼ変換されていますが、日本語に少し文字化けがあります。

日本語のみを選択すると、以下↓　のようになります。英語の部分は文字化けになってしまいます。　

日本語に少しだけ、文字化けがあります。

画像の数式は認識できないようです。

free online OCR

無料オンラインOCRサービス　対応言語が46と多いのが特徴です。ファイルをドラッグするだけで、データ変換できます。使い方はこちら↓　の記事で紹介しています。

≫【初心者向け・図解】PDFをCSVに変換、弥生の「スマート取引取込」対応

free online OCR_数字 — free online OCR　数字と文字

free online OCR_竹取物語 — free online OCR　竹取物語

変換の作成時間は、Convertioより早いですが、文字化けが多いようです。

言語の選択が一つなので、日本語と英語など他の言語が混じったデータですと、文字化けが多くなってしまいます。

変換でできる言語は46と多いので、混在しているデータは、日本語で１回、英語で１回データを変換して、編集するというやり方がいいのかもしれません。

bing レンズ

bingにもレンズ機能があります。

①タスクバーの検索ボックス中、赤い矢印指している白いボックスをクリック
②青い点線の部分、ウィンドウがあきます。
③レンズのマークを押すと、画面が暗くなるのでキャプチャーを撮影します。

黄色の枠の中がテキスト抽出できた部分ですが、日本語は抽出できず、抽出できたデータは少ないです。

↑　上は、英語の分を変換したものです。きれいに、文字データを抽出できています。

結論:データの内容によって使い方わける

結論、今回のテストデータを一つのアプリ―ケーションで完成することはできなかったです。

どれも、何かかしら、文字化けがありました。

わかったこと

全体にきれいに変換できるのは、Google ドライブ。（数式以外）
英語の文であれば、bingのレンズがクオリティが高い。スナップショットで認識をしてくれるので、使い勝手がよい。
画像検索としては、bingのレンズは、パソコンでスマホの Google レンズを使う感覚に近いので、使いやすい。

数年前までは、紙の資料をスキャニングしたものは、手入力でしかデータ化できなかったことを思うと、アプリケーションの進化は助かります。

アプリケーションを組み合わせることで、使いこなしたいですね。

今回の情報が、少しでもお役に立てるなら、嬉しいです。

紙の書類をデータ化するには、スキャナーが必要です。
高性能のスキャナーは、読取り能力が高く、テキスト化の精度が高いです。
高性能のスキャナーについては、こちらの記事で紹介しています。

【2024年最新】確定申告する人必見！電子帳簿保存法対応スキャナーおすすめ6選【経理もこれで楽勝】

【フリーランス必見！】しないと損、一番簡単にできる節税、面倒な開業届を簡単にできる方法3選　　今年、起業したけど、開業届は出しておいたほうがいい？開業届って面倒？売上少ないけど、開業届っているかな‥ フリーランスや…

DATA

【最強OCR】パワークエリなし、PDFをテキスト化・CSV変換

テキストを取得できる技術は、OCR。OCRとは？

一番身近なOCRのGoogle レンズ