PDFや画像の文章を文字起こし(テキスト化)できるツールと手順
PDFに埋め込まれた文章や、画像に写っている文章をコピーしたいとき、文字起こし(テキスト化)が必要になります。
この記事では、無料のツールを使ってPDFや画像に埋め込まれた文章を文字起こしする方法についてご紹介します。
文字起こしの方法は、PDFからテキストをコピーする方法や、PDF閲覧ソフトやスマホアプリの文字認識機能を使う方法など様々です。
場面にあわせて最適な方法を選び、作業を効率化しましょう。
PDFから文字起こしをする方法
まずは、PDFから文字起こしする方法をご紹介します。
PDFには、テキストを選択してコピーできるものと、できないものがあります。
それぞれのパターンごとに、文字起こしの方法を解説します。
1.テキストをコピー(選択)できる場合は、そのままコピーして貼り付ける
PDFのテキストを選択してコピーできる場合は、PDF閲覧ソフトやWebブラウザでPDFを開いてテキストをコピーし、Wordやテキストファイルに貼り付けられます。
ファイルの一部分のみを文字起こししたい場合には、この方法がオススメです。
ただし、レイアウトが複雑なPDFや複数ページにわたるPDFの場合は、文章の順番がバラバラになったり、余計なスペースが入ったりすることがあります。
そのような場合には、このあとにご紹介する別の方法を試してみてください。
なお、手順の解説では、無料のPDF閲覧ソフト「Adobe Acrobat Reader」を使ってご説明します。
Adobe Acrobat Readerは以下のページからダウンロードできます。
【手順1】テキストを選択・コピーする
Adobe Acrobat ReaderでPDFを開きます。
文字起こししたい部分のテキストを選択し、右クリックで「コピー」を選択します。
【手順2】Wordやテキストファイルに貼り付ける
PDFからコピーしたテキストをWordなどに貼り付けて保存します。
2.テキストをコピー(選択)できない場合はOCR(文字認識機能)を使う
PDF内のテキストが選択できない場合には、OCR(文字認識機能)を使って文字起こしをしてみましょう。
OCRとは光学文字認識(Optical Character Recognition)の略で、画像データの中からコンピューターが文字を自動で識別し、編集可能なテキストデータに変換する仕組みを指します。
この方法を使うと、PDFだけでなくJPEGなどの画像からも文字起こしできます。
Adobe Acrobatの無料お試し版でOCR(文字認識機能)が使えるので、ここではAdobe Acrobatを使った文字起こしの手順を説明します。
(無料お試し版の利用可能期間は7日間です)
頻繁にOCR機能を使用するという方は、有料版のAdobe Acrobat Proへの切り替えをご検討ください。
PCのエクスプローラー上で「プログラムから開く」→「Adobe Acrobat」を選択し、文字起こししたいPDFを開きます。
※PDFではなく画像から文字起こしをしたい場合も、同じように画像を開きます。
【手順2】「ツール」→「スキャンとOCR」を選択する
ファイルを開いたら、「ツール」タブから「スキャンとOCR」を開きます。
3.文字起こししたいページ数が多い場合はPDFをWordに変換する
何ページにもわたる長い文書を文字起こししたい場合には、PDFからテキストをコピーするよりも、PDFを直接Wordファイルに変換できるAdobe Acrobatの機能が便利です。
Wordファイルへの変換は有料版Adobe Acrobatの機能ですが、無料お試しでも利用できます。
【手順1】PDFを開く
Adobe Acrobatのサイトの「無料ではじめる」ボタンをクリックし、無料お試しを開始します。
その後、PCのエクスプローラー上で「プログラムから開く」→「Adobe Acrobat」を選択し、文字起こししたいPDFを開きます。
【手順2】Wordで書き出し、ファイルを保存する
「ファイル」メニューから「書き出し形式」→「Microsoft Word」→「Word文書」を選択し、Word文書(.docx)でファイルを保存します。
これで、PDFをWord形式のファイルに変換できました。
なお、PDFをWordファイルに変換するには、Adobe Acrobatのオンラインツールを使う方法もあります。
Adobe Acrobatのオンラインツールの「PDFをWordに変換」にアクセスし、PDFをアップロードすればすぐにWordファイルに変換できます。
有料版の「Adobe Acrobat Pro」や「Adobe Acrobat Standard」をご利用の方なら、すぐにオンラインツールをお使いいただけます。
また「Adobe Acrobat Pro」や「Adobe Acrobat Standard」を利用していない方でも、オンラインツールを30日ごとに2回まで無料で利用できるので、ぜひお試しください。
Adobe Acrobatのオンラインツールを今すぐ使ってみる
スマホで撮影した画像から文字起こしする方法
スマホやタブレットで紙の資料を撮影するケースもあるでしょう。
その画像をスマホアプリで文字起こしすることも可能です。
ここでは、Adobeのスキャンアプリ 「Adobe Scan」を使って文字起こしする手順を解説します。
なお、Adobe Scanは、Adobe Scan上で撮影したドキュメントはもちろん、デバイス上にあらかじめ保存した画像を文字起こしすることもできます。
【手順1】Adobe Scanをインストールする
お使いのスマホにアプリをインストールします。
【手順2】文字起こししたいドキュメントを撮影する
Adobe Scanを起動するとカメラが立ち上がるので、撮影したいドキュメントを画面内におさめます。
アプリが自動的にテキストを検出し、撮影範囲の設定や明るさの調整が行われます。
撮影範囲に問題がなければ、「続行」をタップします。
【手順3】「テキストアクション」でOCR認識をする
保存されたPDFをタップして開きます。
あとは「テキストをコピー」をクリックすれば、クリップボードへコピーできます。
メモ帳などに貼り付ければ、文字起こしが完了です。
文字起こしがうまくいかない原因と対処法
ここまで解説してきたように、PDFや画像から文字起こしをするにはいくつかの方法があります。
ただ、これらの方法を試してみた際に、文字起こしがうまくできない、文字起こしした内容がおかしいといった事態が起こることがあります。
ここからは、トラブルが起こった際に考えられる原因と対処法を解説します。
テキストのコピーがうまくいかない原因と対処法
PDFからテキストがコピーできない場合や、正確に貼り付けできない場合は、ファイルそのものや書式に問題がないか確認しましょう。
【対処法1】OCRを実行する
PDF上で文字が選択できない場合は、ファイルが1枚の画像になっていることが考えられます。
その場合は、OCR(文字認識機能)のあるツールで文字認識を試してみてください。
Adobe Acrobatの無料お試し版でもOCRを実行できます。
【対処法2】保護を解除する
文字の選択はできるがコピーできない場合は、ファイルがパスワード保護されていると考えられます。
ファイルの作成者に保護を解除した状態のファイルを支給してもらうか、保護パスワードを教えてもらい、ファイルの保護を解除してください。
【対処法3】一旦Wordかテキストエディタに貼り付ける
PDFからテキストをコピーして他のアプリへ貼り付けした際に、同じ文言が何度も繰り返されたり、不要な空白が入ったりするなど、正確に再現できない場合があります。
これは、PDFの書式と貼り付け先アプリとの互換性が問題となっている可能性が考えられます。
PDFからコピーしたテキストを一旦Wordかテキストエディタに貼り付けると、問題なく再現できる場合があります。
OCRの認識がうまくいかない原因と対処法
OCRの認識がうまくできず、テキストが認識されなかったり、読み取られたテキストに間違いがあったりする場合は、元の画像に問題があると考えられます。
例えば画像が暗かったり、斜めから撮影していて文字がゆがんでいる場合には、テキストが正確に認識されません。
【対処法1】 Adobe Acrobatの補正機能を使う
PC上でOCR認識を実行する場合は、Adobe Acrobatの「ツール」→「スキャンと OCR」の補正機能を使うことで、OCRの精度を高められます。
以下は補正前と補正後の画像です。
<補正前>
書類のタイトルから箇条書き部分のテキストが暗くぼやけているため、OCR認識できません。
<補正後>
角度が補正され、文字のコントラストがはっきりしたことで、右上の小さい文字以外はすべてOCRで認識されるようになりました。
補正方法の詳細は、こちらの記事で詳しく解説しています。
【対処法2】 Adobe Scanで画像を調整する
Adobe Scanを使う場合には、Adobe Scan内にある機能を使って画像を調整することでOCRの精度を高められます。
例えば、「切り抜き」機能を使って不要な部分をカットしたり、「フィルター」で色味を変更したりできるので、それらの機能で調整してからOCRの認識をしてみましょう。
また、歪みや明るさのムラがない状態で撮影できるよう、撮影環境にも注意しましょう。
【対処法3】 OCR後のテキストを、元のドキュメントと照らし合わせて調整する
OCR機能やAIの進化によって、画像からの文字起こしはひと昔前と比べてかなり高精度になりました。
しかし、どうしても撮影時の状況や画質、テキスト要素の配置などに左右される部分があるため100%正確に読み取れるとは限りません。
OCRを使って文字起こしをした際は、必ず元のドキュメントと照らし合わせてチェックし、不正確な部分があれば手直ししましょう。
文字起こし機能を活用し、ドキュメント作成を効率化しましょう
PDFや画像からの文字起こしは、便利なツールとちょっとした知識があれば、カンタンにできます。
どんな文字起こしの方法がベストかは状況によって異なりますので、ぜひ今回ご紹介した内容を覚えておいてください。
なお、この記事で紹介したAdobe Acrobatの無料お試しを使ったOCR機能やWordへの出力は、有料版のAdobe Acrobatならいつでも利用できる機能です。
Adobe Acrobatは、今回ご紹介した機能の他にも、文書の作成や管理に役立つ機能を多数備えています。
ぜひドキュメント作成の効率化に役立ててください。