いきなりPDFはソースネクストの製品提供の上でご紹介させて頂いています。
PDFを使っているとコピーしたい個所や表などがでてくると思います。
今回はいきなりPDFを使って文字起こしをやってみます。
PDFを文字おこしをするメリット
- 検索可能なテキストの作成: PDFを文字起こしすることで、文書内のテキストが検索可能になります。これにより、特定のキーワードや情報を素早く見つけることができます。検索性の向上は、情報を管理しやすくし、効率を向上させます。
- コピペ可能なテキストの生成: PDF内のテキストを文字起こしすることで、そのテキストをコピーして他の文書に貼り付けたり、メモに利用したりすることができます。これにより、情報を再利用しやすくなります。
- アクセシビリティの向上: 文字起こしにより、テキストベースの情報を利用する障害を持つ人々のアクセスが向上します。スクリーンリーダーなどの支援技術を使用して、情報を理解しやすくなります。
- 翻訳や要約の容易さ: 文字起こししたテキストは機械翻訳や要約などの自動処理にかけやすくなります。異なる言語への翻訳や、要約を作成する際に便利です。
- 共有と協力の促進: テキストデータは通常、様々なプラットフォームやツールで共有しやすいです。文字起こしにより、文書の内容を簡単に共有し、協力者とのコミュニケーションを促進できます。
- 機械学習やデータ分析への利用: テキストデータは機械学習モデルやデータ分析に利用することができます。PDFを文字起こしすることで、その情報を機械学習アルゴリズムに適用したり、データ分析を行ったりすることができます。
表やグラフを多用したいなら「CANVA」のPDF文字起こしが便利だぞ。
文字起こしのやり方(OCRを使用する)
今回はOCR(文字認識)を利用した方法をご紹介していきます。(チェックを入れるだけです。)
操作手順
1.デスクトップの「いきなりPDF」アイコンをダブルクリックし、スタートパネルを起動します
2.「変換」をクリックし、変換機能を起動します
3.変換したいファイルを製品にドラッグ&ドロップし、追加します
※製品内「+」ボタンをクリックして表示される画面からもファイル追加できます
4.出力ファイル形式を選択し、「文字認識(OCR)を使用する」「読取範囲の手動設定」双方にチェックを入れます
5.必要に応じて出力先を選択し、「実行」をクリックします
オプション機能(高度な設定)
- PDF入力:解像度を変えます。400dpiの方解像度は高いですが、100dpiではあまり変わりません。
- 画像入力:画像を回転させます。
- レイアウト認識:図形を画像として認識します。図形をいじらない場合は画像でよいと思います。
- 日本語認識:あまり使うことはないです。
- word:テキストボックスにして出力してくれます。細かい作業をしない場合はチェックを付けてもよいと思います。
高度な設定というほどでもなく、チェックしなくても問題ないぞ。
文字起こしの比較
wordに文字起こしした場合の結果はこちら
PDF(原本)
OCRあり
OCRなし
いきなりPDFで上手く文字起こしするために
表やグラフが入っている場合、レイアウトが崩れることが多いです。
PowerPointに出力すれば、比較的綺麗に文字起こしとグラフと表が使用できます。
PowerPointに出力した場合
PowerPointがない場合に図形のやグラフを再利用する場合は「CANVA」が使いやすいぞ
まとめ
今回はPDFの文字起こしを行ってみました。
WORDやPowerPointに変換したら容量の軽減や自分なりに編集しやすくなります。
いきなりPDFでは文字認識は9割ほど正確に認識しています。
wordでは表やグラフの再現は困難ですので、PowerPointをお勧めします。
無料で使いたい場合は、CANVAやアドビなどがあります。