宇野  和也

宇野 和也

1650938400

【Pythonで自動化】コピペしていない?大量PDFからテキスト情報を一瞬で取得

仕事をしていると、PDFの中に書かれているテキストを、別の書類に使いたいという場面はないでしょうか。    
PDFファイルのごく一部を取り出すだけであれば、コピペでもできますが、選択範囲が多く、何ページにもわたるようなときはかなり面倒な作業です。  
しかも画像をPDF化したファイルですと、文字や表などをコピペしようとしても、うまくできないことが多いかと思います。  
そんなときに、テキストファイルに読み込むことができると、かなりの業務効率化につながるでしょう。   
PDF形式でもらった文書の内容をテキスト化することで、携帯にメールで転送するなど、文書の一部をテキストで保存・転送・管理したりすることも可能になります。   
この動画では、Pythonでpdfを読み取り、テキストファイルに書き起こす方法について説明します。  
使用するライブラリは、日本語に対応しているPDFminerというライブラリです。

 

▼目次
00:00 ダイジェスト
00:15 はじめに
01:14 PDF読み取りのライブラリについて
02:38 プログラムに使用するライブラリのインストール
03:25 プログラムの説明
08:08 おわりに

 #python #pdf 

What is GEEK

Buddha Community

【Pythonで自動化】コピペしていない?大量PDFからテキスト情報を一瞬で取得
宇野  和也

宇野 和也

1650938400

【Pythonで自動化】コピペしていない?大量PDFからテキスト情報を一瞬で取得

仕事をしていると、PDFの中に書かれているテキストを、別の書類に使いたいという場面はないでしょうか。    
PDFファイルのごく一部を取り出すだけであれば、コピペでもできますが、選択範囲が多く、何ページにもわたるようなときはかなり面倒な作業です。  
しかも画像をPDF化したファイルですと、文字や表などをコピペしようとしても、うまくできないことが多いかと思います。  
そんなときに、テキストファイルに読み込むことができると、かなりの業務効率化につながるでしょう。   
PDF形式でもらった文書の内容をテキスト化することで、携帯にメールで転送するなど、文書の一部をテキストで保存・転送・管理したりすることも可能になります。   
この動画では、Pythonでpdfを読み取り、テキストファイルに書き起こす方法について説明します。  
使用するライブラリは、日本語に対応しているPDFminerというライブラリです。

 

▼目次
00:00 ダイジェスト
00:15 はじめに
01:14 PDF読み取りのライブラリについて
02:38 プログラムに使用するライブラリのインストール
03:25 プログラムの説明
08:08 おわりに

 #python #pdf