Cómo extraer metadatos PDF en Python

Aprenda a usar la biblioteca pikepdf para extraer información útil de archivos PDF en Python.

Los metadatos en PDF son información útil sobre el documento PDF, incluye el título del documento, el autor, la fecha de la última modificación, la fecha de creación, el tema y mucho más. Algunos archivos PDF tienen más información que otros y, en este tutorial, aprenderá a extraer metadatos PDF en Python.

Hay muchas bibliotecas y utilidades en Python para lograr lo mismo, pero me gusta usar pikepdf , ya que es una biblioteca activa y mantenida. Vamos a instalarlo:

$ pip install pikepdf

Pikepdf es un contenedor Pythonic de la biblioteca C ++ QPDF . Importémoslo en nuestro script:

import pikepdf
import sys

También usaremos el módulo sys para obtener el nombre de archivo de los argumentos de la línea de comandos:

# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]

Carguemos el archivo PDF usando la biblioteca y obtengamos los metadatos:

# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
    print(key, ":", value)

El docinfoatributo contiene un diccionario de los metadatos del documento. Aquí hay una ejecución de ejemplo:

$ python extract_pdf_metadata_simple.py bert-paper.pdf


/Author : 
/CreationDate : D:20190528000751Z
/Creator : LaTeX with hyperref package
/Keywords :
/ModDate : D:20190528000751Z
/PTEX.Fullbanner : This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.2
/Producer : pdfTeX-1.40.17
/Subject :
/Title :
/Trapped : /False

Aquí hay otro archivo PDF:

$ python extract_pdf_metadata_simple.py python_cheat_sheet.pdf


/CreationDate : D:20201002181301Z
/Creator : wkhtmltopdf 0.12.5
/Producer : Qt 4.8.7
/Title : Markdown To PDF

Como puede ver, no todos los documentos tienen los mismos campos, algunos contienen mucha menos información.

Tenga en cuenta que /ModDatey /CreationDateson la fecha de la última modificación y la fecha de creación, respectivamente, en el formato de fecha y hora de PDF. Si desea convertir este formato al formato de fecha y hora de Python, entonces he copiado este código de StackOverflow y lo edito un poco para ejecutarlo en Python 3:

import pikepdf
import datetime
import re
from dateutil.tz import tzutc, tzoffset
import sys

pdf_date_pattern = re.compile(''.join([

def transform_date(date_str):
    Convert a pdf date such as "D:20120321183444+07'00'" into a usable datetime
    :param date_str: pdf date string
    :return: datetime object
    global pdf_date_pattern
    match = re.match(pdf_date_pattern, date_str)
    if match:
        date_info = match.groupdict()

        for k, v in date_info.items():  # transform values
            if v is None:
            elif k == 'tz_offset':
                date_info[k] = v.lower()  # so we can treat Z as z
                date_info[k] = int(v)

        if date_info['tz_offset'] in ('z', None):  # UTC
            date_info['tzinfo'] = tzutc()
            multiplier = 1 if date_info['tz_offset'] == '+' else -1
            date_info['tzinfo'] = tzoffset(None, multiplier*(3600 * date_info['tz_hour'] + 60 * date_info['tz_minute']))

        for k in ('tz_offset', 'tz_hour', 'tz_minute'):  # no longer needed
            del date_info[k]

        return datetime.datetime(**date_info)

# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
    if str(value).startswith("D:"):
        # pdf datetime format, convert to python datetime
        value = transform_date(str(pdf.docinfo["/CreationDate"]))
    print(key, ":", value)

Aquí está el mismo resultado anterior, pero con formatos de fecha y hora convertidos a objetos de fecha y hora de Python:

/Author : 
/CreationDate : 2019-05-28 00:07:51+00:00
/Creator : LaTeX with hyperref package
/Keywords :
/ModDate : 2019-05-28 00:07:51+00:00
/PTEX.Fullbanner : This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.2
/Producer : pdfTeX-1.40.17
/Subject :
/Title :
/Trapped : /False

Mucho mejor. Espero que este rápido tutorial te haya ayudado a obtener los metadatos de documentos PDF con Python.

Consulta el código completo aquí .


