19 votos

Cómo extraer el texto de un pdf en la secuencia de comandos en Linux?

En Linux - Cómo extraer texto de una .pdf en el que el texto realmente es un texto, no una imagen escaneada? Quiero algo que se puede utilizar en la línea de comandos o en una secuencia de comandos, no de forma interactiva. (No quiero convertir .tif y el uso de OCR de texto ya está disponible en el .archivo pdf, así que ¿por qué introducir inexactitudes de imperfecto OCR?) Gracias! ~RM

21voto

pdftotext que viene con los poppler intentará extraer todo el texto que aparece en el PDF.

5voto

Brian Frost Puntos 6544

Ignacio de la respuesta está bien. De hecho, sería el primero en mi lista. Bueno, eso y tal vez para sugerir la pdftohtml herramienta que también viene con poppler, combinado con pdfreflow si quieres probar a montar de nuevo el texto en párrafos, etc. (Por supuesto, esto le dará la salida de HTML, pero la conversión de HTML a texto sin formato se puede hacer de muchas maneras.)

Aquí están algunas otras opciones.

El ebook-convert herramienta de línea de comandos de Calibre, que puede convertir .Los archivos pdf a texto sin formato (RTF o un número de formatos de libros electrónicos, como ePub, etc.)

pdftxtextract de Podofo

Abiword puede ser llamado desde la línea de comandos para convertir entre cualquiera de los formatos que es capaz de entrada de exportación/a, y con el correspondiente plugin de importación, esto incluye la los archivos Pdf:

abiword --to=txt file.pdf

(Para ser justos, creo que AbiWord y calibre tanto el uso de la poppler las bibliotecas, pero no estoy seguro.)

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: