45 votos

¿Cómo copiar texto de un PDF sin perder el formato?

Cuando copio texto de un archivo PDF a un editor de texto, termina destrozado de varias maneras. El formato como la negrita y la cursiva se pierden; los saltos de línea suaves dentro de un párrafo de texto se convierten en saltos de línea duros; los guiones para romper una palabra en dos líneas se conservan incluso cuando no deberían serlo; y las comillas simples y dobles se reemplazan por signos ?

Lo ideal sería poder copiar el texto de un PDF y hacer que el formato se convierta en códigos HTML, las "citas inteligentes" se conviertan en " y ', y los saltos de línea se hagan correctamente. ¿Hay alguna manera de hacer esto?

2 votos

Word 2013 puede abrir los PDF. No es perfecto. Pero se puede hacer

0 votos

Puede estar relacionado: superuser.com/a/455278/13787

57voto

Brian Frost Puntos 6544

En primer lugar, tienes que entender lo que es un PDF. Los PDFs están diseñados para imitar una página impresa, y están diseñados sólo como un formato de salida, no de entrada. un PDF es básicamente un mapa que contiene la ubicación exacta de los caracteres (letras individuales o puntuación, etc.) o imágenes. En la mayoría de los casos un PDF ni siquiera almacena información acerca de dónde se word termina y comienza otra, mucho menos cosas como rupturas suaves vs. rupturas duras para los finales de los párrafos.

(Unos pocos PDFs recientes almacenan alguna información sobre estas cosas, pero es una nueva tecnología, y tendrías suerte si encontraras PDFs como este. Incluso si lo hicieras, tu visor de PDF podría no saberlo).

De todos modos, depende de tu software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las localizaciones de los personajes individuales lo que es una palabra, lo que es un párrafo, y así sucesivamente. Diferentes programas van a hacer esto mejor que otros, y también va a depender de cómo se hizo el PDF. En cualquier caso, debería nunca esperan resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento de origen. Es mucho mejor tratar de obtenerlo si se puede.

La solución estándar para este tipo de problemas es utilizar Adobe Acrobat Professional (el caro, no el lector gratuito) para convertir el PDF a HTML. Incluso eso no va a obtener resultados perfectos.

Hay software libre que puede usarse para extraer texto de los PDFs con algo de formato intacto, pero de nuevo, no esperes resultados perfectos. Ver, por ejemplo, calibre (que se puede convertir al formato RTF), pdftohtml/pdfreflow o el Procesador de texto AbiWord (con todos los plugins de importación/exportación activados). También hay un plugin de importación de PDF para OpenOffice.

Pero por favor no esperes la perfección con ninguno de estos resultados. Estás yendo contra la corriente aquí. El PDF no es un formato de entrada editable.

3 votos

un comentario 5 años después: no hay grandes mejoras: Tuve que convertirlo a HTML (usando acrobat x) y luego insertar cada fila en una tabla de MSword. (Guardar para word o excel o txt simplemente lo estropeó todo, copiar y pegar desde chrome tampoco funcionó en absoluto). Todavía estoy esperando un software (muy) inteligente.

0 votos

hacer clic con el botón derecho del ratón en la tabla y elegir "copiar con formato" también funciona, con los límites mencionados anteriormente

1 votos

Como esta es la respuesta aceptada, te sugiero que menciones también la opción (más novedosa) que escribió pratnala en su comentario: abrir el pdf directamente desde Word 2013. En algunos pdfs que probé dio mejores resultados que todo el software anterior.

10voto

chris Puntos 61

Otra opción es descargar y empezar a usar el visor gratuito de pdf, Foxit (es bueno). Luego puedes 'Guardar como' y elegir .txt para convertirlo en un archivo de texto. Eso preservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace tiempo cuando lo convertí a Foxit.

0 votos

"Guardar como... Texto" me ha funcionado con varios visores de pdf gratuitos.

0 votos

Yo uso Foxit, y sólo lo he probado, no diría que conserva el formato. Y todo lo que quería era finales de línea decentes y cada párrafo como un párrafo.

1 votos

Usando txt perderás todo el formateo: fuentes, negritas, cursivas, colores, y por supuesto opciones más avanzadas

7voto

Simon Puntos 2887

Hay una muy buena herramienta en línea llamada Sej-da . Se trata de la Manipulación Avanzada de PDF. No hay ningún software para descargar. Como es un nuevo herramienta en línea que actualmente está todavía en Beta. Permite extraer texto de un PDF, así como proporcionar una miríada de otras funcionalidades de PDF

http://www.sejda.com/

Un breve video de revisión de las funciones de sejda fue hecho el 14 de noviembre de 2012 por la Revisión 3 que se puede encontrar aquí:

http://revision3.com/tzdaily/sejda-online-pdf

1 votos

Una podría aún así, descargue la herramienta de línea de comandos: sejda.org/descarga (No creo que permita extracción de texto con formato )

0 votos

Ya he recomendado a Sejda por encima de Arjan

1 votos

¿Eh? Sólo quería decir: dices que es una herramienta online, pero también se puede descargar lo mismo. Además, investigando un poco más: No creo que conserve el formato, como se pidió?

5voto

Mike Mytkowski Puntos 541

Abre tu archivo PDF con un navegador (Google chrome y firefox están probados) y copia tu texto allí.

0 votos

Lamentablemente esto no me ha funcionado en Firefox.

0 votos

cerrar. FF mantuvo los tamaños de las fuentes al menos. Chrome falló estrepitosamente, ni siquiera los saltos de línea.

0 votos

A partir de octubre de 2019, abrir un PDF en Chrome y copiar/pegar en un editor de texto al menos conserva el final de línea (pero, lamentablemente, no cualquier espacio blanco inicial en las líneas).

4voto

Evan Kroske Puntos 1454

Puedes usar Adobe Acrobat Pro para esto.

Para las mesas: Con Acrobat 9/10 había una característica de tablas seleccionadas. Con Acrobat X sólo tienes que hacer clic en Guardar como > Hoja de cálculo > Excel. Incluso concatena las páginas en una larga hoja de cálculo. Es una característica impresionante.

Para el texto: Existe una característica similar para exportar a MS Word. Guardar como > Word > Word Doc.

Fuentes:

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: