23 votos

El PDF tiene un texto confuso al copiar y pegar

Estoy tratando de copiar y pegar el texto de un archivo PDF.

Sin embargo, cada vez que pego el texto original es un gran lío de caracteres confusos. El texto se ve como el siguiente (esto es sólo un pequeño extracto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Lo he probado en los lectores de PDF de Adobe y Foxit. Hice un "Guardar como texto" en Adobe Reader y el archivo de texto resultante es el mismo texto ilegible.

¿Alguna idea de cómo puedo sacar este texto sin que se lo jueguen? (Aparte de la mecanografía manual... hay mucho texto que extraer.)

11voto

acatalept Puntos 381

La forma más simple de evitar esto es abrir el archivo en un versión reciente de Google Chrome con un plugin de lectura de PDF incorporado . Luego puedes usar la función de búsqueda de Chrome para encontrar texto, y copiar-pegar funciona correctamente.

Me gustaría votar el comentario de Pipitas sobre la respuesta de Shiki, pero no tengo las credenciales. El problema puede ser codificación de fuentes personalizadas, no encriptación . En Acrobat, haga clic en Archivo -> Propiedades, luego haga clic en la pestaña Fuentes para ver la codificación, y la pestaña Seguridad para ver si está codificado.

4voto

Eternalko Puntos 11

Hay otra manera muy fácil de hacer una solución :)

Sólo imprime el documento usando CutePdf, impresora Adobe 2 Pdf o cualquier otra cosa similar. La conclusión es que necesitas imprimir en el formato pdf.

En muchos casos, eliminará fácilmente el problema.

2voto

Daniel Puntos 21

Descubrí este problema con los PDF que creé, y creo que he localizado el origen del problema: usar la vista previa de Mac OS X para reducir el tamaño del archivo PDF.

Había creado algunos filtros Quartz usando la Utilidad Colorsync para comprimir imágenes en PDFs para reducir el tamaño total del archivo de PDFs con imágenes. Como el que se describe aquí: http://www.macosxhints.com/article.php?story=20031106133852693

Descubrí que puedo copiar y pegar fácilmente el texto del archivo PDF original (sin comprimir), pero después de pasar ese PDF por un filtro de Reducir el tamaño del archivo que creé, el PDF comprimido resultante no copia y pega claramente (sale con el aspecto de las cadenas que publicó).

Sin embargo, al ejecutar ese mismo PDF original a través de la función Documento > Reducir el tamaño del archivo de Adobe Acrobat Pro, el PDF comprimido resultante puede copiar y pegar texto con éxito.

Por lo tanto, esto no es totalmente útil en su caso, suponiendo que su archivo PDF fue recibido de otro lugar y no puede llegar a la versión original, si es que de hecho fue comprimido de alguna manera. Pero esa podría ser la explicación - que el archivo fue manipulado de alguna manera en un esfuerzo por reducir el tamaño del archivo.

Esto puede ser útil para los creadores de contenido que se encuentren con problemas similares al copiar y pegar texto de PDFs - ¡tenga cuidado al usar los filtros OS X Quartz para encoger sus PDFs!

--edit-- También he notado este problema al combinar los PDF con la vista previa. Los dos PDFs de origen pueden copiarse y pegarse bien, pero cuando se arrastra una página de un archivo al otro, y luego se guarda el PDF combinado, el texto del documento combinado no puede copiarse/pegarse. Estos son dos documentos generados al mismo tiempo con Filemaker Pro 11 en Mac - no puedo imaginar que tengan codificaciones diferentes o algo así.

1voto

Josh Delsman Puntos 2333

Existe el riesgo de que la información no sea recuperable en absoluto. Los documentos PDF son esencialmente un documento que se superpone a otro, un simple texto, el otro una imagen. Cuando se copia y se pega del documento, se marca el texto mientras se mira la imagen, pero lo que se copia en el portapapeles es la parte correspondiente del texto.

Dependiendo de la forma en que se cree el documento, la calidad y la disponibilidad de la parte de texto puede diferir enormemente. Si se guarda un documento de procesador de textos en formato PDF, utilizando Acrobat, Word, un controlador de impresora PDF o cualquier otro método, la calidad será normalmente excelente, ya que el archivo de texto puede crearse a partir del texto del original. Algunos caracteres especiales pueden llegar a distorsionarse, pero el texto simple suele estar bien.

Sin embargo, si el documento se crea a partir de una imagen escaneada, la parte de texto se crea típicamente mediante el procesamiento de la imagen por OCR, lo que puede producir resultados bastante lamentables, especialmente si el original es menos que óptimo para el propósito.

Un mal programa usado para crear el PDF, o la configuración incorrecta, también podría causar que la parte de texto se confundiera completamente, como podría, perceptiblemente, correr algún tipo de encriptación en el archivo después de ser creado.

La conclusión es que si la parte de texto del documento es realmente mala, no hay forma de mejorarla. Lo mejor sería eliminar la parte de texto por completo, y hacer que el programa rehaga el proceso de OCR. Creo que eso podría hacerse desde el Acrobat, pero no estoy del todo seguro.

1voto

Reuti Puntos 11

Uno de mis usuarios acaba de informar del mismo problema (el PDF fue creado con Distiller para Windows), que el texto copiado es sólo texto confuso y no podía buscar dentro de un documento. Lo intenté en mi Mac y no encontré ningún problema. Resultó que yo usaba la aplicación Preview de Apple, mientras que él usaba Adobe Reader en su máquina de Windows. Entonces probé Adobe Reader en mi Mac y me encontré con el mismo efecto. A mí me parece que:

  • Adobe Reader es tímido y busca en el texto guardado.

  • La vista previa de Apple copiará y buscará después de aplicar el vector de codificación.

No puedo decir esto con seguridad, pero explicaría mi observación. Y de hecho permitiría hacer todo tipo de codificación al guardar archivos combinados/reducidos como se describe en otro post aquí: con la vista previa todavía se puede sacar el texto de nuevo.

Primero pensé que sería más lógico codificar el subconjunto de fuentes incrustadas como entradas contiguas en lugar de dejar agujeros dentro y usar la ubicación original de los caracteres. Pero luego me di cuenta de que al usar un vector de codificación para el subconjunto de fuentes con entradas originales, los caracteres que se usan a menudo pueden tener menos bits establecidos en 1 en su byte y pueden ser comprimidos de mejor manera (puede disminuir la entropía del texto general de esta manera).

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: