2 votos

¿Cómo convertir un archivo pdf persa en formato Microsoft Word?

Tengo un archivo pdf que es Persa script y es un De derecha a izquierda . Dado que el persa utiliza el formato UTF-8, no puedo convertirlo en texto plano en Microsoft Word, y tampoco puedo copiar y pegar el texto, lo que resulta en caracteres ilegibles. He probado muchos programas como unipdf y e-Pdf Converter sin embargo después de la conversión todavía los caracteres no se muestran correctamente. Incluso probé el OCR pero de nuevo apareció el mismo problema. El pdf no tiene ninguna contraseña o restricciones.

¿Alguien tiene alguna otra idea?

Editar: De hecho, probé a crear un archivo en MS Word y convertirlo en un PDF, después de eso de nuevo tuve el mismo problema con el archivo PDF.(incluso la codificación era conocida)

1voto

einpoklum Puntos 558

Muy a menudo, los archivos PDF en scripts (especialmente en scripts como el árabe, el hebreo y el farsi) son generados por un software que, en cierto modo, clasifica el texto en el nivel de palabra o fragmento de frase, o simplemente consigue mostrar los glifos correctos pero se obtiene un galimatías para el texto "lógico". En estos casos hay muy poco que hacer, excepto escribir un conversor personalizado, lo cual no es una opción.

Sin embargo, si puede averiguar cómo se ha creado el archivo -lo que a menudo se indica en los metadatos accesibles con los lectores de PDF habituales- podría haber una opción para abrir el archivo en la aplicación que lo generó, o al menos podría concretar más su pregunta.

1voto

vis Puntos 970

Tuve el mismo problema con la conversión de archivos pdf a word. Después de copiar/pegar en Word, el formato cambiaba y causaba problemas. Probé varios convertidores online pero también fallaron.
El único método que funcionó fue el siguiente:

  1. Abra el archivo pdf con Adobe Acrobat Reader y, a continuación, en el menú Archivo elija imprimir. En los nombres de las impresoras, elige adobe acrobat. Sí, usted ¡está a punto de crear un pdf a partir de un pdf!
  2. Abra el nuevo archivo pdf con Google Chrome (arrastre y suelte el archivo en Chrome).
  3. Ahora simplemente seleccione todo el texto (ctrl + A) y copie/pegue en un archivo de Word en blanco.

0voto

Martin Puntos 111

Actualmente he trabajado para convertir un pdf en un texto persa editable. La mejor solución que he encontrado es utilizar google doc como sigue.

  1. Debe convertir las páginas pdf en imágenes. Para esto puedes usar Adobe acrobat reader( No el adobe reader que es gratis) o en Linux yo uso GIMP para abrir un pdf y luego selecciono abrir cada página en una imagen separada. Es tu propia elección.
  2. Sube los archivos de imagen a Google Drive
  3. Ve a Google Drive y haz clic con el botón derecho del ratón en cada imagen y luego haz clic en open with google doc
  4. espera a que google doc abra un texto editable a partir de tu imagen
  5. Copiarlo en word

No sé si hay algún método automatizado. Espero que alguna vez tenga tiempo para hacer una aplicación para hacer esto automáticamente.

0voto

Amirreza Nasiri Puntos 919

Sé que es demasiado tarde para responder, pero para quien tenga la misma pregunta, podría sugerir Delix.ir que es un OCR persa y un convertidor de PDF a Word.

Descargo de responsabilidad: Soy el fundador de delix.ir y espero que no sea tratado como un anuncio.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: