13 votos

Herramientas de Linux para encontrar archivos duplicados?

Tengo una gran y creciente conjunto de archivos de texto, que son todos muy pequeños (de menos de 100 bytes). Quiero diff cada posible par de archivos y se nota que son duplicados. Yo podría escribir una secuencia de comandos de Python para hacer esto, pero me pregunto si existe un Linux herramienta de línea de comandos (o tal vez una simple combinación de herramientas) que iba a hacer esto?

Actualización (en respuesta a mfinni comentario): todos los archivos en un solo directorio, por lo que todos tienen nombres de archivo diferentes. (Pero todos ellos tienen una extensión de nombre de archivo en común, por lo que es fácil para seleccionar todos ellos con un comodín.)

23voto

Hubert Kario Puntos 4508

Hay la fdupes. Pero yo normalmente uso una combinación de find . -type f -exec md5sum '{}' \; | sort | uniq -d -w 36

6voto

faker Puntos 11270

También hay FSlint - que no he utilizado para este caso particular, pero debo ser capaz de manejarlo: http://en.flossmanuals.net/FSlint/Introduction

3voto

Zoredache Puntos 84524

Es casi seguro que no quieres diff cada par de archivos. Usted probablemente querrá usar algo como sumas de control md5 para conseguir que todas las sumas de comprobación de todos los archivos y de la tubería que en alguna otra herramienta que sólo un informe duplicado de las sumas de comprobación.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: