0

0

如何在Linux中数据去重 Linux fdupes重复查找

P粉602998670

P粉602998670

发布时间:2025-09-14 12:29:01

|

769人浏览过

|

来源于php中文网

原创

fdupes 是 Linux 下用于查找和删除重复文件的高效工具,通过比较文件大小和 MD5 签名识别重复内容。需通过包管理器安装,如 Ubuntu 使用 sudo apt install fdupes。基本用法为 fdupes /path/to/directory,常用选项包括 -r(递归扫描)、-S(显示大小)、-f(忽略每组首个文件)、-d(交互式删除)。推荐先预览结果再删除,避免误操作。可结合 find 限制文件类型或导出结果到文件,适用于文档、照片等去重场景。面对大量文件时性能可能受限,可考虑 fclones 或 duff 作为替代。关键步骤:先查重,再删除,确保数据安全。

如何在linux中数据去重 linux fdupes重复查找

在Linux中处理重复文件时,fdupes 是一个简单高效的命令行工具,能帮助你快速查找并删除重复文件,释放磁盘空间。它通过比较文件的大小和MD5签名来识别内容完全相同的文件,适合用于整理文档、照片、下载目录等场景。

安装 fdupes

fdupes 并非所有Linux发行版默认安装,可通过包管理器轻松获取:

Ubuntu/Debian:

sudo apt install fdupes

CentOS/RHEL(需启用 EPEL):

sudo yum install epel-release && sudo yum install fdupes

Fedora:

sudo dnf install fdupes

Arch Linux:

sudo pacman -S fdupes

基本用法:查找重复文件

使用 fdupes 最基础的命令是扫描某个目录中的重复文件:

fdupes /path/to/directory

例如,扫描家目录下的重复文件:

fdupes ~/Documents

输出会列出所有内容重复的文件组,每组文件以空行分隔。

常用选项增强功能:

  • -r
    :递归扫描子目录
  • -f
    :忽略一个文件组中第一个重复项(常用于删除时保留一份)
  • -d
    :显示重复文件,并提示是否删除(交互式)
  • -n
    :忽略空文件
  • -S
    :显示每个文件的大小

示例:递归查找并显示文件大小

fdupes -r -S ~/Downloads

去重操作:删除重复文件

使用

-d
参数可以交互式删除重复文件,系统会保留第一个,其余可选择删除:

百度MCP广场
百度MCP广场

探索海量可用的MCP Servers

下载

fdupes -rd ~/Pictures

执行后,fdupes 会列出每组重复文件,编号显示,你可以输入数字删除指定文件,或按回车保留所有。

若想自动删除所有重复项(除每组第一个外),可结合标准输入:

fdupes -r -f . | tr '\n' '\0' | xargs -0 rm

⚠️ 警告:此操作不可逆,请先备份重要数据或使用 -d 交互模式确认。

实用技巧与注意事项

fdupes 适合中小规模文件去重,面对大量文件时可能较慢。建议:

  • 先用
    fdupes -r path
    查看结果,确认无误再执行删除
  • 结合 find 使用,限定文件类型,如只查图片:
  • find ~/Pictures -type f $$ -name "*.jpg" -o -name "*.png" $$ -exec fdupes -r {} +

  • 将结果输出到文件以便审查:
  • fdupes -r ~/data > duplicates.txt

如果 fdupes 性能不足,可考虑替代工具如 fclonesduff,它们支持更高效的去重策略。

基本上就这些。fdupes 简单直接,适合日常使用,掌握几个关键参数就能高效管理重复文件。不复杂但容易忽略的是:别忘了先预览,再删除。

相关专题

更多
磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1349

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

703

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

294

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

776

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

573

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

545

2023.07.20

linux查看ip命令
linux查看ip命令

本专题为大家提供linux查看ip命令相关文章内容,感兴趣的朋友可以免费下载体验试试。

297

2023.07.20

linux查看cpu使用率
linux查看cpu使用率

在linux的系统维护中,可能需要经常查看cpu使用率,分析系统整体的运行情况。本专题为大家带来了linux查看cpu使用率的相关文章,感兴趣的朋友千万不要错过了。

381

2023.07.25

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

11

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.4万人学习

Git 教程
Git 教程

共21课时 | 2.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号