python删除文件夹里面所有重复的文件(大小,内容,文件名相同).rar资源-CSDN文库

共1个文件

txt：1个

版权申诉

57 浏览量 2024-06-18 19:03:49 上传评论收藏 795B RAR 举报

在Python编程中，删除文件夹内所有重复的文件是一项常见的任务，特别是在数据处理、文件管理或存储优化等场景。这个任务涉及到对文件的大小、内容和文件名进行比较，以确保找出并删除所有完全相同的副本。下面将详细介绍如何实现这个功能。我们需要遍历指定文件夹中的所有文件。Python的`os`模块提供了`os.walk()`函数，它能以迭代器的方式递归地遍历目录树。以下是一个简单的示例： ```python import os def list_files(directory): for root, dirs, files in os.walk(directory): for file in files: yield os.path.join(root, file) ``` 接下来，我们需要检查文件的大小。Python的`os.path.getsize()`函数可以获取文件的大小。如果两个文件的大小相同，我们进一步比较它们的内容。为了比较文件内容，我们可以使用`filecmp.cmp()`函数，该函数会比较两个文件是否相同： ```python import filecmp def compare_files(file1, file2): return filecmp.cmp(file1, file2, shallow=False) ``` `shallow=False`参数表示进行深度比较，即不仅比较文件头，还要比较整个文件内容。现在，我们可以结合这两个函数，找出并删除重复的文件。我们需要创建一个字典来存储已检查过的文件，以及它们的哈希值（这可以作为内容的快速比较）。然后，对于每个新文件，如果它的哈希值与已存在的文件相同，就删除它： ```python import hashlib def delete_duplicates(directory): checked_hashes = {} for filepath in list_files(directory): with open(filepath, 'rb') as f: file_hash = hashlib.md5(f.read()).hexdigest() if file_hash in checked_hashes: # 如果哈希值已经存在，那么这是个重复文件 duplicate_path = checked_hashes[file_hash] os.remove(filepath) print(f'Deleted duplicate: {filepath} (matches {duplicate_path})') else: checked_hashes[file_hash] = filepath delete_duplicates('your_directory') ``` 这个脚本将删除`your_directory`中所有大小、内容和文件名都相同的重复文件。请注意，`os.remove()`函数会立即删除文件，因此在执行此操作前请确保你有备份，因为一旦删除，文件将无法恢复。当然，这个脚本假设所有文件都在同一个文件夹下，如果需要跨多个子文件夹处理，你可能需要调整`list_files()`函数以适应新的需求。此外，如果你的文件数量非常大，考虑到性能问题，可能需要使用更高效的哈希算法或者采用分块读取文件的方式来计算哈希值。要注意的是，这个过程可能涉及一些安全风险，例如误删非重复文件或重要的文件。在实际应用中，建议先进行备份或者在删除前进行确认。

资源推荐

资源详情

资源评论

收起资源包目录

python删除文件夹里面所有重复的文件(大小,内容,文件名相同).rar （1个子文件）

python删除文件夹里面所有重复的文件(大小,内容,文件名相同)

删除文件夹里面所有重复的文件(大小,内容,文件名相同).txt 632B

import os import glob #可用通配符匹配文件和文件夹 import filecmp #用于对文件和目录进行比较 #删除aaa文件夹里面所有重复的文件(大小，内容，文件名相同) dir_path = r'C:\Users\Administrator\Desktop\aaa' #路径，需修改 file_lst = [] for i in glob.glob(dir_path + '/**/*', recursive=True): #recursive=True开启递归 if os.path.isfile(i): #判断是否是文件 file_lst.append(i) #如果是文件则将绝对路径存放到列表中 #遍历上面的路径列表 for x in file_lst: for y in file_lst: if x != y and os.path.exists(x) and os.path.exists(y): #如果文件存在 if filecmp.cmp(x, y): #进行文件比较 os.remove(y) #进行文件删除

评论收藏

内容反馈

版权申诉