python根据邮箱地址对邮箱进行分类（百万以上数据）资源-CSDN文库

共1个文件

py：1个

需积分: 50 80 浏览量 2015-01-28 14:59:15 上传评论 3 收藏 1KB RAR 举报

在Python编程领域，处理大规模数据是一项常见的挑战。在这个场景中，我们关注的是如何利用Python高效地对百万级别的邮箱地址进行分类。"dealmail.py"这个文件很可能是实现这个任务的脚本，它展示了如何在单线程环境下快速处理大量邮箱数据，主要优化点在于减少I/O操作的次数。让我们探讨邮箱地址分类的基本概念。分类通常是基于邮箱的域名部分，例如"example@gmail.com"中的"gmail.com"。通常，我们可以将邮箱分为不同的类别，如工作邮箱、个人邮箱、教育机构邮箱等，这取决于域名。对于百万级别的数据，手动分类是不现实的，所以我们需要编写程序自动化这个过程。在Python中，我们可以使用正则表达式或者字符串操作函数来解析和提取邮箱地址的域名部分。例如，我们可以用`split('@')`方法分割邮箱地址，获取域名。接着，我们可以创建一个字典来存储每个域名及其出现的次数，以此实现分类。考虑到数据量大，频繁的磁盘读写会成为性能瓶颈。为了减少I/O次数，我们可以一次性读取整个邮箱文件，然后内存中处理数据。使用`pandas`库可以方便地处理这种大规模文本数据，通过`read_csv()`或`read_lines()`函数加载数据，然后进行分类操作。接下来，我们可以将处理后的结果按照分类写回磁盘，这里的关键是合理组织写入操作。可以考虑将相同分类的邮箱合并成一个文件，然后批量写入，而不是为每一个邮箱创建一个单独的文件。单线程实现虽然限制了并行处理的能力，但在处理百万级别数据时，如果CPU资源充足，单线程可以避免多线程同步带来的开销，可能仍然能达到很好的性能。然而，对于更大的数据集，使用多线程或多进程，或者结合异步I/O，可能会进一步提高效率。 Python标准库中的`concurrent.futures`模块提供了线程池和进程池，可以用来并行处理数据。另外，`asyncio`库支持异步I/O，适用于IO密集型的任务，例如大量文件读写。此外，优化策略还可以包括预分配文件大小、使用缓冲I/O以及合理设置缓存大小等。在Python中，`mmap`模块提供内存映射文件功能，允许将文件内容直接映射到内存，这在处理大型文件时能有效减少I/O操作。总结起来，"dealmail.py"这个脚本可能实现了以下步骤： 1. 读取包含百万邮箱的文件。 2. 使用正则表达式或字符串操作对邮箱地址进行解析。 3. 使用字典记录每个域名及其出现次数，实现分类。 4. 减少I/O操作，通过批量写入将分类后的邮箱保存到文件。 5. 单线程执行，确保效率。这样的解决方案在处理大数据时兼顾了效率和内存管理，是Python处理大规模数据的一个典型应用实例。

资源推荐

资源详情

资源评论

收起资源包目录

dealmail.rar （1个子文件）

dealmail.py 3KB

#-*- coding:utf-8 –*- import time #多线程处理，因为多线程处理的结果并没有多少提高，所以去掉了多线程 #email地址比较函数 def cmp_emailprix(x,y): split_x = x.split('@') split_y = y.split('@') prix_x = split_x.pop() prix_y = split_y.pop() u1 = prix_x.upper() u2 = prix_y.upper() if(u1 < u2): return -1 if(u1 > u2): return 1 return 0 #获取文件行数用来分配线程的 def getfilelines(filename): count = 0 thefile = open(filename,'rb') while True: buffer = thefile.read(8192*1024) if not buffer: break count += buffer.count('\n') return count #主函数 def dealemail(filename,thread_num): #lines_count = getfilelines(filename) thefile = open(filename,'rb') alle = list() for line in thefile: alle.append(line) sort_alle = sorted(alle,cmp_emailprix) #排序所有email，遍历所有排序过的email，如果当前遍历的email和上一个遍历的email不同， #则新建一个list 然后将这个list添加到字典中 dicte = {} lastemail = 'start@!!!!!!!!!!!!!!!!!!!!#####$$$$$$$$$$TTTT.com.cn.net'; for email in sort_alle: if cmp_emailprix(lastemail,email)!=0: newlist = list() splitat = email.split('@') key = splitat.pop() px = key.strip('\n') px = px.strip('\r') #此处可以用正则表达式 px = px.replace(' ','').replace('>','').replace('<','').replace('/','').replace('\\','').replace('|','').replace(':','').replace('"','').replace('*','').replace('?','') key = px key = key.lower() #print 'key=',key newlist.append(email) dicte[key] = newlist else: splitat = email.split('@') key = splitat.pop() px = key.strip('\n') px = px.strip('\r') #此处可以用正则表达式 px = px.replace(' ','').replace('>','').replace('<','').replace('/','').replace('\\','').replace('|','').replace(':','').replace('"','').replace('*','').replace('?','') key = px key = key.lower() #print 'key=',key curlist = dicte[key] curlist.append(email) lastemail = email #遍历字典，将不同的后缀名写入到同一个文件中区 <>,/,\,|,:,"",*,? listxxx = list() for (k,v) in dicte.items(): print 'open file',k,'.txt and save' filen = 'email/'+k +'.txt' #如果后缀名邮箱个数不大100，则将这个邮箱写入到指定文件中 if(len(dicte[k])>100): file_object = open(filen, 'w+') file_object.writelines(dicte[k]) else: listxxx.extend(dicte[k]) print 'open file','xxx','.txt and save' file_object1 = open('email/'+ 'xxx' +'.txt','w+') file_object1.writelines(listxxx) return 0 start = time.time() dealemail('111.txt',2) end = time.time() print 'deal the emials used ',end-start,'s!'

评论收藏

内容反馈