Python如何处理大数据？3个技巧效率提升攻略（推荐）

python

python函数

175 浏览量 2021-01-01 02:04:53 上传评论 1 收藏 71KB PDF 举报

资源详情

资源评论

Python如何处理大数据？如何处理大数据？3个技巧效率提升攻略（推荐）个技巧效率提升攻略（推荐）

如果你有个5、6 G 大小的文件，想把文件内容读出来做一些处理然后存到另外的文件去，你会使用什么进行处理呢？不用在

线等，给几个错误示范：有人用multiprocessing 处理，但是效率非常低。于是，有人用python处理大文件还是会存在效率上

的问题。因为效率只是和预期的时间有关，不会报错，报错代表程序本身出现问题了~

所以，为什么用python处理大文件总有效率问题？

如果工作需要，立刻处理一个大文件，你需要注意两点：

01、大型文件的读取效率、大型文件的读取效率

面对100w行的大型数据，经过测试各种文件读取方式，得出结论：

with open(filename,"rb") as f:

for fLine in f:

pass

方式最快，100w行全遍历2.7秒。

基本满足中大型文件处理效率需求。如果rb改为r，慢6倍。但是此方式处理文件，fLine为bytes类型。但是python自行断行，

仍旧能很好的以行为单位处理读取内容。

02、文本处理效率问题、文本处理效率问题

这里举例ascii定长文件,因为这个也并不是分隔符文件，所以打算采用列表操作实现数据分割。但是问题是处理20w条数据，

时间急剧上升到12s。本以为是byte.decode增加了时间。遂去除decode全程bytes处理。但是发现效率还是很差。

最后用最简单方式测试，首次运行，最简单方式也要7.5秒100w次。

想知道这个方式处理的完整代码是什么吗？扫描文末二维码，联系小编可以获取哦~

那么关于python处理大文件的技巧，从网络整理三点：列表、文件属性、字典三个点来看看。

1.列表处理列表处理

def fun(x):尽量选择集合、字典数据类型，千万不要选择列表，列表的查询速度会超级慢，同样的，在已经使用集合或字典的

情况下，不要再转化成列表进行操作，比如：

values_count = 0

# 不要用这种的

if values in dict.values():

values_count += 1

# 尽量用这种的

if keys,values in dict:

values_count += 1

后者的速度会比前者快好多好多。

2. 对于文件属性对于文件属性

如果遇到某个文件，其中有属性相同的，但又不能进行去重操作，没有办法使用集合或字典时，可以增加属性，比如将原数据

重新映射出一列计数属性，让每一条属性具有唯一性，从而可以用字典或集合处理：

return '(' + str(x) + ', 1)'

list(map(fun,[1,2,3]))

使用map函数将多个相同属性增加不同项。

3. 对于字典对于字典

多使用iteritems()少使用items()，iteritems()返回迭代器：

>>> d = {'a':1,'b':2}

>>> for i in d.items() :

.... print i

('a',1)

('b',2)

>>> for k,v in d.iteritems() :

... print k,v

('a',1)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

Python如何处理大数据？3个技巧效率提升攻略（推荐）

评论0

最新资源

Python如何处理大数据？3个技巧效率提升攻略（推荐）

评论0

最新资源

相关推荐

大数据大代码_python大数据_python_python_

Python 大数据分析处理

Python 大数据

python处理海量数据实战

Python与大数据专业分析课件(470P).pdf

如何使用Pandas处理大批量数据

python读取几个G的csv文件方法

Python 与大数据Python 与大数据

python大数据-为什么Python编程非常适合大数据？.pdf

Python金融大数据风控建模实战.zip

完整图文版Python高级教程 Python在金融大数据领域应用 08 第八讲 金融随机模拟Python实现（共27页）.ppt

基于python的大数据反电信诈骗管理系统设计与实现.docx

基于python编写的大数据推荐系统

Python大数据之Spark编程基础与提升视频课程课件PPT模板.pptx

python大数据入门数据集.txt

Python基于大数据的图书分析系统的设计与实现（Python 毕业设计，带源码，教程）.zip

完整图文版Python高级教程 Python在金融大数据领域的应用 06 第六讲 Python效率分析与提升（共18页）.ppt

2021Python+大数据开发.pdf

Python基础与大数据应用-习题答案.zip

python基于大数据的旅游景点推荐系统.pdf

基于python的大数据客流分析系统.zip

完整图文版Python高级教程 Python在金融大数据领域的应用 05 第五讲 Python中的输入输出（共21页）.ppt

0-python大数据可视化.zip

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

完整图文版Python高级教程 Python在金融大数据领域应用 08 第八讲金融随机模拟Python实现（共27页）.ppt

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar