10M内存处理1G文件,找出访问最多的前5个url,需要代码实现外部排序(分而治之)
Step1.
参考IE允许最大url长度2083个字符,10M约5000行。
将1G的文件每5000行切分成一个小文件
Step2.
将步骤1中切分的小文件,相同URL进行合并,
并且对URL进行哈希使其散列到100个小文件中(1G/10M≈100;相同URL、同义词URL在同一个hash文件中)
Step3.
每个hash小文件相同URL合并,放入内存排序找出top5;在所有top5中找出最终的top5
注意>
1.过程中可借用jvm内存监控工具进行监控,例如Jprofiler
2.Idea中通过Edit Configurations设置运行时内存为10M—— VM options:-Xms10m -Xmx10m
3.对于导致内存溢出的对(String char[]),进行代码调优
Java实现外部排序(10M内存排序1G大文件)
需积分: 49 188 浏览量
2020-04-27
09:22:10
上传
评论 1
收藏 13KB RAR 举报
linzxcool
- 粉丝: 0
- 资源: 2
最新资源
- Semantic Color Palette 语义调色板Unity游戏开发插件资源unitypackage
- Low Poly Nature:Lush and Diverse Environments低聚自然郁郁Unity低多边形模型资源
- voc数据集是什么-我们如何使用voc数据集
- Edgar Pro-Procedural Level Generator程序关卡生成器Unity开发插件unitypackage
- 宝藏软件m3u8下载器\m3u8DL-CLI
- 三次样条插值的介绍-什么是三次样条插值原理
- http的一些相关介绍-对于我们来说什么是http
- 全卷积网络基于voc2012数据集简单pytorch实现
- pycharm的一些介绍-用于更好的学习python
- 基于C++的程序设计大赛天梯赛L2答案(天梯赛)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈