没有合适的资源?快使用搜索试试~ 我知道了~
insight-data-eng-coding-challenge:Insight 数据工程编码挑战
共7个文件
txt:3个
py:2个
sh:1个
需积分: 5 0 下载量 149 浏览量
2021-07-18
12:15:30
上传
评论
收藏 5KB ZIP 举报
温馨提示
洞察数据工程编码挑战 这个挑战是实现两个功能: 计算每个单词在推特上的总次数。 计算每条推文的唯一词的中位数,并在推文进来时更新这个中位数。 要执行程序,请将 run.sh 作为可执行文件执行。 程序的输出可以在 tweet_output 下找到 组织: 第一个程序利用 defaultdict 数据结构来跟踪词频,并假设字典适合内存 第二个程序计算运行中位数。 它假设所有推文的唯一字数都适合内存。 由于我们利用/维护最小堆和最大堆来跟踪任何给定点的中值,因此可以在 1 次数据传递中完成运行中值计算。 如果我们使用列表理解来计算中值,则中值计算可以缩短很多,但是它需要处理 O(number of tweet) 次的数据,这是浪费。
资源推荐
资源详情
资源评论
收起资源包目录
insight-data-eng-coding-challenge-master.zip (7个子文件)
insight-data-eng-coding-challenge-master
README.md 1017B
tweet_input
tweets.txt 340B
run.sh 522B
tweet_output
ft1.txt 375B
ft2.txt 15B
src
words_tweeted.py 2KB
median_unique.py 3KB
共 7 条
- 1
资源评论
佐罗先生
- 粉丝: 33
- 资源: 4750
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 【uniapp毕业设计】宠物商城源码(完整前后端+mysql+说明文档).zip
- 容量退化前电池循环寿命的数据驱动预测(电池寿命预测精度排名第二方案)
- GetQzoneHistory_1.0.2_Single.zip
- 2024年黑龙江省普通高校专升本考生总成绩一分段统计表【39护理学】.xls
- mysql-installer-8.39
- 基于C#实现为电动车租赁开发的会员管理系统+项目源码+文档说明
- Docker bitnami/zookeeper:3.8.4镜像包
- 学习threejs,导入PLY格式的模型
- 文档详细介绍了如何在Windows主机上使用VMware Workstation Player创建、使用和管理虚拟机,包括系统要
- vsdbg version 17.12.11102.1
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功