没有合适的资源?快使用搜索试试~ 我知道了~
insight_coding_challenge:InsightDataScience 数据工程编码挑战
共30个文件
txt:19个
py:7个
sh:2个
需积分: 9 0 下载量 144 浏览量
2021-07-19
10:56:18
上传
评论
收藏 27KB ZIP 举报
温馨提示
洞察数据工程 - 编码挑战 [解决方案] 描述 这是的 Python3 解决方案。 要在 Linux/UNIX 系统上运行该解决方案,只需在顶级目录中执行run.sh script 。 文件夹tests/包含一系列单元测试、可伸缩性测试和端到端测试,所有这些都可以通过执行runtests.sh从tests/运行。 解决方案说明 词频分布 挑战的第一部分要求我们维护推文的词频分布。 每次收到一条新推文时,我们都应该更新频率分布。 我们应该能够实时报告给定单词的当前频率。 使用键值字典,实现时间复杂度为O[1]解决方案很简单。 当一条新推文到达时,我们获取每个单词并检查它是否存在于字典中。 如果没有找到这个词,我们将这个词作为一个新的键添加到字典中,并将该键的值设置为 1。如果该词已经是字典中的一个键,我们只需将该词的键值加 1 . 由于字典提供分摊的常量时间查找和插入,因此该解决方案的
资源推荐
资源详情
资源评论
收起资源包目录
insight_coding_challenge-master.zip (30个子文件)
insight_coding_challenge-master
tweets_input
tweets.txt 340B
.gitignore 6B
src
__init__.py 0B
median_unique.py 3KB
words_tweeted.py 2KB
tweets_output
ft1.txt 1KB
ft2.txt 11B
README.md 5KB
run.sh 163B
tests
data
test2
tweets_input
tweets.txt 10KB
tweets_output
ft1.txt 7KB
ft2.txt 397B
expected
ft1.txt 7KB
ft2.txt 263B
test3
tweets_input
tweets.txt 4KB
tweets_output
ft1.txt 6KB
ft2.txt 300B
expected
ft1.txt 6KB
ft2.txt 207B
corpus.txt 2KB
test1
tweets_input
tweets.txt 340B
tweets_output
ft1.txt 1KB
ft2.txt 11B
expected
ft1.txt 1KB
ft2.txt 10B
generate_testing_data.py 2KB
__init__.py 0B
unit_tests.py 1KB
scalability_tests.py 1KB
runtests.sh 820B
共 30 条
- 1
资源评论
小旗旗
- 粉丝: 23
- 资源: 4557
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功