没有合适的资源?快使用搜索试试~ 我知道了~
Github-full-data-set:生成GitHub数据(〜1M存储库,2017年5月)
共10个文件
py:3个
txt:2个
xac:1个
需积分: 10 0 下载量 44 浏览量
2021-02-03
05:52:58
上传
评论
收藏 283.87MB ZIP 举报
温馨提示
Github存储库数据集 从GitHub刮取了超过100万个存储库! 1M数据集 数据集(TXT格式)位于: 记录的字段是: 名称 clone_url created_at 货叉(FORKS) has_issues 语言(计算机语言) subscriptions_count(WATCH) watchers_count(STARTS) stargazers_count 尺寸 由于大小限制,我不得不将可用标签缩小到上述范围。 我提供了10万个数据集的所有标签(对于10万个对象,大约260Mb)。 另外,如果您自己抓取数据,则可以拥有所有标签。 以下是更多信息。 统计/机器学习思想 根据源代码预测星星/叉子的数量。 或者只是在自述文件上。 所有变量之间的关系。 或仅提取大量源代码并对其应用语言模型: 示例:如何获取大量JavaScript源代码: 在数据集中,用等于JavaScript $language进行过滤 然后将存储库克隆到某个地方, git clone $clone_url 最终,列出所有JS文件, find $directory -type f -
资源推荐
资源详情
资源评论
收起资源包目录
Github-full-data-set-master.zip (10个子文件)
Github-full-data-set-master
data_100k
xab 95MB
xaa 95MB
xac 72.43MB
convert_to_txt.py 1KB
data_1m
GITHUB.1M.txt 91.07MB
requirements.txt 15B
LICENSE 11KB
README.md 3KB
main_run_scraper.py 2KB
read.py 1023B
共 10 条
- 1
资源评论
weixin_42097189
- 粉丝: 39
- 资源: 4567
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- CLShanYanSDKDataList.sqlite
- C#ASP.NET销售管理系统源码数据库 SQL2008源码类型 WebForm
- 1111232132132132
- 基于MAPPO算法与DL优化预编码的多用户MISO通信系统双时间尺度传输方案设计源码
- 基于微信拍照功能的ohos开源CameraView控件设计源码
- 基于JavaCV的RTSP转HTTP-FLV流媒体服务设计源码
- 基于Python的西北工业大学MobilePhone软件开发项目设计源码
- 基于Java语言实现的LeetCode-hot100题库精选设计源码
- 基于ThinkPHP5.0的壹凯巴cms设计源码,适用于小型企业建站灵活组装开发
- C#ASP.NET酒店管理系统源码(WPF)数据库 Access源码类型 WinForm
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功