没有合适的资源?快使用搜索试试~ 我知道了~
佘嘉洛+容器标签实验设计1
需积分: 0 0 下载量 145 浏览量
2022-08-08
20:52:32
上传
评论
收藏 11KB DOCX 举报
温馨提示
试读
1页
佘嘉洛+容器标签实验设计1
资源详情
资源评论
资源推荐
容器实验设计
数据提取
• 优先从DockerHub中提取数据。目前基本以及完成该步的工作。基本的思路是访问
DockerHub的API。
– official_image_url:
https://hub.docker.com/api/content/v1/products/search?page_size=2
5&image_filter=official&type=image&page=
– verified_publisher_image_url:
https://hub.docker.com/api/content/v1/products/search?image_filte
r=store&page_size=25&q=&type=image&page=
– other_image_url_head:
https://hub.docker.com/api/content/v1/products/search?page_size=2
5&q=
• 当从DockerHub中发现镜像的长描述较短时,应该从GitHub中获取相应的数据进行
处理,此部分的思路是通过PyGitHub,因为本身爬虫就是通过python写的,于是
寻找了一个python库进行处理,关键在于不一定是长描述较短时,其余描述比较
好的也可以从github中获取进而使得数据提取更好。
• stackoverflow更多的是对容器安装出现问题进行的描述,我和雨晴觉得不太合适
。
数据处理
数据处理打算依照GitHub对数据进行处理的方式进行:
对长文本描述进行预处理:README包含了代码段等不需要关注的信息,G对README中
标记相关部分和不相关部分,通过常见的格式(缩进、空格以及MarkDown的语法)来确
定噪声。然后删除README中的无关要素,即噪声。(需要进行开发,这个地方工作量也
有,主要是处理字符串有点麻烦,看能不能找点相关的库,但是感觉不需要,用正则进行
处理即可。)
核心算法
打算不变,就按照展哥原先的逻辑走,也感觉改不了。
对比实验
• 还是坚定不变,使用EnTagRec进行对比。
• 看能不能要到D-Tagger的源码进行对比实验。
主要还是源码的问题,别人给不给。
白小俗
- 粉丝: 33
- 资源: 302
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0