没有合适的资源?快使用搜索试试~ 我知道了~
第一届“中国软件杯”大学生软件设计大赛题目副本.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 70 浏览量
2022-06-17
11:36:43
上传
评论
收藏 1.34MB PDF 举报
温馨提示
试读
20页
第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf第一届“中国软件杯”大学生软件设计大赛题目副本.pdf
资源推荐
资源详情
资源评论
路漫漫其修远兮,吾将上下而求索 - 百度文库
第一届“中国软件杯”大学生软件设计大赛
比赛题目
一、
聚焦搜索引擎
随着各种 B2C、C2C、B2B 的网站的成长和各种测评网站的建设。
足不出户的网络购物已然成为大家生活中的一部分。但是随之而来
想要从各种网站中找到最好、最划算的商品也非常困难。所以提供
一个高质量的在线商品搜索平台无疑会为网络购物带来更好的未
来。虽然用户可以通过 Google、百度、Yahoo 等通用搜索引擎,在
海量的网络数据中取得一些信息。但是通用性搜索引擎也存在着一
定的局限性,如:
. 不同领域、不同背景的用户往往具有不同的检索目的和需求,
通用搜索引擎所返回的结果包含大量用户不关心的信息。
. 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索
引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
赛题简介:介绍整个赛
.
题的思路和整体要求
万维网数据形式的丰富和网络技术的不断发展,图片、数据
库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这
些信息含量密集且具有一定结构的数据无能为力,不能很好地发现
和获取。
. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语
义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有
选择的访问万维网上的网页与相关的链接,获取所需要的信息。与
通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与
某一特定主题内容相关的网页,为面向主题的用户查询准备数据资
源。
传统网络爬虫是一个通过网络,自动下载网页信息,并未搜索引擎
提供信息来源的一个重要组成部分。传统爬虫从一个或若干初始网
页的 URL 开始,获得初始网页上的 URL,在抓取网页的过程中,不
百度文库 - 让每个人平等地提升自我
路漫漫其修远兮,吾将上下而求索 - 百度文库
赛题业务场景:描述赛断从当前页面上抽取新的 URL 放入队列,直到满足系统的一定停止
题相关的真实企业业 条件。在这个过程中对于 URL 的来源和内容不做强制性的要求,统
务背景。从真实场景 一的提取关键字建立索引以备搜索引擎使用。
中,适当简化或者提炼聚焦爬虫的特点从“聚焦”两字便可以体现,它的搜索和下载会只
出适合比赛的赛题场 针对特定的信息和网站。需要根据一定的网页分析算法过滤与主题
景 无关的链接,保留有用的链接并将其放入等待抓取的 URL 队列。并
会针对抓去的页面按照所需的信息进行分析、过滤,提取出有用的
信息并建立相关索引。在后续的分析过程中得出的信息,将为后续
的抓取过程给出反馈和指导。
针对目前各大网络购物平台的数据,提供一个聚焦于出售商品的网
络爬虫无疑会为网络用户的购物行为带来更友好的搜索和对比。最
终让用户能用最快的时间找到最合适的商品。
. 对网络上的各种商品建立统一数据模型
能够针对目前各种购物平台和测评网站给出的复杂信息,建立一套
适用于各种不同类型商品的数据模型。如,笔记本电脑存在属性:
品牌、CPU 主频、内存、硬盘、电源、屏幕尺寸、操作系统、显卡、
电池类型、重量等;服装存在属性:品牌、款式、尺码、颜色、面
料、风格、季节等。对比笔记本和服装可以看出,不同类型的商品
的属性数量和含义都各不相同,且存在较大的差异。
考核标准:
建立统一的数据模型存储数据(必须完成):统一的数据模型
是通过多张表能够描述各种类型商品的基本属性,而不需要针对每种
商品建立不同的存储表。
模型的可扩展性(可选):可以方便的在模型中添加商品属性,
而不需要大量重构表结构。
模型的存取性能(可选):在保证前两点的基础之上,提升该
数据模型存取数据的速度。
对网页和数据的分析过滤
能够在指定的网页入口(如:、.cn )中通过爬虫按照 1 中建立的模
型分析商品的有效信息(基本属性),并保存相应数据信息。如:淘
百度文库 - 让每个人平等地提升自我
路漫漫其修远兮,吾将上下而求索 - 百度文库
功能性需求 宝网针对某个商品的描述,除了基本属性外还包括了一些详细描述、
商家信息、成交记录、付款方式等。我们需要剔除除了商品信息以
外的部分,做到准确分析。
考核标准:
可以自行设置网页入口(必须完成)
准确找到网页中的属性信息(必须完成):如:下图中只有红
色部分的信息为有效的商品信息。而针对退货说明等对于商品信息
的建立是不需要分析处理的。
利用商家其他信息指定搜索策略(可选):如部分商家的信誉
等级较高(皇冠)、商品出货量较大,则认为该商家的商品信息较为
可信,提高该商家的所有商品信息的爬取等级,重点爬取。反之如
果一个商家评价较差、且几乎没有更新、没有成交,则认为商家的
商品信息可信度不高,降低该商家等级,遇到该商家的 URL 可以放
弃。
针对网页分析结果和数据的展示
通过用户输入搜索关键字,可以展示用户所搜索的商品的相关信息。
考核标准:
根据关键字,搜索商品信息,提供商品展示界面(必须完成)。
展示商品价格、评价等信息(可选),如:近期商品的价格趋
势图、购买数量趋势图等。
提供商品的横向、纵向关联信息展示(可选),如:搜索 HP
EliteBook 6930P 笔记本电脑,可以将相似属性(与该商品相同的价
格区间、品牌、配置等信息)进行扩展展示。要求展示方式新颖、
直观。
非功能性需求
其他限制条件:开发环对具体开发环境和语言不做要求。
境、实验平台、开发语
言、数据库、编译器等
百度文库 - 让每个人平等地提升自我
路漫漫其修远兮,吾将上下而求索 - 百度文库
限制条件
测试数据或平台:提供可自行选用、.cn 等主流网购和评测网站作为数据来源。
给参赛者的测试环境
和测试数据。(可提供
电子档)
其他要求
二、
时空数据的有损压缩算法
时间、空间、属性是地理现象的三个基本特征,也是GIS 数
赛题简介:介绍整个赛据库的三种基本数据组成。这里的“空间”指空间位置数据及
题的思路和整体要求 其派生数据。“属性”指与空间位置无派生关系的专题属性数据。
“时间”则指时间、空间和属性状态的时变信息。随着近年来
以空间数据库为基础的 GIS 研究和应用的不断深入,随时间而
变化的信息越来越受到人们的关注,因而提出了时态 GIS(简
称 TGIS)的概念。时态 GIS 的组织核心是时空数据库,时空数
据模型则是时空数据库的基础。
时空数据库的数据主要来自于一类按照时间周期返回位置及属
性数据的传感器,这类传感器通常会被安装在一些移动的个体
上,比如车辆或者个人。通过传感器周期传回的位置及属性数
据,系统可以完整的记录下个体的移动轨迹以及对应时间属性
值(如速度、温度等)。当前的应用发展趋势表明,被监测个体
的数目正在呈爆炸性的增长,同时随着技术的进步以及应用的
需求,数据回传的周期也越来越短。例如,南京市的私家车保
有量大约在 100 万台左右,如果后台系统想要实时的知道每台
车的位置及属性信息,至少需要对每台车进行秒级采样,我们
假设每次每台车上传的数据为 50 字节,其每天的数据增加将达
到:
4.02T=50byte/条*100 万*24*60*60
可以想见系统长时间的运行将占用非常庞大的磁盘空间,反之
如果针对这些采集数据进行有效的压缩,而且压缩算法具备较
高的压缩比,则能够节约大量的磁盘空间,极大的降低系统的
百度文库 - 让每个人平等地提升自我
剩余19页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6571
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功