大数据文档下载地址、期末考核资源下载-碳酸小星球Yaro的资源-CSDN下载

web前端使用纯HTML，不使用CSS，利用的table布局hadoop

1、创建一个文本文件main.html，用记事本打开 2、使用table完成布局和表格部分设计，网页宽度设计为1170px； 3、复制文本，使用<font><b>等标记定义文本格式 4、复制网页链接地址 5、复制网页图片 hadoop.apache.org/releases.html

评级：0

浏览量：122

资源大小：36KB

上传时间：2022-11-09

所需积分： 11
spark实现财经新闻搜索引擎（正文提取、中文分词、倒排索引构建、执行搜索）

财经新闻搜索引擎从财经新闻网页数据开始，进行正文提取、中文分词、倒排索引构建、执行搜索和UI。要求技术：MapReduce或Spark；执行搜索和UI采用Spark或Java 步骤：（1）新闻正文提取，采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。评分标准：一个栏目15分（多一个栏目+5分）（25分）；使用通用算法提取不固定格式正文（不算很难）40分（2）中文分词（worldcount），将正文进行中文分词，保存每个新闻的URL、标题、正文等数据评分标准：分词并将正文存储到文件15分；存储到HBase（本地）+5分（3）倒排索引构建，将词汇、次数和文章ID构建成倒排索引和对应的TF值评分标准：计算倒排索引并存储到文本文件15分；存储到HBase（本地）+5分；计算TF值5分（4）执行搜索，对用户搜索词进行分词，从倒排索引读取对应词汇，读取TF值，读取数据计算IDF值，根据IF×IDF值对词汇对应的文章进行排序，显示排序后的正文摘要评分标准：25分，有交互式UI（如网页）+10分（5）优化和执行评分标准：shuffle优化并做对比测试+10分；第（2）

评级：0

浏览量：274

资源大小：6.88MB

上传时间：2022-03-15

所需金额： 99.9
大数据之贷款预测代码+超详细论文解释及结果.docx

8.贷款预测该数据集取自Analytics Vidhya，包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。数据集： https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

评级：5

浏览量：478

资源大小：5.36MB

上传时间：2021-10-12

所需金额： 22.9
爬取成都链家租房信息租房基本数据信息 .docx

爬取成都链家租房信息（除 selenium 库外，其他爬取技术不限！） https://cd.lianjia.com/zufang/ 获取成都市区（锦江、青羊、武侯、高新、成华、金牛、天府新区、高新西共 8 个行政区）租房基本数据信息爬取的内容存入 Excel 文件或 CSV 文件（可以是 2 张表，步骤 1 为一张表，步骤 2-3 为一张表）

评级：0

浏览量：360

资源大小：197KB

上传时间：2021-10-12

所需金额： 59.9