• web前端 使用纯HTML,不使用CSS,利用的table布局hadoop

    1、创建一个文本文件main.html,用记事本打开 2、使用table完成布局和表格部分设计,网页宽度设计为1170px; 3、复制文本,使用<font><b>等标记定义文本格式 4、复制网页链接地址 5、复制网页图片 hadoop.apache.org/releases.html

    0
    122
    36KB
    2022-11-09
    11
  • spark实现财经新闻搜索引擎(正文提取、中文分词、倒排索引构建、执行搜索)

    财经新闻搜索引擎 从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。 评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分 (2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据 评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分 (3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值 评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要 评分标准:25分,有交互式UI(如网页)+10分 (5)优化和执行 评分标准:shuffle优化并做对比测试+10分;第(2)

    0
    274
    6.88MB
    2022-03-15
    99.9
  • 大数据之贷款预测代码+超详细论文解释及结果.docx

    8.贷款预测 该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。 数据集: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

    5
    478
    5.36MB
    2021-10-12
    22.9
  • 爬取成都链家租房信息租房基本数据信息 .docx

    爬取成都链家租房信息(除 selenium 库外,其他爬取技术不限!) https://cd.lianjia.com/zufang/ 获取成都市区(锦江、青羊、武侯、高新、成华、金牛、天府新区、高新西共 8 个行政区)租房基本数据信息 爬取的内容存入 Excel 文件或 CSV 文件(可以是 2 张表,步骤 1 为一张表,步 骤 2-3 为一张表)

    0
    360
    197KB
    2021-10-12
    59.9
  • 分享小兵

    成功上传3个资源即可获取
  • 分享学徒

    成功上传1个资源即可获取
  • 持续创作

    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 创作能手

    授予每个自然周发布4篇到6篇原创IT博文的用户
  • 新秀勋章

    用户首次发布原创文章,审核通过后即可获得
关注 私信
上传资源赚积分or赚钱