MapReduce暑假大作业——基于紫荆的种子推荐.zip资源-CSDN文库

共5个文件

java：5个

29 浏览量 2024-03-13 17:23:58 上传评论收藏 7KB ZIP 举报

MapReduce是Google提出的一种分布式计算模型，主要用于处理和生成大规模数据集。在这个“MapReduce暑假大作业——基于紫荆的种子推荐”项目中，我们将会深入理解并实践如何利用MapReduce来解决实际问题，特别是针对大数据环境下的推荐系统。这个项目涉及到的核心知识点包括MapReduce的工作原理、Hadoop框架以及分布式文件系统。 MapReduce的核心思想可以概括为两个主要阶段：Map和Reduce。在Map阶段，原始数据被分割成多个小块，并在各个节点上并行处理。每个节点上的Mapper函数对输入数据进行转换，生成中间键值对。然后，Reduce阶段将这些中间键值对进行聚合，通过Reducer函数进一步处理，生成最终结果。这种分而治之的策略使得MapReduce能够高效地处理海量数据。 Hadoop是Apache基金会的一个开源项目，它提供了实现MapReduce计算模型的基础设施。Hadoop分布式文件系统（HDFS）是Hadoop的关键组件，设计用于在廉价硬件上存储和处理大规模数据。HDFS具有高容错性和高吞吐量的特点，使得数据处理可以在大规模集群上进行。此外，Hadoop还包含YARN资源管理系统，负责调度和管理集群中的计算资源。在这个暑假作业中，我们将基于紫荆的种子推荐系统来应用MapReduce。紫荆是一种流行的推荐算法，它基于用户的历史行为和物品之间的相似性进行推荐。在Map阶段，我们可以计算用户与物品的交互频率，以及物品之间的相似度。Reduce阶段则负责整合这些信息，生成个性化的推荐列表。这个过程可能需要多次迭代，以优化推荐效果。为了实现这个项目，我们需要掌握Java编程，因为MapReduce的默认编程接口是Java。同时，还需要熟悉Hadoop的生态系统，包括HDFS的API和配置，以及如何提交MapReduce作业到集群。另外，对于紫荆算法的理解也是必不可少的，包括其数学基础和实现细节。在MapReduceAssignment-master文件夹中，通常会包含源代码、配置文件以及运行和测试作业所需的脚本。开发者需要理解这些文件的作用，并根据实际需求进行修改。例如，源代码可能包含Map和Reduce函数的实现，配置文件定义了Hadoop作业的参数，而脚本则用于编译、打包和提交作业。这个暑假大作业将引导我们深入理解MapReduce的编程模型，掌握Hadoop分布式文件系统的基本操作，以及如何应用紫荆算法实现个性化推荐。通过实践，我们不仅可以提升大数据处理能力，还能培养解决问题和团队协作的能力。在完成这个项目的过程中，我们将会面对一系列挑战，如数据预处理、性能优化以及错误调试，这些都是大数据工程师日常工作中不可或缺的部分。

资源推荐

资源详情

资源评论

收起资源包目录

MapReduce暑假大作业——基于紫荆的种子推荐.zip （5个子文件）

MapReduceAssignment-master

GetZijingBTInfo

src

GetTorrentList.java 5KB

GetTorrentDownloadList.java 5KB

Main.java 105B

TorrentList.java 3KB

GetTorrentDetailedInfo.java 2KB

import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.io.PrintWriter; import java.util.Iterator; import java.util.LinkedList; import java.util.List; import java.util.Scanner; /** * 获取紫荆种子的已完成下载列表 * Created by user36 on 6/25/14. */ public class GetTorrentDownloadList { static PrintWriter outputWriter; static PrintWriter failWriter; /** * 向文件写入一条下载记录 * 写入格式是“种子ID \t 用户1,用户2,用户3,... \n” * * @param tid 种子ID * @param uidList 用户列表 */ public static void writeRecord(String tid, List<String> uidList) { if(uidList == null) return; outputWriter.print(tid + "\t"); Iterator<String> it; StringBuilder builder = new StringBuilder(); for (it = uidList.iterator(); it.hasNext(); ) { builder.append(it.next()); if (it.hasNext()) builder.append(','); } outputWriter.println(builder.toString()); // System.out.println(builder.toString()); outputWriter.flush(); } public static void main(String[] args) throws FileNotFoundException, InterruptedException { outputWriter = new PrintWriter("torrentDownloadList.txt"); failWriter = new PrintWriter("fail.txt"); //从tID.unique.txt中读取种子ID列表 Scanner scanner = new Scanner(new File("tID.unique.txt")); while (scanner.hasNextLine()) { String tid = scanner.nextLine(); System.err.println("---- " + tid + " --->"); List<String> uidList = getDownloadUserList(tid); writeRecord(tid, uidList); Thread.sleep(500); } outputWriter.close(); scanner.close(); } /** * 获取某个种子的已完成下载用户列表 * * @param tid 种子ID * @return 用户ID列表 */ public static List<String> getDownloadUserList(String tid) { //获得种子已下载用户列表的信息页 String url = "http://zijingbt.njuftp.org/stats.html?id=" + tid + "&show=completes#completes"; Document document = getURLDocument(url); if(document == null){ failWriter.println(tid); failWriter.flush(); return null; } assert (document != null); //获得用户名单 Elements table = document.getElementsByAttributeValue("summary","completes"); Elements members = table.select("a.member"); members.addAll(table.select("a.friends")); members.addAll(table.select("a.uploader")); LinkedList<String> linkedList = new LinkedList<String>(); for(Element member :members){ //System.out.println(member.ownText()); linkedList.add(member.ownText()); } return linkedList; } //获取指定URL的页面 public static Document getURLDocument(String url) { Connection c = Jsoup.connect(url); c .userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2017.2 Safari/537.36 OPR/24.0.1537.0 (Edition Developer)"); c.cookie("login", "bsidb"); c.cookie("uid", "3435"); c.cookie("md5", "%3D%0CjZ%82%96%D6%2C%01S%3FY%26%3F%B6B"); c.cookie("per_page", "50"); // "login="bsidb"; uid="3435"; md5="%3D%0CjZ%82%96%D6%2C%01S%3FY%26%3F%B6B"; per_page="50"; Connection.Response res = null; int tryCount = 0; final int MAX_TRY_COUNT = 3;//最多尝试三次 while (true && tryCount < MAX_TRY_COUNT) { try { c.timeout(10000); res = c.execute(); break; } catch (Exception e) { System.err.println("[GET URL ERROR]try to get " + url + ", " + tryCount + " time fails"); // e.printStackTrace(); System.err.println("we will try it later"); } try { Thread.sleep(5000);//5s后重试 } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.err.println("Try again."); tryCount++; } if (tryCount == MAX_TRY_COUNT) { System.err.println("[GET URL ERROR] url : " + url + " reaches max try times.Fails.\n"); return null;//返回null对象 } Document doc = null; try { doc = res.parse(); } catch (IOException e) { e.printStackTrace(); System.err.println("[GET URL ERROR]Parse fails for " + url); } //System.out.println("Got!"); return doc; } }

评论收藏

内容反馈