pythonMapReduce的wordcount_python的mapreduce资源-CSDN文库

需积分: 27 136 浏览量 2018-09-30 14:07:27 上传评论收藏 36KB DOCX 举报

### Python 实现 MapReduce 的 WordCount 示例详解 #### 一、引言 MapReduce 是 Hadoop 生态系统中的一种编程模型，主要用于大规模数据集的并行处理。它通过两个主要阶段——`Map` 和 `Reduce` 来实现数据处理任务。在本篇文章中，我们将深入探讨如何使用 Python 实现一个简单的 MapReduce WordCount 应用。 #### 二、MapReduce 基本思想 MapReduce 的工作原理依赖于将大数据集分割成多个小块，然后将这些小块并行地处理。具体来说： 1. **Map 阶段**：该阶段的主要任务是对输入数据进行分解，将其转换为键值对形式，每个键值对都是输入数据的一部分。 2. **Reduce 阶段**：在 Map 阶段完成后，键值对会被传递到 Reduce 阶段。在这个阶段，相同键的键值对被组合在一起处理，通常用于汇总或聚合操作。在使用 Python 实现 MapReduce 时，我们主要利用了 Hadoop Streaming API，通过标准输入和输出（`STDIN` 和 `STDOUT`）来传递数据。 #### 三、Python 实现 MapReduce WordCount 下面我们将通过具体的代码示例来实现一个简单的 WordCount 应用。 ##### 1. Mapper 函数 Mapper 函数负责读取输入数据，并将其转换为键值对形式，这里的键为单词，值为出现次数。 ```python import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print('%s\t%s' % (word, 1)) ``` - **代码解析**： - 首先导入 `sys` 模块，用于处理标准输入输出。 - 对每行输入数据去除首尾空白字符后，按空格分割成单词。 - 输出每个单词及其出现次数，格式为 “单词，1”。 - **测试**： ```bash echo "aabbccddaacc" | python mapper.py ``` ##### 2. Reducer 函数 Reducer 函数的任务是接收 Mapper 函数的输出，并对相同单词的出现次数进行汇总。 ```python import sys current_word = None current_count = 0 word = None for line in sys.stdin: line = line.strip() word, count = line.split('\t', 1) try: count = int(count) except ValueError: continue if current_word == word: current_count += count else: if current_word: print('%s\t%s' % (current_word, current_count)) current_count = count current_word = word if current_word == word: print('%s\t%s' % (current_word, current_count)) ``` - **代码解析**： - 导入 `sys` 模块。 - 初始化变量 `current_word` 和 `current_count`。 - 读取 Mapper 的输出，解析出单词和对应的计数。 - 如果当前单词与之前的不同，则输出前一个单词的统计结果，并更新当前单词及其计数。 - **测试**： ```bash echo "aaaabbccdddd" | python mapper.py | python reducer.py ``` ##### 3. 部署与运行为了使上述程序能够在 Hadoop 环境下运行，我们需要做一些准备工作： 1. **创建 HDFS 目录**： ```bash bin/hdfs dfs -mkdir /temp/ bin/hdfs dfs -mkdir /temp/hdin ``` 2. **上传文件至 HDFS**： ```bash bin/hdfs dfs -copyFromLocal LICENSE.txt /temp/hdin ``` 3. **编写并运行 Shell 脚本**： ```bash #!/bin/bash export CURRENT=/usr/local/working $HADOOP_HOME/bin/hdfs dfs -rm -r /temp/hdout $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar \ -input "/temp/hdin/*" \ -output "/temp/hdout" \ -mapper "python mapper.py" \ -reducer "python reducer.py" \ -file "$CURRENT/mapper.py" \ -file "$CURRENT/reducer.py" ``` 4. **查看结果**： ```bash bin/hdfs dfs -cat /temp/hdout/* ``` 通过以上步骤，我们成功实现了基于 Python 的 MapReduce WordCount 示例。这种方法不仅有助于理解 MapReduce 的基本概念，还能够帮助开发者快速上手使用 Python 进行大数据处理任务。

资源推荐

资源详情

资源评论

使用 python 实现 MapReduce 的 wordcount 实例

二、基本思想

使用 python 实现 mapreduce 调用的是 Hadoop Stream ，主要利用 STDIN( 标准输入 ) ，

STDOUT（标准输出）来实现在 map 函数和 reduce 函数之间的数据传递。

我们需要做的是利用 python 的 sys.stdin 读取输入数据，并把输入传递到 sys.stdout，其他的工

作 Hadoop 的流 API 会为我们处理。

三、实例

以下是在 hadoop 官网下载的 python 版本 mapper 函数和 reducer 函数，文件位置默认在/usr/

local/working 中，

1、mapper.py

(1)代码

 

 #

输入为标准输入

stdin

 

 #

删除开头和结果的空格

 

 #

以默认空格分隔行单词到

words

列表

 

 

 #

输出所有单词，格式为“单词，

1”

以便作为

reduce

的输入

  !  "



(2)可对代码进行检验

echo "aa bb cc dd aa cc" | python mapper.py

2、reducer.py

(1)代码

 

 

 #$%&

 #$%#$

 &

 

 #

获取标准输入，即

mapper.py

的输出

 

 

 #

解析

mapper.py

输出作为程序的输入，以

tab

作为分隔符

 "#$!"

 #

转换

count

从字符型成整型

 

 #$#$

 '#()$*

 #

非字符时忽略此行

 #$

 #

要求

mapper.py

的输出做排序（

sort

）操作，以便对连续的

word

做判断

 #$%

 #$%#$+#$

 

 #$%

 #

输出当前

word

统计结果到标准输出

  !  #$%"#$%#$

 #$%#$#$

 #$%

 

 #

输出最后一个

word

统计

 #$%

  !  #$%"#$%#$



(2)对代码进行检验

echo "aa aa bb cc dd dd" | python mapper.py | python reducer.py

剩余7页未读，继续阅读

评论收藏

内容反馈

nhj074

粉丝: 2
资源: 27

python MapReduce的wordcount

最新资源

python MapReduce的wordcount

使用python实现mapreduce（wordcount）.doc

mapreducewordcounter-master_wordcount_mapReduce_

MapReduce之wordcount范例代码

MapReduce的wordcount的jar包

15、MapReduce介绍及wordcount

wordcount:MRUnitTest的MapReduce示例

词频统计（基于hadoop集群，python实现）

基于Python Java Scala语言的MapReduce及Spark分词及词频统计效率对比

精选_大数据Hadoop平台2-2、MapReduce_源码打包

精选_大数据Hadoop平台2-3、MapReduce_源码打包

hadoop-mapreduce-examples-python:python中的所有Hadoop Mapreduce示例！

wordcount-mapreduce:Hadoop MapReduce WordCount 示例应用程序

mapreduce-wordcount:Go 和 Cassandra DB (Java) 中的简单 MapReduce 字数实现

BIG-DATA-HADOOP-MAPREDUCE-PROJECT:在Hadoop MapReduce中使用python matplotlib三种语言英语，法语，西班牙语的平均字母计数程序的实现和比较

dpark, 在 python 中，Spark的python 克隆，一个MapReduce相似的框架.zip

Mapreduce-1:python中的MapReduce的孙子/祖父母对

第10课 Python分布式计算笔记.pdf

MapReduce.docx

6-MapReduce.ppt

hadoop-python-mapreduce:有关如何使用Python运行Hadoop MapReduce的教程

hadoop实训课数据清洗py脚本（MapReduce python代码，可执行文件脚本，使用方法）

remap:python中的MapReduce平台

wordcount：使用Java的Hadoop MapReduce单词计数

wordcount_matrix:生成字数矩阵的python工具

nc111nt_wordcount_

python新浪微博数据分布式挖掘

最新资源