用于 Python 的 Hadoop 流仿真器
Hadoop Streaming Emulator for Python 是一个命令行程序,当您将 Python 脚本作为映射器和减速器运行时,它可以模拟 Hadoop 的行为。 使用此模拟器,您可以在实际在 Hadoop 上运行之前在 Python 中调试映射器和化简器。
先决条件
Python 2.7、3.3 或 3.4 (确保您的目标 Hadoop 平台上运行的是什么版本的 Python。)
安装
模拟器由以下文件组成:
文件
hseexceptions.py
文本输入格式.py
文本输出格式.py
聚合.py
将这三个文件从 /emulator 复制到您的本地目录。 这些文件应该在同一目录中。
怎么跑
从命令提示符,运行python install_dir \hdemu.py -input input_data -outpu
评论0
最新资源