文档
这是我在部门内部的,内容从IDE到Spark里最重要的一些基本概念。
编译环境推荐
Spark1.2.0
Scala2.10.x
Jdk1.6
IntelliJ IDEA14.0.2 (+ plugin scala)
使用方法
目前只包含了以下两个功能类。
类MLAppLR
机器学习中的Logistic Regression模型,支持两种求解方法:SGD和LBFGS。支持的所有参数如下:
--train=<train>:训练集对应的文件名称
--test=<test>:测试集对应的文件名称
--output=<output>:把测试集上的预测结果存入指定目录;每行格式为<pred> <real>;如果目录已经存在,需要先删除;此参数可不传,不传的话就不输出预测结果
--algName=<algorithm>:值为lbfg