pyspark spark-tfrecord-2.12-0.3.0.jar
支持spark集群下的pyspark环境生产tfrecord样本,可以使用常见的接口加载jar包对DataFrame数据进行格式转换,直接输出tfrecord文件到hdfs上。方便后续链路使用tensorflow来做进一步的样本加工和数据训练。支持spark 2.12版本。
支持spark集群下的pyspark环境生产tfrecord样本,可以使用常见的接口加载jar包对DataFrame数据进行格式转换,直接输出tfrecord文件到hdfs上。方便后续链路使用tensorflow来做进一步的样本加工和数据训练。支持spark 2.12版本。
文档中采用的数据来自GroupLens提供的Movielens数据集,在程序中我直接使用了u.data这个数据集,可以直接从文件夹“数据”获取,验证了UserBasedCF算法的实际效果,程序设计思路主要来源于项亮博士的《推荐系统》42-50页的内容,可以作为参考。程序代码由Python语言完成,方便大家学习。
也许是最好的数据结构入门书籍,这是一本非常适合于自学以及作为教材的算法书。和它相比,清华的什么算法教材简直就是给原始人看的。
适合研究SVD的参考文档,方便大家一起研究讨论!