百度电影推荐比赛参赛：评分预测问题.zip_百度电影推荐比赛参赛：评分预测问题资源-CSDN文库

共34个文件

java：14个

jar：7个

gitignore：2个

版权申诉

84 浏览量 2023-09-30 15:05:33 上传评论收藏 6.12MB ZIP 举报

【标题】：“百度电影推荐比赛参赛：评分预测问题” 在这个标题中，提到的是一个与电影推荐系统相关的竞赛，目标可能是预测用户对电影的评分。在IT行业中，电影推荐系统是大数据和机器学习的一个典型应用，它涉及到用户行为分析、协同过滤、矩阵分解等技术。这类比赛通常要求参赛者利用算法和模型，对海量的用户历史评分数据进行建模，以提高预测的准确性和个性化程度。【描述】：“比赛项目源码” 描述中提到的是比赛项目的源代码，这意味着我们可以深入研究参赛者的实现方法和技术细节。源代码对于学习和理解实际的工程实践至关重要，它涵盖了数据预处理、特征工程、模型训练、评估指标以及可能的优化策略。通过阅读和分析源代码，我们可以了解如何将理论知识转化为实际应用，这对于提升编程技能和解决问题的能力非常有帮助。【标签】：“比赛项目源码” 这个标签进一步确认了这是一个关于代码实现的比赛项目，意味着我们将看到的是实际的编程工作，而非理论概念或报告。在源码中，我们可能会遇到Python、R或其他编程语言，以及各种数据科学库，如Pandas、NumPy、Scikit-learn等的使用。此外，可能还会有深度学习框架如TensorFlow或PyTorch的运用，用于构建复杂的推荐模型。【压缩包子文件的文件名称列表】：MovieRec-master "MovieRec-master"这个名字暗示了项目可能是一个名为“MovieRec”的电影推荐系统的主分支。在这样的项目中，我们可能会找到以下组成部分： 1. 数据集：包含用户评分、电影元数据等信息，用于训练和验证模型。 2. 数据预处理脚本：清洗、转换和加载原始数据，以便于模型训练。 3. 模型代码：实现不同的推荐算法，如基于用户的协同过滤、基于物品的协同过滤、矩阵分解（如SVD）或者深度学习模型。 4. 训练脚本：用于训练模型，可能包括超参数调整和交叉验证。 5. 预测脚本：使用训练好的模型对未知数据进行评分预测。 6. 评估脚本：计算预测结果与真实值的差异，如RMSE（均方根误差）、MAE（平均绝对误差）等。 7. 结果可视化：展示模型性能，如评分分布、用户与电影的相关性等。通过研究这个项目，我们可以学习到如何处理大规模数据、构建推荐系统、优化模型性能，并且了解比赛项目的一般流程和标准。这对于我们提高在实际工作中的数据分析和机器学习能力大有裨益。

资源推荐

资源详情

资源评论

收起资源包目录

百度电影推荐比赛参赛：评分预测问题.zip （34个子文件）

MovieRec-master

lib

commons-lang.jar 237KB

commons-collections-3.2.1.jar 562KB

slf4j-api-1.6.4.jar 25KB

commons-io-2.1.jar 159KB

commons-logging-1.1.1.jar 59KB

commons-configuration-1.7.jar 342KB

log4j-1.2.16.jar 470KB

.classpath 741B

README 2KB

.settings

org.eclipse.jdt.core.prefs 617B

org.eclipse.core.resources.prefs 85B

src

baidu

zjl

simmetrics

CosineSimilarity.java 1KB

Simmetric.java 152B

PearsonSimilarity.java 654B

util

DataUtil.java 5KB

Test.java 2KB

AbstractMethod.java 5KB

LFMWithBiasePlus.java 423B

LFMWithBiase.java 5KB

SimpleTrial.java 3KB

FNM.java 7KB

LFM.java 4KB

ItemBasedCFRaw.java 7KB

BaseLine.java 3KB

entity

Record.java 1KB

log4j.properties 969B

resource

processedData

Movie2ID 91KB

User2ID 122KB

trainingSet 15.97MB

predict 2.78MB

.gitignore 12B

.project 367B

.gitignore 26B

log 11KB

package baidu.nb; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map.Entry; import org.apache.log4j.Logger; import baidu.entity.Record; /** * FNM(Factorized Neighborhood Model)<b/> * * 使用 mu+bu+bi+qi*(xu+yu)进行预测 * * @author WangFengwei */ public class FNM extends AbstractMethod { protected int feature; protected HashMap<Integer, HashMap<Integer, Double>> userRates = new HashMap<Integer, HashMap<Integer, Double>>(); protected List<List<Double>> P = new ArrayList<List<Double>>(); // userCount // × feature protected List<List<Double>> Q = new ArrayList<List<Double>>(); // itemCount // × feature protected List<List<Double>> X = new ArrayList<List<Double>>(); // itemCount // × feature protected List<List<Double>> Y = new ArrayList<List<Double>>(); // itemCount // × feature protected static final Logger LOG = Logger.getLogger(FNM.class); public FNM(int feature, int iterCount, double alpha, double lambda) { this.feature = feature; this.iterCount = iterCount; this.alpha = alpha; this.lambda = lambda; } public static void main(String[] args) { int feature = 50, iterCount = 100; double alpha = 0.01, lamda = 0.002; FNM fnm = new FNM(feature, iterCount, alpha, lamda); // fnm.crossValidate(); String trainf = "resource/processedData/trainingSet"; String predictf = "resource/processedData/predict"; fnm.train(trainf); fnm.initPredict(predictf, false); fnm.predict(); fnm.outputPredict("resource/zjl/BaseLine-iter" + iterCount + "-alpha" + alpha); } @Override public void train(String trainf) { try { // 读取record readData(trainf); // 初始化参数 initParas(); // 初始化Bui trainBui(); // FNM训练 trainFNM(); } catch (Exception e) { e.printStackTrace(); } } // TODO 梯度下降有问题，会发散 private void trainFNM() { double localAlpha = alpha; for (int iter = 0; iter < iterCount; iter++) { for (Integer userid : userRates.keySet()) { // Calculate pu List<Double> pu = P.get(userid); List<Double> pu1 = newRandList(feature, 0, 0); List<Double> pu2 = newRandList(feature, 0, 0); double rateCoef = 0d, binCoef = 0d; for (Entry<Integer, Double> itemrate : userRates.get(userid) .entrySet()) { int itemid = itemrate.getKey(); double rate = itemrate.getValue(); double eui = rate - bPredict(userid, itemid); for (int f = 0; f < feature; f++) { pu1.set(f, pu1.get(f) + eui * X.get(itemid).get(f)); rateCoef += eui * eui; // TODO problem? pu2.set(f, pu2.get(f) + Y.get(itemid).get(f)); binCoef += 1;// 1*1; } } rateCoef = Math.pow(rateCoef / feature, -0.5d); binCoef = Math.pow(binCoef, -0.5d); for (int f = 0; f < feature; f++) { pu.set(f, pu1.get(f) * rateCoef + pu2.get(f) * binCoef); } // gradient descent RateInfo bu = users.get(userid); // List<Double> sum = newRandList(feature, 0, 0); for (Entry<Integer, Double> itemrate : userRates.get(userid) .entrySet()) { int itemid = itemrate.getKey(); double rate = itemrate.getValue(); double pui = predict(userid, itemid); double Eui = rate - pui; List<Double> Qi = Q.get(itemid); RateInfo bi = items.get(itemid); // LOG.info(String.format("FNM\titer:%d\trate:%s\tpredict:%f", // iter, df.format(rate), pui)); System.out.format("FNM\titer:%d\trate:%s\tpredict:%f\n", iter, df.format(rate), pui); for (int f = 0; f < feature; f++) { double gradientQif = -Eui * pu.get(f) + lambda * Qi.get(f); Qi.set(f, Qi.get(f) - localAlpha * gradientQif); double gradientBu = -Eui + lambda * bu.getAvg(); bu.setAvg(bu.getAvg() - localAlpha * gradientBu); double gradientBi = -Eui + lambda * bi.getAvg(); bi.setAvg(bi.getAvg() - localAlpha * gradientBi); } for (Entry<Integer, Double> jrate : userRates.get(userid) .entrySet()) { int j = jrate.getKey(); double r = jrate.getValue(); List<Double> Xj = X.get(j); List<Double> Yj = Y.get(j); for (int f = 0; f < feature; f++) { double gradientXjf = -rateCoef * (r - bPredict(userid, j)) * Eui * Qi.get(f) + lambda * Xj.get(f); Xj.set(f, Xj.get(f) - localAlpha * gradientXjf); double gradientYjf = -binCoef * Eui * Qi.get(f) + lambda * Yj.get(f); Yj.set(f, Yj.get(f) - localAlpha * gradientYjf); } } } } localAlpha *= 0.95; // calculate RMSE double rmse = calcRMSE(); LOG.info("FNM\titer:" + iter + "\trmse:" + rmse); } } /** * 使用梯度下降求解Bui */ private void trainBui() { double lastRMSE = 100d; double localAlpha = alpha; for (int iter = 0; iter < iterCount; iter++) { for (Record rd : records) { int u = rd.getUserId() - 1; int i = rd.getMovieId() - 1; double rui = rd.getScore(); double pui = predict(u, i); double bu = users.get(u).getAvg(); double bi = items.get(i).getAvg(); double gradientBu = lambda * bu - (rui - pui); double gradientBi = lambda * bi - (rui - pui); users.get(u).setAvg(bu - localAlpha * gradientBu); items.get(i).setAvg(bi - localAlpha * gradientBi); } double rmse = calcRMSE(); if (rmse > 1) localAlpha *= 1.05; else localAlpha *= 0.95; LOG.info("trainBui\titer:" + iter + "\trmse:" + rmse); if (lastRMSE - rmse < 0.00001) break; else lastRMSE = rmse; } } private double bPredict(int u, int i) { return mu + users.get(u).getAvg() + items.get(i).getAvg(); } @Override protected double predict(int userid, int itemid) { return bPredict(userid, itemid) + getProduct(Q.get(itemid), P.get(userid)); } @Override protected void initParas() { double tot = 0d; for (Record record : records) { int userid = record.getUserId() - 1; int itemid = record.getMovieId() - 1; double rate = record.getScore(); if (!users.containsKey(userid)) { users.put(userid, new RateInfo(rate, 1)); userRates.put(userid, new HashMap<Integer, Double>()); } else { users.get(userid).addRate(rate); userRates.get(userid).put(itemid, rate); } if (!items.containsKey(itemid)) items.put(itemid, new RateInfo(rate, 1)); else items.get(itemid).addRate(rate); tot += rate; } mu = tot / records.size(); for (RateInfo bu : users.values()) { bu.calcAvg(); P.add(newRandList(feature, 0, 0)); } for (RateInfo bi : items.values()) { bi.calcAvg(); Q.add(newRandList(feature, 0d, Math.random() / feature)); X.add(newRandList(feature, 0d, Math.random() / feature)); Y.add(newRandList(feature, 0d, Math.random() / feature)); } LOG.info("Init Over: users=" + users.size() + " items=" + items.size()); } @Override public String toString() { return "FNM-iter" + iterCount + "-alpha" + df.format(alpha) + "-lamda" + df.format(lambda); } @Override protected double calcCost() { throw new RuntimeException("Not implemeted yet..."); } }

评论收藏

内容反馈

版权申诉