spark+java实现朴素贝叶斯_贝叶斯方法及其应用资源-CSDN文库

共2个文件

java：2个

需积分: 50 44 浏览量 2017-07-21 17:23:08 上传评论 1 收藏 2KB ZIP 举报

资源详情

资源评论

收起资源包目录

bayes(2).zip （2个子文件）

BayesClassifier.java 4KB

Bayes.java 1KB

import java.util.HashMap; import java.util.HashSet; import java.util.List; import java.util.Map; import java.util.Set; import java.util.concurrent.ConcurrentHashMap; import java.util.function.Consumer; import org.apache.spark.sql.Row; public class BayesClassifier { // 训练集总的词数 private Long totalWordCount = new Long(0); // 类别 private Map<String, String> classMap = new HashMap<String, String>(); // 类别对应的文章数 private Map<String, Long> classArticleCount = new ConcurrentHashMap<String, Long>(); // 每个类别词的数量 private Map<String, Long> classWordCount = new ConcurrentHashMap<String, Long>(); // 每个类别对应的词典和词频 private Map<String, Map<String, Long>> classWordMap = new ConcurrentHashMap<String, Map<String, Long>>(); // 存放所有出现过的词 private Set<String> allWordSet = new HashSet<String>(); /** * 训练数据 * @param records 每个Record存储文章的标题、内容和类别等信息 */ public void train(List<Row> records) { records.forEach(new Consumer<Row>() { @Override public void accept(Row record) { // 文章的类别 String category = record.getString(4); // 新的类别 if (!classMap.containsKey(category)) { classMap.put(category, category); classArticleCount.put(category, 0L); classWordCount.put(category, 0L); classWordMap.put(category, new HashMap<String, Long>()); } Map<String, Long> wordMap = classWordMap.get(category); // 获取切分的词 String[] words = record.getString(3).split(" "); for (String word : words) { // 更新该类别的词典和词频 if (wordMap.containsKey(word)) { Long wordCount = wordMap.get(word); wordMap.put(word, wordCount + 1); } else { wordMap.put(word, 1L); } allWordSet.add(word); } // 更新该类别的词典和词频 Long wordCount = classWordCount.get(category); classWordCount.put(category, wordCount + words.length); totalWordCount += words.length; } }); } /** * @param classKey 类别 * @param word 词 * @return 类别中词出现的次数 */ public Long wordInClassCount(String classKey, String word) { Map<String, Long> wordMap = classWordMap.get(classKey); Long wordCount = wordMap.get(word); return (wordCount == null) ? 1L : wordCount; } /** * 选择分类概率最大的类别 * @param probClassMap * @return 返回分类结果 */ public String getMaxClassification(Map<String, Double> resultMap) { Set<String> keySet = resultMap.keySet(); String maxClassification = null; double maxProbability = Double.NEGATIVE_INFINITY; // 选择归类概率最大的类别作为分类的结果 for (String classKey : keySet) { double probability = resultMap.get(classKey); if (probability > maxProbability) { maxProbability = probability; maxClassification = classKey; } } return maxClassification; } /** * 对文章进行分类 * @param record 待分类的文章 * @return 分类的类别 */ public String classify(Row record) { // 获取文章的分词结果 String[] words = record.getString(3).split(" "); Map<String, Double> resultMap = new HashMap<String, Double>(); Set<String> keySet = classMap.keySet(); // 计算文章属于每个类别的概率 for (String classKey : keySet) { double probability = 0.0; for (String word: words) { double wordFrequency = wordInClassCount(classKey, word) * 1.0 / (classWordCount.get(classKey)+ + allWordSet.size()); probability += Math.log(wordFrequency); } probability += Math.log(classWordCount.get(classKey) * 1.0 / totalWordCount); resultMap.put(classKey, probability); } // 选择分类结果并返回 return getMaxClassification(resultMap); } }

评论收藏

内容反馈

spark+java实现朴素贝叶斯

评论0

最新资源

spark+java实现朴素贝叶斯

评论0

最新资源

相关推荐

朴素贝叶斯的java实现

java实现朴素贝叶斯算法

朴素贝叶斯算法java实现

naive-bayes-java:Java 中的朴素贝叶斯实现

spark 朴素贝叶斯实现股票预测数据+代码

Spring-Boot集成Neo4j并利用Spark的朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统

朴素贝叶斯算法实现分类问题（Java实现）

朴素贝叶斯java代码参考

贝叶斯分类算法的JAVA实现

基于SpringBoot+OpenNLP+Neo4j+Spark朴素贝叶斯分类器实现石油相关论文的智能分析问答系统源码.zip

基于SpringBoot+Neo4j+Spark实现的论文智能分析问答系统（采用朴素贝叶斯分类器）.zip

基于Vue+SpringBoot实现的基于朴素贝叶斯的敏感词判断和视频智能推荐前后端源码+数据库.zip

基于OpenNLP + Neo4j + Spark朴素贝叶斯分类器实现石油相关论文的智能分析问答系统.zip

朴素贝叶斯java代码

Spring-Boot集成Neo4j结合Spark的朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统

基于Spark的朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统+源代码+文档说明

基于Spring-Boot集成Neo4j结合Spark的朴素贝叶斯分类器实现基于茶虫知识图谱的智能问答系统源码.zip

基于Spark的朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统源码.zip

Spring-Boot集成Neo4j结合Spark的朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统.zip

抖音新版a-bogus算法 抖音a-bogus算法 dya-bogus

第十五届蓝桥杯大赛软件赛省赛-C/C++ 研究生组

数学建模国赛：无人机遂行编队飞行中的纯方位无源定位分析

最值得收藏的 数据结构 全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx

利用SVM（支持向量机）进行图像分割/提取-MATLAB

甲骨文卷积神经网络识别-RTL（甲骨文识别）

VRPTW 的 Solomon 标准测试数据集

变分模态分解（VMD）代码

最新版Notepad++十六进制查看的插件x64HexEditor0.9.12

抖音新版a-bogus算法抖音a-bogus算法 dya-bogus

最值得收藏的数据结构全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx