Word2VEC_java
=============
word2vec java版本的一个实现
有人抱怨没有测试代码。我工作中用到。写了个例子正好发这里。大家领会下精神把
````
package com.kuyun.document_class;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.List;
import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import com.alibaba.fastjson.JSONObject;
import com.ansj.vec.Learn;
import com.ansj.vec.Word2VEC;
import love.cq.util.IOUtil;
import love.cq.util.StringUtil;
public class Word2VecTest {
private static final File sportCorpusFile = new File("corpus/result.txt");
public static void main(String[] args) throws IOException {
File[] files = new File("corpus/sport/").listFiles();
//构建语料
try (FileOutputStream fos = new FileOutputStream(sportCorpusFile)) {
for (File file : files) {
if (file.canRead() && file.getName().endsWith(".txt")) {
parserFile(fos, file);
}
}
}
//进行分词训练
Learn lean = new Learn() ;
lean.learnFile(sportCorpusFile) ;
lean.saveModel(new File("model/vector.mod")) ;
//加载测试
Word2VEC w2v = new Word2VEC() ;
w2v.loadJavaModel("model/vector.mod") ;
System.out.println(w2v.distance("姚明")); ;
}
private static void parserFile(FileOutputStream fos, File file) throws FileNotFoundException,
IOException {
// TODO Auto-generated method stub
try (BufferedReader br = IOUtil.getReader(file.getAbsolutePath(), IOUtil.UTF8)) {
String temp = null;
JSONObject parse = null;
while ((temp = br.readLine()) != null) {
parse = JSONObject.parseObject(temp);
paserStr(fos, parse.getString("title"));
paserStr(fos, StringUtil.rmHtmlTag(parse.getString("content")));
}
}
}
private static void paserStr(FileOutputStream fos, String title) throws IOException {
List<Term> parse2 = ToAnalysis.parse(title) ;
StringBuilder sb = new StringBuilder() ;
for (Term term : parse2) {
sb.append(term.getName()) ;
sb.append(" ");
}
fos.write(sb.toString().getBytes()) ;
fos.write("\n".getBytes()) ;
}
}
````
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
Word2VEC_java-master.zip (13个子文件)
Word2VEC_java-master
.gitignore 59B
README.md 3KB
pom.xml 2KB
src
test
java
test
Test.java 587B
main
java
com
ansj
vec
Word2VEC.java 8KB
domain
HiddenNeuron.java 215B
WordEntry.java 597B
Neuron.java 507B
WordNeuron.java 2KB
Learn.java 12KB
util
Haffman.java 864B
MapCount.java 1KB
WordKmeans.java 5KB
共 13 条
- 1
资源评论
JERRYFY007
- 粉丝: 3
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功