# SegAndNewWordDiscover
���ڻ���Ϣ���ڽ���Ϣ�ص����ķִʺ��´ʷ���
����о������ʵ�ִʣ�����һЩ���ĺͲ������£�����ѡȡ�˻��� ����Ϣ�������ڽ���Ϣ�صķ��������ִʣ��������ձ������������ϴﵽ��һ���ȽϺõ�Ч�������ֻ����������ȡ�����´ʷ���Ч������������ִʸ��á�
## ��������
### ����Ϣ
�����ص����������� H��X��Y����H��X����H��Y|X����H��Y����H��X|Y�� ��ˣ� H��X��-H��X|Y����H��Y��-H��Y|X�� ��������X��Y�Ļ���Ϣ��mutual information, MI��������I��X��Y���� ���߶���Ϊ�������X��Y����p��x, y������X��Y֮��Ļ���ϢI��X�� Y����H��X��-H��X|Y���� I��X��Y����ӳ������֪����Y��ֵ�Ժ�X�IJ�ȷ���Եļ��������� ������ΪY��ֵ¶�˶��ٹ���X����Ϣ����
![����Ϣ����֮��Ĺ�ϵ](https://upload-images.jianshu.io/upload_images/4941834-7dbdf367424c7aac.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![����Ϣ���Ƶ��ͼ���](https://upload-images.jianshu.io/upload_images/4941834-18a8d593ccc9a25a.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
�����������֮��Ļ���Ϣ�ܹ���ӳ�������������֮������۶ȣ����Ժ������Ƿ����ڲ��ɴʡ��磺"���ϴ�ѧ"�����ܵ������ {�У��ϴ�ѧ}��{���ϣ���ѧ}��{���ϴ�ѧ}
���ִ� "���ϴ�ѧ"�Ļ���ϢΪ ���п�����ϵ��ۼƺ͡�
### ��Ϣ��
1948 �꣬��ũ����ˡ���Ϣ�ء�(Shannon entropy/Information entropy) �ĸ���Ž���˶���Ϣ�������������⡣һ����Ϣ����Ϣ����С�����IJ�ȷ������ֱ�ӵĹ�ϵ������˵������Ҫ�����һ���dz��dz���ȷ�����£���������һ����֪�����飬����Ҫ�˽��������Ϣ���෴��������Ƕ�ij�����Ѿ����˽϶���˽⣬���Dz���Ҫ̫�����Ϣ���ܰ�������������ԣ�������Ƕȣ����ǿ�����Ϊ����Ϣ���Ķ����͵��ڲ�ȷ���ԵĶ��١�
##H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -��p(xi)log(2,p(xi)) (i=1,2,..n)
ͨ�������ѡ�ַ���������������Ϣ�ؿ��Դ��ⲿ�жϸ��ַ��������ɶȣ����ɶ�Խ�ߣ��������Ǹ��ַ������ⲿ�ַ��Ķ����̶ȣ����ɳ̶�Խ�ߣ��ú�ѡ��Խ������һ���ʣ�������Ϊ����߽�Ķ�����
>��������Ϣ��������һ���ı�Ƭ�ε������ּ��Ϻ������ּ����ж������������ôһ�仰�������Ѳ�������Ƥ�������ѵ�������Ƥ���������ѡ�һ�ʳ������ĴΣ����������ֱַ�Ϊ {��, ��, ��, ��} �������ֱַ�Ϊ {��, Ƥ, ��, Ƥ} �����ݹ�ʽ�������ѡ�һ�ʵ������ֵ���Ϣ��Ϊ �C (1/2) �� log(1/2) �C (1/2) �� log(1/2) �� 0.693 �����������ֵ���Ϣ����Ϊ �C (1/2) �� log(1/2) �C (1/4) �� log(1/4) �C (1/4) �� log(1/4) �� 1.04 ���ɼ�������������У������ѡ�һ�ʵ������ָ��ӷḻһЩ��
��������������У����ѵ���������Ϣ������ȡ������Ϣ�غ�������Ϣ�ص���Сֵ0.693��
### trie��
trie���ֽ��ֵ�����ǰ���������ķִʵ���������õ������ݽṹ���ֵ����ж���ʵ�֣�˫�����ֵ����ﵽ��ʱ����ռ��һ��ƽ�⡣���ֵ�����Ҫ������˽���Բο� [С����� Trie ��](https://segmentfault.com/a/1190000008877595)���Ҿ��ý��ú����ˡ�
## ���ʵս
���γ�ʴӵ����ڲ����۶Ⱥ��ⲿ���ɶȽǶȽ��к�ѡ�ִ���ɸѡ�������ѡ�ʴ��Ļ���Ϣ(ָʾ�˺�ѡ�ִ����ڲ����۶�)�������ѡ�ִ�����������Ϣ��(ָʾ�˺�ѡ�ִ����ⲿ���ɶ�)��ͨ������Ϣ�� ��Ϣ����ֵ���˵����Բ�����Ҫ��ĺ�ѡ�ʴ�����ʣ�µĺ�ѡ�ʴ���ͨ����һ�����ֶεõ����ǵķ��������ͨ�������Ӵ�С���ó����յij�ʽ����
����ij�ʲ��裺
##### 1.�Դ�����ı�����Ԥ����(�������ı�Խ��Ч��Խ�ã���Ϊ���IJ��õ��ǻ���ͳ�Ƶķ���)��ȥ���������ַ������º�ѡ��Ƭ�Ρ�
����ԭ���ӣ�����������CEO�ĵ�ɭ12��������δ��������������������г�Ͷ��70����Ԫ
������ʹ�����µ����ڵ�Ʒ�Ƶ�2018��ʵ�������100������Ŀ�ꡣ�����������
>��������������
���ĵ�ɭ����
������������
��δ��������������������г�Ͷ�ʡ���
������Ԫ����
������ʹ�����µ����ڵ�Ʒ�Ƶ�����
����ʵ�����������
��������Ŀ�ꡱ��
�õ�������ʾ�İ˸���ѡ�̾䡣
##### 2.�Ժ�ѡ�̾���nGram ��ʽ����FMM����ȡ�ʣ���ͳ�ƺ�ѡ�ʵĴ�Ƶ
```
// �зִ� FMM �㷨
public static void FMMSegment(String text, boolean countWordFrequency) {
// ����ͳ�Ƶ����ֵĴ�Ƶ
wordCountSingleWord(text);
if (text.length() == 1) {
return;
}
int temp_max_len = Math.min(text.length() + 1, MAX_WORD_LEN);
int p = 0;
while (p < text.length()) {
int q = 1;
while (q < temp_max_len) { // ����ȡ�ʵij���
if (q == 1) {
q++;
continue; // ����Ϊ1�Թ�,�������ֲ����зִ�����
}
// ȡ�ʴ� p --> p+q
if (p + q > text.length()) {
break;
}
String strChar = text.substring(p, p + q);
// ͳ�ƴʴ��Ĵ�Ƶ
if (countWordFrequency) {
if (wcMap.containsKey(strChar)) {
wcMap.put(strChar, wcMap.get(strChar) + 1);
} else {
wcMap.put(strChar, 1);
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
中文分词_基于互信息+邻接信息熵实现的中文分词算法_附项目源码_优质项目实战.zip (51个子文件)
中文分词_基于互信息+邻接信息熵实现的中文分词算法_附项目源码_优质项目实战
SegAndNewWordDiscover.iml 1KB
explain.md 6KB
pom.xml 2KB
src
test
java
concurrent
SegCountProcess.java 1KB
SegmentTest
WordCountTest.java 1KB
SegTest.java 6KB
main
java
computer
Occurrence.java 9KB
seg
Segment.java 9KB
PreProcess.java 3KB
serilize
JsonSerializationUtil.java 6KB
readAndWriteJson.java 1KB
concurrent_compute
extract
queue
Consumer.java 4KB
Constans.java 938B
Producer.java 799B
MyBlockingQueue.java 476B
ExtractWordsConCompute.java 3KB
ConCalculateUtil.java 3KB
MIERConCompute.java 6KB
WordCountConCompute.java 3KB
ConCompute.java 4KB
pojo
Sentence.java 12KB
Term.java 4KB
IWord.java 535B
SegMsg.java 391B
WordFactory.java 543B
LineMsg.java 729B
CompoundWord.java 3KB
CharType.java 4KB
Word.java 1KB
io
ByteUtil.java 9KB
ByteArray.java 6KB
IOUtil.java 20KB
util
Predefine.java 4KB
HanUtils.java 20KB
TextUtility.java 17KB
FileUtils.java 6KB
config
CommonValue.java 384B
Config.java 5KB
Constants.java 3KB
Logger.java 223B
trie
ITrie.java 437B
bintrie
Node.java 2KB
_ValueArray.java 513B
BaseNode.java 7KB
util
ArrayTool.java 1KB
BinTrie.java 15KB
Trie.java 4KB
AhoCorasick
State.java 5KB
AhoCorasickDoubleArrayTrie.java 23KB
segment.properties 1KB
README.md 16KB
共 51 条
- 1
资源评论
__AtYou__
- 粉丝: 3515
- 资源: 2177
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功