文本分析
文本数据
文本分析
停用词
1.!
2."
3.#
4.$
5.%
6.&
7.'
8.(
9.)
10.*
11.+
12.,
13.-
14.--
15..
16...
17....
18.......
19....................
20../
21..一
1.一下
2.一个
3.一些
4.一何
5.一切
6.一则
7.一则通过
8.一天
9.一定
10.一方面
11.一旦
12.一时
13.一来
14.一样
15.一次
16.一片
17.一番
18.一直
19.一致
20.一般
21.一起
1.语料中大量出现
2.没啥大用
3.留着过年嘛?
文本分析
Tf-idf:关键词提取
《中国的蜜蜂养殖》: 进行词频(Term Frequency,缩写为TF)统计
出现次数最多的词是----“的”、“是”、“在”----这一类最常用的词(停用词)
“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,重要性是一样的?
"中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见