没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
53页
【课程简介】 本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:https://download.csdn.net/download/qq_27595745/85228430 【全部课程列表】 第01章 互联网挖掘概述概要 共40页.pdf 第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第07章 聚类算法 共53页.pdf 第08章 互联网信息摘要 共62页.pdf 第09章 中文智能问答系统 共7页.pdf 第10章 情感分析与观点挖掘 共59页.pdf 第11章 互联网信息抽取 共58页.pdf 第12章 信息推荐 共46页.pdf 第13章 社交网络分析 共53页.pdf
资源推荐
资源详情
资源评论
《互联网数据挖掘》本科生课程
数据挖掘基础(三):
聚类
概念
聚类:将数据自动聚集到不同类簇
同一类簇内数据相似,不同类簇间数据不相似
无监督学习
• 没有标注数据
• 类簇未知
2
聚类器
数据/
文本
类簇1
类簇2
类簇n
….
应用
3
聚类应用
新闻聚类与话题检测
检索结果组织
网络社区发现
…
文本聚类技术
4
聚类质量
类簇之间的文档距离 最大化
类簇内部的文档距离 最小化
聚类算法
K-Means聚类
层次式聚类(Hierarchical clustering)
增量式单遍聚类
基于图分割的聚类
基于密度峰值的聚类
距离(或相似度)测度
文本聚类技术
5
距离测度
欧式距离(Euclidian distance (L2 norm))
L1范式(L1 norm)
基于余弦测度的距离
2
1
2
)
(
)
,
(
i
m
i
i
y
x
y
x
L
m
i
ii
yxyxL
1
1
),(
yx
yx
1
剩余52页未读,继续阅读
资源评论
passionSnail
- 粉丝: 407
- 资源: 5624
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功