没有合适的资源?快使用搜索试试~ 我知道了~
textclusteringDBSCAN:使用基于密度的空间聚类(DBSCAN)进行文档聚类[Undergrad NLP cla...
共131个文件
txt:73个
py:18个
ipynb:15个
需积分: 10 1 下载量 155 浏览量
2021-05-23
00:27:32
上传
评论
收藏 7.55MB ZIP 举报
温馨提示
textClusteringDBSCAN:使用基于密度的空间聚类(DBSCAN)使用TF-IDF,FastText,GloVe字向量对文本进行聚类 这是一个库,用于根据数据中的文本字段执行不受监督的语言功能。 API也将发布以进行实时推理。 这只是项目实施的一小部分,项目实施是一个开放源代码语言库,旨在轻松集成到应用程序中。 特征探索和可视化 文字特征可视化 功能工程: 根据基于变压器的模型添加功能。 (超大) 将基于tf-idf的特征添加为软特征,并与基于预训练词向量的特征结合。 (监督下) 比较不同的功能。 用法 基本使用说明。 由于代码正在开发中,因此可能不稳定。 到2020年12月31日将添加更多详细信息,以正确使用该库。 读取数据 from textclustering import utilities as ut from textclustering impor
资源推荐
资源详情
资源评论
收起资源包目录
textclusteringDBSCAN:使用基于密度的空间聚类(DBSCAN)进行文档聚类[Undergrad NLP class project 2015 @ TU] (131个子文件)
data_tfidf_processed.csv 13.35MB
DataAnalyst.csv 7.22MB
idfMatrixDF.csv 552KB
cat9_Staffing&Outsourcing.txt_characteristic.csv 198KB
cat6_ITServices.txt_characteristic.csv 193KB
cat5_HealthCareServices&Hospitals.txt_characteristic.csv 177KB
cat2_ComputerHardware&Software.txt_characteristic.csv 144KB
cat3_Consulting.txt_characteristic.csv 130KB
cat8_InvestmentBanking&AssetManagement.txt_characteristic.csv 121KB
cat4_EnterpriseSoftware&NetworkSolutions.txt_characteristic.csv 120KB
cat7_Internet.txt_characteristic.csv 110KB
cat1_Banks&CreditUnions.txt_characteristic.csv 102KB
cat0_Advertising&Marketing.txt_characteristic.csv 87KB
Dockerfile 295B
tfidfPrimary-checkpoint.ipynb 75KB
dbscanPrimary-checkpoint.ipynb 69KB
dbscanPrimary.ipynb 69KB
tfidfPrimary.ipynb 65KB
testLibrary.ipynb 38KB
changeFolderStructure-checkpoint.ipynb 38KB
changeFolderStructure.ipynb 37KB
tryfullscripts-checkpoint.ipynb 20KB
tryfullscripts.ipynb 18KB
gloveVectors.ipynb 2KB
fastTextModules.ipynb 1KB
gloveVectors-checkpoint.ipynb 1KB
addFasttextVectors.ipynb 72B
fastTextModules-checkpoint.ipynb 72B
addFasttextVectors-checkpoint.ipynb 72B
README.md 17KB
testLibrary.md 14KB
testLibrary_6_1.png 5KB
testLibrary_5_1.png 4KB
tfidfModule.py 9KB
tfidfModule.py 9KB
categoricalCharacteristicModule.py 8KB
categoricalCharacteristicModule.py 8KB
flingDBSCAN.py 8KB
flingPretrained.py 7KB
flingPretrained.py 6KB
helpers_transform_csv_into_files.py 2KB
helpers_transform_csv_into_files.py 2KB
utilities.py 1KB
utilities.py 1KB
encoders.py 1024B
distil_bert_vectorizer.py 728B
setup.py 539B
process_separate.py 417B
test_1.py 39B
__init__.py 0B
__init__.py 0B
categoricalCharacteristicModule.cpython-36.pyc 8KB
tfidfModule.cpython-36.pyc 8KB
flingPretrained.cpython-36.pyc 6KB
flingDBSCAN.cpython-36.pyc 5KB
utilities.cpython-36.pyc 2KB
__init__.cpython-36.pyc 171B
cat9_Staffing&Outsourcing.txt 603KB
cat6_ITServices.txt 564KB
cat5_HealthCareServices&Hospitals.txt 486KB
cat2_ComputerHardware&Software.txt 280KB
cat3_Consulting.txt 277KB
cat8_InvestmentBanking&AssetManagement.txt 235KB
cat4_EnterpriseSoftware&NetworkSolutions.txt 196KB
cat7_Internet.txt 181KB
cat1_Banks&CreditUnions.txt 180KB
cat0_Advertising&Marketing.txt 116KB
5.txt 25KB
1.txt 21KB
4.txt 19KB
39.txt 17KB
33.txt 15KB
48.txt 15KB
38.txt 14KB
37.txt 12KB
29.txt 12KB
35.txt 11KB
41.txt 11KB
60.txt 11KB
45.txt 10KB
57.txt 10KB
15.txt 10KB
53.txt 10KB
59.txt 10KB
52.txt 9KB
2.txt 9KB
32.txt 9KB
46.txt 9KB
16.txt 8KB
58.txt 8KB
24.txt 8KB
31.txt 8KB
36.txt 8KB
26.txt 8KB
27.txt 8KB
42.txt 8KB
55.txt 8KB
47.txt 8KB
54.txt 7KB
14.txt 7KB
共 131 条
- 1
- 2
资源评论
吉莫吉鱼
- 粉丝: 15
- 资源: 4591
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Screenshot_20240427_031602.jpg
- 网页PDF_2024年04月26日 23-46-14_QQ浏览器网页保存_QQ浏览器转格式(6).docx
- 直接插入排序,冒泡排序,直接选择排序.zip
- 在排序2的基础上,再次对快排进行优化,其次增加快排非递归,归并排序,归并排序非递归版.zip
- 实现了7种排序算法.三种复杂度排序.三种nlogn复杂度排序(堆排序,归并排序,快速排序)一种线性复杂度的排序.zip
- 冒泡排序 直接选择排序 直接插入排序 随机快速排序 归并排序 堆排序.zip
- 课设-内部排序算法比较 包括冒泡排序、直接插入排序、简单选择排序、快速排序、希尔排序、归并排序和堆排序.zip
- Python排序算法.zip
- C语言实现直接插入排序、希尔排序、选择排序、冒泡排序、堆排序、快速排序、归并排序、计数排序,并带图详解.zip
- 常用工具集参考用于图像等数据处理
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功