简介
=========================
['达观杯'文本智能处理挑战赛官网](http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html)<br>
该库用于达观杯比赛任务的代码实现研究,主要利用机器学习sklearn包实现,运用了特征工程和分类器。 特征工程部分主要针对文本分类任务的 hash/lsa/lda/doc2vec特征提取/特征选择/特征组合/特征构造进行了实现,而分类器部分主要有逻辑回归/SVM/随机森林/Bagging/Adaboost/GBDT/Xgboost/LightGBM等。该库需要经过调参以达到更优。<br>
# 1 特征工程 (位于features文件夹)
- 生成doc2vec特征: <br>
* 运行`doc2vec.py`原始数据数字化为doc2vec特征;<br>
________________________________
- 生成tf特征<br>
* 运行`tf.py`生成tf特征;<br>
* 运行`ensemble_select.py`对特征进行嵌入式选择;<br>
- 生成lda特征<br>
* 运行`lda.py`将tf特征降维为lda特征;<br>
________________________________
- 生成tfidf特征<br>
* 存放于features文件夹,运行里面的`tfidf.py`生成tfidf特征;<br>
>差异代码如下:<br>
```Python
vectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=3, max_df=0.9, sublinear_tf=True)
```
>进行特征选择:<br>
```运行ensemble_select.py对特征进行嵌入式选择;(选择合适的特征为特征融合做准备)```
* 运行features文件夹中的`tfidfpro.py`生成新的tfidf特征;(这两种选择其中一种作为下一步的特征基础)<br>
>差异代码如下:<br>
```Python
vectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=6, max_df=0.9, use_idf=1, smooth_idf=1, sublinear_tf=1)
```
>进行特征选择:<br>
```运行`ensemble_select.py`对特征进行嵌入式选择;```
- 生成lsa特征: <br>
* 运行`lsa.py`将tfidf特征降维为lsa特征;<br>
________________________________
- 集成学习ensemble: <br>
* 运行`ensemble.py`将lda/lsa/doc2vec三种特征进行特征融合;<br>
- 转化为稀疏矩阵: <br>
* 运行`ensemble_sparse.py`将ensemble特征转化为稀疏矩阵;<br>
________________________________
- 构造特征<br>
* 运行`feature_construct.py`,根据已有的特征,使用多项式方法构造出更多特征;`(使用lsa特征构造)`<br>
# 2 分类器算法
- 使用lgb算法
* 运行`lgb.py`进行lgb算法;<br>
- 算法配置<br>
* 运行`sklearn_config.py`配置机器学习模型使用哪种特征和机器学习算法;<br>
- 选择分类器进行训练<br>
* 运行`sklearn_train.py`对机器学习模型进行训练,并对测试集进行预测;<br>
没有合适的资源?快使用搜索试试~ 我知道了~
用于达观杯比赛任务的代码实现研究,主要利用机器学习sklearn包实现,运用了特征工程和分类器。.zip
共17个文件
py:14个
txt:1个
md:1个
需积分: 5 0 下载量 60 浏览量
2024-04-18
12:39:56
上传
评论
收藏 310KB ZIP 举报
温馨提示
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,从而不断改善自身的性能。机器学习是人工智能的核心,也是使计算机具有智能的根本途径。 应用: 机器学习在各个领域都有广泛的应用。在医疗保健领域,它可用于医疗影像识别、疾病预测、个性化治疗等方面。在金融领域,机器学习可用于风控、信用评分、欺诈检测以及股票预测。此外,在零售和电子商务、智能交通、生产制造等领域,机器学习也发挥着重要作用,如商品推荐、需求预测、交通流量预测、质量控制等。 优点: 机器学习模型能够处理大量数据,并在相对短的时间内产生可行且效果良好的结果。 它能够同时处理标称型和数值型数据,并可以处理具有缺失属性的样本。 机器学习算法如决策树,易于理解和解释,可以可视化分析,容易提取出规则。 一些机器学习模型,如随机森林或提升树,可以有效地解决过拟合问题。 缺点: 机器学习模型在处理某些特定问题时可能会出现过拟合或欠拟合的情况,导致预测结果不准确。 对于某些复杂的非线性问题,单一的机器学习算法可能难以有效地进行建模和预测。 机器学习模型的训练通常需要大量的数据和计算资源,这可能会增加实施成本和时间。 总的来说,机器学习虽然具有许多优点和应用领域,但也存在一些挑战和限制。在实际应用中,需要根据具体问题和需求选择合适的机器学习算法和模型,并进行适当的优化和调整。
资源推荐
资源详情
资源评论
收起资源包目录
用于达观杯比赛任务的代码实现研究,主要利用机器学习sklearn包实现,运用了特征工程和分类器。.zip (17个子文件)
content
feature-result
data_ensemble_spar.pkl_sklearn_svm.csv 845KB
下载结果文件地址.txt 0B
features
lsapro.py 772B
tf.py 1KB
lda.py 1KB
ensemble_sparse.py 946B
doc2vec.py 2KB
ensemble.py 1KB
tfidf.py 1KB
tfidfpro.py 1KB
lsa.py 766B
arithmetic
sklearn_train.py 2KB
sklearn_config_v0.1.py 2KB
lgb.py 2KB
sklearn_config.py 2KB
test
datacastlesvm.py 1KB
README.md 3KB
共 17 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3798
- 资源: 4401
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功