文本分类文档预处理(英文)

所需积分/C币:30 2013-08-14 13:37:43 4KB CPP
收藏 收藏 2
举报

简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
qq_38039000 很实用,适合初学者
2018-05-02
回复
明封洛 很不错、、
2018-03-27
回复
派桑 没有停用词词典。。不过这个随便一搜就能找到。 另一个问题是,没有全部小写,首字母全部大写觉得有些不利于接下来的工作。
2015-10-20
回复
悦酱 没有停用词,谢谢分享
2015-09-27
回复
sinat_21530767 感觉不错 试用中
2015-09-21
回复
独醉笑春风123 感觉不错,就是没有停用词和原数据集的格式
2015-07-01
回复
u010606082 还不错 就是 没有源文件夹 不知道停用词文档是什么
2015-05-18
回复
XKCK 还不错,谢谢作者
2015-03-02
回复
yubin1277408629 C++写的关于单个文档的去听用词,去符号等程序。
2013-11-08
回复
TN_Halo 额 不是我需要的,我需要的是java程序
2013-08-19
回复
关注 私信 TA的资源
上传资源赚积分,得勋章
最新推荐