没有合适的资源？快使用搜索试试~ 我知道了~

CountVectorizer参数学习

2 下载量 100 浏览量 2021-01-21 16:39:09 上传评论收藏 510KB PDF 举报

温馨提示

试读

3页

指定vocabulary，此时tokenizer/token_pattern/stop_words/max_df等都无效，即和分词有关的参数都无效。可以看到最终生成的词典只有我们参数中指定的a/他/喜欢为什么会这样呢？我们去研究一下源代码(sklearn/feature_extraction/text.py)：其中CountVectorizer中的fit_transform的源代码如下所示，需要重点关注的是 self._validate_vocabulary()和self.count_vocab(raw_documents,self.fixed_vocabulary) def fi

资源推荐

资源详情

资源评论