资源简介
问题发现:
本次案例为工作中遇到的实际问题,在语音识别中的语料准备部分,需要从网络中爬取相当数量的相关文本,其中发现爬取到了一些不相关的内容,如何把这些不相关的内容剔除掉成为笔者需要思考的问题。
初步思考:
遇到此问题笔者第一时间考虑是将文本分词后向量化,使用聚类看一下分布情况,然而发现在不同训练集中,训练样本变化时,向量随之变化,在测试集中表现一般,在实测中几乎无用。于是想到向量化的方法问题,使用sklearn CountVectorizer方法进行向量化,仅仅是将所有词频无序的向量化,看到另外博文时,发现应该先将目标主题的文本进行词频统计,将统计结果当做向量化模板,实测发现效果不错,现将此方法分享给大家
代码片段和文件信息
€csklearn.naive_bayes
GaussianNB
q )乹}q(X priorsqNX classes_qcsklearn.externals.joblib.numpy_pickle
NumpyArrayWrapper
q)乹}q(X subclassqcnumpy
ndarray
q X shapeq
K卶X orderqX Cq
X dtypeqcnumpy
dtype
qX i8qK K噏Rq(KX