• 大小: 2.71MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-11-18
  • 语言: 其他
  • 标签: svm  文本分类  

资源简介

问题发现: 本次案例为工作中遇到的实际问题,在语音识别中的语料准备部分,需要从网络中爬取相当数量的相关文本,其中发现爬取到了一些不相关的内容,如何把这些不相关的内容剔除掉成为笔者需要思考的问题。 初步思考: 遇到此问题笔者第一时间考虑是将文本分词后向量化,使用聚类看一下分布情况,然而发现在不同训练集中,训练样本变化时,向量随之变化,在测试集中表现一般,在实测中几乎无用。于是想到向量化的方法问题,使用sklearn CountVectorizer方法进行向量化,仅仅是将所有词频无序的向量化,看到另外博文时,发现应该先将目标主题的文本进行词频统计,将统计结果当做向量化模板,实测发现效果不错,现将此方法分享给大家

资源截图

代码片段和文件信息

€csklearn.naive_bayes
GaussianNB
q)乹}q(XpriorsqNXclasses_qcsklearn.externals.joblib.numpy_pickle
NumpyArrayWrapper
q)乹}q(Xsubclassqcnumpy
ndarray
q Xshapeq
K卶XorderqXCq
Xdtypeqcnumpy
dtype
qXi8qKK噏Rq(KXallow_mmapq坲bXtheta_qh)乹}q(hh h
KK唓hh
hhXf8qKK噏Rq(KhNNNJJKtqbh坲bIc忞K@鐣旯w@?C!@!?? @??贄?焮7A?@魮X驤蹯?戳?g:?驤踯??堨K>@邑?旨R=鱪@sγQ魮?禨哯?@H硏\?戳?g:@?卩邧@辨曣箇?堨K>@诣?麙?f@!┐?z@ 膮殦@t@埏钑眪l@素~G瘜m@挤諕?c@郘?‘@涛?崆霷@素~GS@蒰輅妡N@S涑n癆@t峢XAI@伕Ps?@#V??@C虸 .?@3哆?c:@??f鐭4@}?θg5@懴毫?@v?験74@1?87@褥?~?@L懴:@+?寻?@1?80@jNq℃4@t峢XA?@哆?c?@jNq0@C虸 .?@|[-Y挤#@Xsigma_qh)乹}q (hh h
KK唓!hh
hhh坲b鬽﹜粛?
僟髵h袬I踌UU|橜蘿諮薰作镐t夽fW??j@L頝粌@鬽﹜粛?鬽﹜粛?倜?7Z@?*k|I@鬽﹜粛?&炸&臋U@?肤K碈@?9ml@趜讯逹C@釂c稗Ok@=8s蝻廈@鬽﹜粛?O蟉*憌@鬽﹜粛?鬽﹜粛?}?“ik@鬽﹜粛?怨濢=8@鬽﹜粛?鬽﹜粛?鬽﹜粛?嫘绯bJ@o焄?漷@?3?毣@n?燍褸鏝蹹钢@‘r湾L覢樄穏
褸BD锗L皇@~哐n&繞e暨A継S~揮|矦Cz?仗)靶砖@q??@?綷“@5譏蚸欯Z谾鞸脼@4C?冁橜护遱企橜0?1斥淍n租楡7s殮@V闇M;e滰y磌?鼫@鎗鉕A旲g峭槀慇嘈糌錖揁眑?d@軳妱岪5被?岪蛠轺陆侤溗澟殎@Xclass_count_q“h)乹#}q$(hh h
K卶%hh
hhh坲bpp@衪@Xclass_prior_q&h)乹‘}q((hh h
K卶)hh
hhh坲b????唈:?後?X_sklearn_versionq*X0.19.1q+ub.

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-06-25 15:38  自然语言处理之文本主题判别\
     文件        1599  2018-06-25 15:12  自然语言处理之文本主题判别\train_model_NB.m
     目录           0  2018-06-25 15:40  自然语言处理之文本主题判别\txt\
     目录           0  2018-06-25 15:38  自然语言处理之文本主题判别\txt\book\
     文件       29103  2018-06-12 16:34  自然语言处理之文本主题判别\txt\book\2012普民三知初字第175号 .txt
     文件        9419  2018-06-12 16:43  自然语言处理之文本主题判别\txt\book\2012杨民一民初字第3100号 .txt
     文件       19093  2018-06-12 16:43  自然语言处理之文本主题判别\txt\book\2012杭余行初字第46号.txt
     文件       11772  2018-06-12 16:34  自然语言处理之文本主题判别\txt\book\2013奉行初字第46号 .txt
     文件       14970  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第52号 .txt
     文件       11450  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第53号 .txt
     文件       12979  2018-06-12 16:34  自然语言处理之文本主题判别\txt\book\2013奉行初字第54号 .txt
     文件       14129  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第58号 .txt
     文件       14129  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第59号 .txt
     文件       13671  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第60号 .txt
     文件       16520  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第65号 .txt
     文件        1196  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第23号 .txt
     文件        1304  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第24号 .txt
     文件        1745  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第25号 .txt
     文件        1748  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第26号 .txt
     文件        3925  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第27号 .txt
     文件        1361  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第28号 .txt
     文件       12061  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第29号 .txt
     文件         999  2018-06-12 16:36  自然语言处理之文本主题判别\txt\book\2013崇行初字第30号 .txt
     文件        2048  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第31号 .txt
     文件        1293  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第32号 .txt
     文件        1445  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第33号 .txt
     文件        1673  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第36号 .txt
     文件        3458  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第37号 .txt
     文件        2463  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第38号 .txt
     文件        1124  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第42号 .txt
     文件        9025  2018-06-12 16:31  自然语言处理之文本主题判别\txt\book\2013崇行初字第43号 .txt
............此处省略1063个文件信息

评论

共有 条评论