自然语言处理之文本主题判别

大小: 2.71MB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2023-11-18
语言: 其他
标签: svm 文本分类

高速下载

资源简介

问题发现：本次案例为工作中遇到的实际问题，在语音识别中的语料准备部分，需要从网络中爬取相当数量的相关文本，其中发现爬取到了一些不相关的内容，如何把这些不相关的内容剔除掉成为笔者需要思考的问题。初步思考：遇到此问题笔者第一时间考虑是将文本分词后向量化，使用聚类看一下分布情况，然而发现在不同训练集中，训练样本变化时，向量随之变化，在测试集中表现一般，在实测中几乎无用。于是想到向量化的方法问题，使用sklearn CountVectorizer方法进行向量化，仅仅是将所有词频无序的向量化，看到另外博文时，发现应该先将目标主题的文本进行词频统计，将统计结果当做向量化模板，实测发现效果不错，现将此方法分享给大家

资源截图

小图大图

代码片段和文件信息

€csklearn.naive_bayes
GaussianNB
q）乹}q（XpriorsqNXclasses_qcsklearn.externals.joblib.numpy_pickle
NumpyArrayWrapper
q）乹}q（Xsubclassqcnumpy
ndarray
q	Xshapeq
K卶XorderqXCq
Xdtypeqcnumpy
dtype
qXi8qKK噏Rq（KXallow_mmapq坲bXtheta_qh）乹}q（hh	h
KK唓hh
hhXf8qKK噏Rq（KhNNNJJKtqbh坲bIc忞K@鐣旯w@?C!@!??	@??贄?焮7A?@魮X驤蹯?戳?g:?驤踯??堨K>@邑?旨R=鱪@sγQ魮?禨哯?@H硏\?戳?g:@?卩邧@辨曣箇?堨K>@诣?麙?f@!┐?z@	膮殦@t@埏钑眪l@素~G瘜m@挤諕?c@郘?‘@涛?崆霷@素~GS@蒰輅妡N@S涑n癆@t峢XAI@伕Ps?@#V??@C虸 .?@3哆?c:@??f鐭4@}?θg5@懴毫?@v?験74@1?87@褥?~?@L懴:@+?寻?@1?80@jNq℃4@t峢XA?@哆?c?@jNq0@C虸 .?@|[-Y挤#@Xsigma_qh）乹}q （hh	h
KK唓!hh
hhh坲b鬽﹜粛?
僟髵h袬I踌UU|橜蘿諮薰作镐t夽fW??j@L頝粌@鬽﹜粛?鬽﹜粛?倜?７Z@?*k|I@鬽﹜粛?&炸&臋U@?肤K碈@?9ml@趜讯逹C@釂c稗Ok@=8s蝻廈@鬽﹜粛?Ｏ蟉*憌@鬽﹜粛?鬽﹜粛?}?“ik@鬽﹜粛?怨濢=8@鬽﹜粛?鬽﹜粛?鬽﹜粛?嫘绯bJ@o焄?漷@?3?毣@n?燍褸鏝蹹钢@‘r湾L覢樄穏
褸BD锗L皇@~哐n&繞e暨A継S~揮|矦Cz?仗）靶砖@q??@?綷“@5譏蚸欯Z谾鞸脼@4C?冁橜护遱企橜0?1斥淍n租楡7s殮@V闇M;e滰y磌?鼫@鎗鉕A旲g峭槀慇嘈糌錖揁眑?d@軳妱岪5被?岪蛠轺陆侤溗澟殎@Xclass_count_q“h）乹#}q$（hh	h
K卶%hh
hhh坲bpp@衪@Xclass_prior_q&h）乹‘}q（（hh	h
K卶）hh
hhh坲b????唈:?後?X_sklearn_versionq*X0.19.1q+ub.

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-06-25 15:38  自然语言处理之文本主题判别\
     文件        1599  2018-06-25 15:12  自然语言处理之文本主题判别\train_model_NB.m
     目录           0  2018-06-25 15:40  自然语言处理之文本主题判别\txt\
     目录           0  2018-06-25 15:38  自然语言处理之文本主题判别\txt\book\
     文件       29103  2018-06-12 16:34  自然语言处理之文本主题判别\txt\book\2012普民三知初字第175号 .txt
     文件        9419  2018-06-12 16:43  自然语言处理之文本主题判别\txt\book\2012杨民一民初字第3100号 .txt
     文件       19093  2018-06-12 16:43  自然语言处理之文本主题判别\txt\book\2012杭余行初字第46号.txt
     文件       11772  2018-06-12 16:34  自然语言处理之文本主题判别\txt\book\2013奉行初字第46号 .txt
     文件       14970  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第52号 .txt
     文件       11450  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第53号 .txt
     文件       12979  2018-06-12 16:34  自然语言处理之文本主题判别\txt\book\2013奉行初字第54号 .txt
     文件       14129  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第58号 .txt
     文件       14129  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第59号 .txt
     文件       13671  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第60号 .txt
     文件       16520  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013奉行初字第65号 .txt
     文件        1196  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第23号 .txt
     文件        1304  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第24号 .txt
     文件        1745  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第25号 .txt
     文件        1748  2018-06-12 16:41  自然语言处理之文本主题判别\txt\book\2013崇行初字第26号 .txt
     文件        3925  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第27号 .txt
     文件        1361  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第28号 .txt
     文件       12061  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第29号 .txt
     文件         999  2018-06-12 16:36  自然语言处理之文本主题判别\txt\book\2013崇行初字第30号 .txt
     文件        2048  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第31号 .txt
     文件        1293  2018-06-12 16:35  自然语言处理之文本主题判别\txt\book\2013崇行初字第32号 .txt
     文件        1445  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第33号 .txt
     文件        1673  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第36号 .txt
     文件        3458  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第37号 .txt
     文件        2463  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第38号 .txt
     文件        1124  2018-06-12 16:33  自然语言处理之文本主题判别\txt\book\2013崇行初字第42号 .txt
     文件        9025  2018-06-12 16:31  自然语言处理之文本主题判别\txt\book\2013崇行初字第43号 .txt
............此处省略1063个文件信息

上一篇：基于STM32的智能浇花系统（带ucosiii操作系统）
下一篇：数值分析第五版答案（全）.docx

共有条评论

自然语言处理之文本主题判别

资源简介

资源截图

代码片段和文件信息

评论

相关资源