资源简介
【SVM】文本多分类源码,加了很多注释,按照README里面就能运行,,数据集也在里面,,自己把数据集直接放到E盘根目录下(程序里面写死了),或者自己放个里面,然后TrainProcess.java里面改也可以。
代码片段和文件信息
import urllib2
import urllib
import re
import chardet
import sys
class HTML_Tool:
BgnCharToNoneRex = re.compile(“(\t|\n| ||)“)
EndCharToNoneRex = re.compile(“<.*?>“)
BgnPartRex = re.compile(““)
CharToNewLineRex = re.compile(“(
||||)“)
CharToNextTabRex = re.compile(““)
replaceTab = [(“<““<“)(“>““>“)(“&““&“)(“&““\““)(“nbsp;““ “)]
def Replace_Char(selfx):
x = self.BgnCharToNoneRex.sub(““x)
x = self.BgnPartRex.sub(“\n “x)
x = self.CharToNewLineRex.sub(“\n“x)
x = self.CharToNextTabRex.sub(“\t“x)
x = self.EndCharToNoneRex.sub(““x)
for t in self.replaceTab:
x = x.replace(t[0]t[1])
return x
class crawler:
def __init__(self):
self.page = 11
self.myTool = HTML_Tool()
self.urllist = []
self.index = 1
def downloadpage(selfurl):
myResponse = urllib2.urlopen(url)
myPage = myResponse.read()
typeEncode = sys.getfilesystemencoding()
infoencode = chardet.detect(myPage).get(‘encoding‘‘utf-8‘)
html = myPage.decode(infoencode‘ignore‘).encode(typeEncode)
links = re.findall(‘ for link in links:
link =‘http://studa.net‘ + link
self.download(link)
self.index =+ 1
url = “http://www.studa.net/dilidizhi/index0“ + str(self.index)+“.html“
self.getIndexPage(url)
def download(selfurl):
print url
url2 = url.replace(“.html““-2.html“)
myResponse1 = urllib2.urlopen(url)
myPage1 = myResponse1.read()
myResponse2 = urllib2.urlopen(url2)
myPage2 = myResponse2.read()
typeEncode = sys.getfilesystemencoding()
infoencode = chardet.detect(myPage1).get(‘encoding‘‘utf-8‘)
html1 = myPage1.decode(infoencode‘ignore‘).encode(typeEncode)
html2 = myPage2.decode(infoencode‘ignore‘).encode(typeEncode)
myItems1 = re.findall(‘(.*?)‘html1re.S)
myItems2 = re.findall(‘(.*?)‘html2re.S)
file_object1 = open(str(self.page)+‘.txt‘ ‘w+‘)
file_object1.write(self.myTool.Replace_Char(myItems1[0]))
file_object1.close()
self.page += 1
file_object2 = open(str(self.page)+‘.txt‘ ‘w+‘)
file_object2.write(self.myTool.Replace_Char(myItems2[0]))
file_object2.close()
self.page += 1
def getIndexPage(self url):
print url
if self.page == 200:
exit()
self.downloadpage(url)
crawler().getIndexPage(“http://www.studa.net/dilidizhi/index.html“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-03-10 17:51 article\
目录 0 2016-03-10 17:50 article\交通运输\
文件 355 2013-12-21 14:35 article\交通运输\41.TXT
文件 437 2013-12-21 14:35 article\交通运输\410.TXT
文件 491 2013-12-21 14:35 article\交通运输\4100.TXT
文件 1484 2013-12-21 14:35 article\交通运输\4101.TXT
文件 1072 2013-12-21 14:35 article\交通运输\4102.TXT
文件 629 2013-12-21 14:35 article\交通运输\4103.TXT
文件 415 2013-12-21 14:35 article\交通运输\4104.TXT
文件 599 2013-12-21 14:35 article\交通运输\4105.TXT
文件 405 2013-12-21 14:35 article\交通运输\4106.TXT
文件 493 2013-12-21 14:35 article\交通运输\4107.TXT
文件 2031 2013-12-21 14:35 article\交通运输\4108.TXT
文件 705 2013-12-21 14:35 article\交通运输\4109.TXT
文件 4758 2013-12-21 14:35 article\交通运输\411.TXT
文件 707 2013-12-21 14:35 article\交通运输\4110.TXT
文件 921 2013-12-21 14:35 article\交通运输\4111.TXT
文件 2847 2013-12-21 14:35 article\交通运输\4112.TXT
文件 440 2013-12-21 14:35 article\交通运输\4113.TXT
文件 2105 2013-12-21 14:35 article\交通运输\4114.TXT
文件 831 2013-12-21 14:35 article\交通运输\4115.TXT
文件 589 2013-12-21 14:35 article\交通运输\4116.TXT
文件 1331 2013-12-21 14:35 article\交通运输\4117.txt
文件 1532 2013-12-21 14:35 article\交通运输\4118.txt
文件 457 2013-12-21 14:35 article\交通运输\4119.txt
文件 1223 2013-12-21 14:35 article\交通运输\412.TXT
文件 1796 2013-12-21 14:35 article\交通运输\4120.txt
文件 549 2013-12-21 14:35 article\交通运输\4121.txt
文件 584 2013-12-21 14:35 article\交通运输\4122.txt
文件 518 2013-12-21 14:35 article\交通运输\4123.txt
文件 1088 2013-12-21 14:35 article\交通运输\4124.txt
............此处省略3223个文件信息
- 上一篇:java超市进销存管理系统
- 下一篇:安卓音乐播放器
相关资源
-
LZW压缩,java代码实现
-
超市收银系统纯java代码实现
-
前端签到与后台逻辑代码实现
-
svm_java版本代码详细解释
-
在线拍照Java代码实现
-
使用weka非常有用的libsvm.jar 和wlsvm.j
-
贝叶斯分类实现垃圾信息分类支持中
-
libsvm.jar
-
java代码实现图片压缩
-
《剑指Offer》题目及java代码实现
-
微信公众平台 JAVA开发代码实现菜单,
-
php与安卓交互代码实现
-
五子棋java jsp代码实现
-
WEKA运行libsvm的wlsvm.jar
-
MQTT相关java代码实现
-
经典游戏之坦克大战Java代码实现
-
WEKA运行libsvm的libsvm.jar
-
java代码实现上传视频并截图
-
SVM 算法 java 实现
-
Android动态导航栏的代码实现
-
FIFO置换算法java代码实现
-
java实现基于SMO算法的SVM分类器
-
java代码实现填充word模板生成word合同
-
libsvm.jar和wlsvm.jar
-
敏感词库27000条代码实现敏感词过滤
-
LIBSVM工具包可以在weka中使用并被JAV
-
基于改进遗传算法的社区发现算法(
-
动态规划 投资问题 Java代码实现
-
决策树Java代码实现
-
java代码实现登录注册sqlserver
评论
共有 条评论