资源简介

资源包主要内容: (1)各个步骤需要的实验源码 (2)各个步骤生成的text、xml以及csv文件 (3)实验过程的大致说明,帮助更好的理解实验 包含整个实验过程的所有资源,代码完整,附带实验说明,易于理解。 原reviews.xml有点不合适,用资源包里的替换掉就好。 最后,祝大家能早日做完实验,早回家。

资源截图

代码片段和文件信息

#-*-coding:utf-8 -*-
from lxml import etree
import pandas as pd
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
id =0
a=[]
b=[]

parser = etree.xmlParser(recover=True)
while id <100:
    tree = etree.parse(“F:/Pythonwork/NLP/review_parser/review_parsed“+‘%05d‘%id+“.xml“ parser)
    root = tree.getroot()
    for element in root.iter():
        depps = element.findall(“dep“)
        for depp in depps:
            if depp.get(‘type‘) == “amod“:
                print depp.find(“governor“).text
                print depp.find(“dependent“).text
                a.append(depp.find(“governor“).text)
                b.append(depp.find(“dependent“).text)
    id+=1

dataframe = pd.Dataframe({‘名词‘: a ‘修饰词‘: b})
dataframe.to_csv(“test.csv“ index=False sep=‘‘)



#print root[0].tag
#print root[0].attrib
#找标签名为dependencies的属性
print root[0].find(“dependencies“).attrib.keys()[0]



#for element in root.iter():
 #   if element.find(‘review_text‘) is None: pass

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件       21088  2016-09-27 20:57  实验三-NLP\hw2.ipynb
     目录           0  2018-01-24 17:44  实验三-NLP\
     目录           0  2018-01-24 17:44  实验三-NLP\.idea\
     文件         459  2018-01-23 23:38  实验三-NLP\.idea\NLP.iml
     文件         222  2018-01-23 23:38  实验三-NLP\.idea\misc.xml
     文件         258  2018-01-23 23:38  实验三-NLP\.idea\modules.xml
     文件       15441  2018-01-24 17:27  实验三-NLP\.idea\workspace.xml
     文件        1030  2018-01-24 16:37  实验三-NLP\Matched.py
     文件         667  2018-01-24 00:13  实验三-NLP\RewiewText.py
     目录           0  2018-01-24 17:44  实验三-NLP\review_parser\
     文件       21909  2018-01-24 00:38  实验三-NLP\review_parser\review_parsed00000.xml
     文件       21909  2018-01-24 00:38  实验三-NLP\review_parser\review_parsed00001.xml
     文件        4287  2018-01-24 00:38  实验三-NLP\review_parser\review_parsed00002.xml
     文件        6782  2018-01-24 00:38  实验三-NLP\review_parser\review_parsed00003.xml
     文件        3431  2018-01-24 00:38  实验三-NLP\review_parser\review_parsed00004.xml
     文件       28960  2018-01-24 00:39  实验三-NLP\review_parser\review_parsed00005.xml
     文件        5201  2018-01-24 00:39  实验三-NLP\review_parser\review_parsed00006.xml
     文件       40059  2018-01-24 00:39  实验三-NLP\review_parser\review_parsed00007.xml
     文件       12403  2018-01-24 00:39  实验三-NLP\review_parser\review_parsed00008.xml
     文件       40059  2018-01-24 00:39  实验三-NLP\review_parser\review_parsed00009.xml
     文件       92543  2018-01-24 00:40  实验三-NLP\review_parser\review_parsed00010.xml
     文件        3124  2018-01-24 00:40  实验三-NLP\review_parser\review_parsed00011.xml
     文件        5657  2018-01-24 00:40  实验三-NLP\review_parser\review_parsed00012.xml
     文件        9935  2018-01-24 00:40  实验三-NLP\review_parser\review_parsed00013.xml
     文件       61297  2018-01-24 00:40  实验三-NLP\review_parser\review_parsed00014.xml
     文件       24131  2018-01-24 00:41  实验三-NLP\review_parser\review_parsed00015.xml
     文件       11241  2018-01-24 00:41  实验三-NLP\review_parser\review_parsed00016.xml
     文件       27667  2018-01-24 00:41  实验三-NLP\review_parser\review_parsed00017.xml
     文件        8566  2018-01-24 00:41  实验三-NLP\review_parser\review_parsed00018.xml
     文件        2117  2018-01-24 00:41  实验三-NLP\review_parser\review_parsed00019.xml
     文件        5186  2018-01-24 00:41  实验三-NLP\review_parser\review_parsed00020.xml
............此处省略234个文件信息

评论

共有 条评论