资源简介

使用Python语言对DBLP数据集通过sax方式进行简单处理并存放到csv文件中。处理过程非常简单,请根据需要进行下载。

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-
‘‘‘
@author:Zhong Peng
@createDate:2015-11-05
@version:1.0.0
‘‘‘
import sys
from xml.sax import handler make_parser
import pickle
import os

DBLP_xml_PATH = r‘C:\Users\zhongpeng\Desktop\dblp.xml‘

#此处需要完整添加所有“块”结构的标签,或者需要处理的类型的标签
paperTag = (‘inproceedings‘‘proceedings‘
        ‘incollection‘‘phdthesis‘‘mastersthesis‘‘www‘)



class CoauthorHandler(handler.ContentHandler):

    def __init__(self):
        self.title = ‘‘
        self.year = ‘‘
        self.author = ‘‘
        self.count = 0
        self.isPaperTag = 0
        self.istitleTag = 0
        self.isYearTag = 0
        self.isAuthorTag = 0
        self.authors = []#存储每个“块”中的所有author
        self.storage = {}#用来存储生成的数据,结构为{‘title‘:[year [author1 author2 ...]]}
      

评论

共有 条评论