资源简介

前文介绍了Python3抓取电影实体知识,Seaborn可视化展示电影信息,D3可视化布局,关系图谱基本构建。本篇文章将实现点击节点显示其相关的属性及属性值,通常在知识图谱中称之为消息盒(InfoBox)展示。希望该资源对你有所帮助,更推荐读者结合博客进行学习。 https://blog.csdn.net/Eastmount/article/details/87193405 By: Eastmount

资源截图

代码片段和文件信息

# coding: utf-8
import urllib.request as urllib2
import json

#设置headers
headers = {}
headers[“User-Agent“] = “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/70.0.3538.102 Safari/537.36“

#读取文件-读取json信息并将json格式数据转换为字典
f = open(‘films.csv‘ ‘r‘ encoding=‘utf-8‘)
films = []
for line in f.readlines():
    #print(line)
    print(line.strip(‘\n‘))
    line = json.loads(line.strip(‘\n‘))
    films.append(line)
f.close()

#遍历每部电影films的实体并获取其他实体
#获取 characters人物 planets星球 starships飞船 vehicles装备 species种族
targets = [‘characters‘ ‘planets‘ ‘starships‘ ‘vehicles‘ ‘species‘]

for target in targets:
    print(target)
    #循环获取五类数据并存储至文件
    fw = open(‘film_‘ + target + ‘.csv‘ ‘w‘)
    data = []
    #获取7部电影信息的实体名称
    for item in films:  
        tmp = item[target]  #实体对应的链接
        print(tmp)
        for t in tmp:
            if t in data: #如果实体已经存在则跳过 比如某部电影人物另一部也出现了
                continue
            else:
                data.append(t)
            
            #循环请求直到成功 防止网络延迟
            while 1:
                try:
                    print(t)
                    request = urllib2.Request(url=t headers=headers)
                    response = urllib2.urlopen(request)
                    result = response.read().decode(‘utf-8‘)
                except Exception as e:
                    continue #请求失败循环继续
                else:
                    fw.write(result+“\n“)
                    break #请求成功跳出循环
                finally:
                    pass
                
    #查看七部电影含这种实体多少个
    print(str(len(data)) target)
    fw.close()

print(“success“)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      19712  2019-01-31 15:32  (best)完整代码\(1) 爬虫 Spider_KG\films.csv

     文件      42166  2019-01-31 15:35  (best)完整代码\(1) 爬虫 Spider_KG\film_characters.csv

     文件       9894  2019-01-31 15:35  (best)完整代码\(1) 爬虫 Spider_KG\film_planets.csv

     文件      20519  2019-01-31 15:37  (best)完整代码\(1) 爬虫 Spider_KG\film_species.csv

     文件      20993  2019-01-31 15:36  (best)完整代码\(1) 爬虫 Spider_KG\film_starships.csv

     文件      18780  2019-01-31 15:37  (best)完整代码\(1) 爬虫 Spider_KG\film_vehicles.csv

     文件       1986  2019-01-31 15:33  (best)完整代码\(1) 爬虫 Spider_KG\get_details.py

     文件        805  2019-01-31 15:32  (best)完整代码\(1) 爬虫 Spider_KG\get_films.py

     文件      19712  2019-01-31 15:32  (best)完整代码\(2) 可视化 ShowPic_KG\films.csv

     文件      42166  2019-01-31 15:35  (best)完整代码\(2) 可视化 ShowPic_KG\film_characters.csv

     文件       9894  2019-01-31 15:35  (best)完整代码\(2) 可视化 ShowPic_KG\film_planets.csv

     文件      20519  2019-01-31 15:37  (best)完整代码\(2) 可视化 ShowPic_KG\film_species.csv

     文件      20993  2019-01-31 15:36  (best)完整代码\(2) 可视化 ShowPic_KG\film_starships.csv

     文件      18780  2019-01-31 15:37  (best)完整代码\(2) 可视化 ShowPic_KG\film_vehicles.csv

     文件       1986  2019-01-31 15:33  (best)完整代码\(2) 可视化 ShowPic_KG\get_details.py

     文件        805  2019-01-31 15:32  (best)完整代码\(2) 可视化 ShowPic_KG\get_films.py

     文件        732  2019-02-01 14:18  (best)完整代码\(2) 可视化 ShowPic_KG\get_jsondetails.py

     文件        756  2019-01-31 17:12  (best)完整代码\(2) 可视化 ShowPic_KG\get_jsonfils.py

     文件       1804  2019-02-01 15:10  (best)完整代码\(2) 可视化 ShowPic_KG\show_height_mass.py

     文件        896  2019-02-01 15:16  (best)完整代码\(2) 可视化 ShowPic_KG\show_height_mass2.py

     文件        582  2019-02-01 14:04  (best)完整代码\(2) 可视化 ShowPic_KG\show_hist.py

     文件        831  2019-02-01 14:22  (best)完整代码\(2) 可视化 ShowPic_KG\show_scatter.py

     文件       1119  2019-02-01 13:48  (best)完整代码\(2) 可视化 ShowPic_KG\stat_basic.csv

     文件       5041  2019-02-01 14:18  (best)完整代码\(2) 可视化 ShowPic_KG\stat_character.csv

     文件      19712  2019-01-31 15:32  (best)完整代码\(3-1) 获取json数据 neo4j_data\films.csv

     文件      42166  2019-01-31 15:35  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_characters.csv

     文件       9894  2019-01-31 15:35  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_planets.csv

     文件      20519  2019-01-31 15:37  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_species.csv

     文件      20993  2019-01-31 15:36  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_starships.csv

     文件      18780  2019-01-31 15:37  (best)完整代码\(3-1) 获取json数据 neo4j_data\film_vehicles.csv

............此处省略39个文件信息

评论

共有 条评论