资源简介

该资源是文章的资料,压缩包中包含:Gephi软件、中国知网数据、展示图谱、Python代码。 本篇文章主要采用Python和Gephi构建中国知网某个领域的作者合作关系和主题词共现的知识图谱,重点阐述了一种可操作的关系图谱构建方法,可用于论文发表、课程或企业可视化展示等。其基本步骤如下: 1.在中国知网搜索“清水江”关键词,并导出论文Excel格式。 2.使用Python处理文本,获取作者合作的共现矩阵及三元组。 3.Gephi导入CSV节点及边文件,并构建关系图谱。 4.Gephi调整参数,优化关系图谱。 原文链接:https://blog.csdn.net/Eastmount/article/details/100200437 希望该资源对您有所帮助,建议结合博客来学习。

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
“““
@author: eastmount CSDN 杨秀璋 2019-09-02
“““
import pandas as pd
import numpy as np
import codecs
import networkx as nx
import matplotlib.pyplot as plt
import csv
 
#---------------------------第一步:读取数据-------------------------------
word = [] #记录关键词
f = open(“word2.txt“)            
line = f.readline()           
while line:
    #print line
    line = line.replace(“\n“ ““) #过滤换行
    line = line.strip(‘\n‘) 
    for n in line.split(‘;‘):
        #print n
        if n not in word:
            word.append(n)
    line = f.readline()
f.close()
print len(word) #作者总数


#--------------------------第二步 计算共现矩阵----------------------------
a = np.zeros([23])
print a

#共现矩阵
#word_vector = np.zeros([len(word)len(word)] dtype=‘float16‘) 

#MemoryError:矩阵过大汇报内存错误
#https://jingyan.baidu.com/article/a65957f434970a24e67f9be6.html
#采用coo_matrix函数解决该问题

from scipy.sparse import coo_matrix
print len(word)
#类型
word_vector = coo_matrix((len(word)len(word)) dtype=np.int8).toarray() 
print word_vector.shape

f = open(“word2.txt“)
line = f.readline()           
while line:
    line = line.replace(“\n“ ““) #过滤换行
    line = line.strip(‘\n‘) #过滤换行
    nums = line.split(‘;‘)

    #循环遍历关键词所在位置 设置word_vector计数
    i = 0
    j = 0
    while i        j = i + 1
        w1 = nums[i]           #第一个单词
        while j            w2 = nums[j]       #第二个单词
            #从word数组中找到单词对应的下标
            k = 0
            n1 = 0
            while k                if w1==word[k]:
                    n1 = k
                    break
                k = k +1
            #寻找第二个关键字位置
            k = 0
            n2 = 0
            while k                if w2==word[k]:
                    n2 = k
                    break
                k = k +1
            #重点: 词频矩阵赋值 只计算上三角
            if n1<=n2:
                word_vector[n1][n2] = word_vector[n1][n2] + 1
            else:
                word_vector[n2][n1] = word_vector[n2][n1] + 1
            #print n1 n2 w1 w2
            j = j + 1
        i = i + 1
    #读取新内容
    line = f.readline()
f.close()


#--------------------------第三步  TXT文件写入--------------------------
res = open(“word_word_weight2.txt“ “a+“)
i = 0
while i    w1 = word[i]
    j = 0
    while j        w2 = word[j]
        #判断两个词是否共现 共现&词频不为0的写入文件
        if word_vector[i][j]>0:
            #print w1 +“ “ + w2 + “ “+ str(int(word_vector[i][j]))
            res.write(w1 +“ “ + w2 + “ “+ str(int(word_vector[i][j]))  +  “\r\n“)
        j = j + 1
    i = i + 1
res.close()

#共现矩阵写入文件 如果作者数量较多 建议删除下面部分代码
res = open(“word_jz2.txt“ “a+“)
i = 0
while i    j = 0
    jz = ““
    while j        jz = jz + str(int(word_vector[i][j])) + “ “
        j = j + 1
    res.write(jz + “\r\n“)
    i = i + 1

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-09-02 17:11  中国知网知识图谱\
     文件      743985  2019-09-02 11:32  中国知网知识图谱\CNKI-637030207011763750.xls
     文件      334891  2019-09-02 11:35  中国知网知识图谱\CNKI-637030209353170000.xls
     文件      531493  2019-09-02 12:46  中国知网知识图谱\data.csv
     文件    56230855  2016-11-16 13:56  中国知网知识图谱\gephi-0.9.1-windows.exe
     文件      511869  2016-11-16 13:48  中国知网知识图谱\gephi教程.pdf
     目录           0  2019-09-02 17:19  中国知网知识图谱\主题关键词图谱\
     文件      222813  2019-09-02 16:55  中国知网知识图谱\主题关键词图谱\eastmount-best03.gephi
     文件      272399  2019-09-02 16:27  中国知网知识图谱\主题关键词图谱\edges2.csv
     文件       42203  2019-09-02 16:28  中国知网知识图谱\主题关键词图谱\nodes2.csv
     文件        4213  2019-09-02 16:21  中国知网知识图谱\主题关键词图谱\test-word-best999(final).py
     文件      183175  2019-09-02 16:22  中国知网知识图谱\主题关键词图谱\word-word-weight2.csv
     文件       37328  2019-09-02 16:21  中国知网知识图谱\主题关键词图谱\word2.txt
     文件     1400304  2019-09-02 12:13  中国知网知识图谱\主题关键词图谱\清水江文献分析(958).xls
     文件      679074  2019-09-02 17:19  中国知网知识图谱\主题关键词图谱\运行结果.pdf
     文件     1658036  2019-09-02 17:19  中国知网知识图谱\主题关键词图谱\运行结果.png
     目录           0  2019-09-02 17:08  中国知网知识图谱\作者共现图谱\
     文件       82494  2019-09-02 16:17  中国知网知识图谱\作者共现图谱\eastmount-best01.gephi
     文件       33680  2019-09-02 15:36  中国知网知识图谱\作者共现图谱\edges.csv
     文件        9016  2019-09-02 15:42  中国知网知识图谱\作者共现图谱\nodes.csv
     文件        4213  2019-09-02 16:21  中国知网知识图谱\作者共现图谱\test-word-best999(final).py
     文件       19868  2019-09-02 15:47  中国知网知识图谱\作者共现图谱\word-word-weight.csv
     文件       12260  2019-09-02 14:41  中国知网知识图谱\作者共现图谱\word.txt
     文件          26  2019-09-01 18:42  中国知网知识图谱\作者共现图谱\word3.txt
     文件     1773801  2019-09-02 15:10  中国知网知识图谱\作者共现图谱\word_jz.txt
     文件       31040  2019-09-02 15:10  中国知网知识图谱\作者共现图谱\word_word_weight.txt
     文件     1400304  2019-09-02 12:13  中国知网知识图谱\作者共现图谱\清水江文献分析(958).xls
     文件      213276  2019-09-02 16:17  中国知网知识图谱\作者共现图谱\运行截图.pdf
     文件      256408  2019-09-02 16:17  中国知网知识图谱\作者共现图谱\运行截图.png
     文件     1400304  2019-09-02 12:13  中国知网知识图谱\清水江文献分析(958).xls
     文件    37803450  2019-09-01 23:36  中国知网知识图谱\网络数据可视化与分析利器  Gephi 中文教程  全彩版_14158088.pdf
............此处省略0个文件信息

评论

共有 条评论