zoukankan      html  css  js  c++  java
  • 文本可视化[二]——《今生今世》人物关系可视化python实现

    文本可视化[二]——《今生今世》人物关系可视化python实现

    文本可视化[一]——《今生今世》词云生成与小说分析一文中,我使用了jieba分词和wordcloud实现了,文本关键词的提取并生成词云,同时也尝试直接提取人名关键词来绘制。这次我们换一种方式——通过分析人物之间的关系,而不是人物在文本集中的频率来绘制一张复杂网络图,如下所示。数据经过可视化后还是非常有趣的。下面就讲讲人物关系网图的实过程。

    用到的工具

    • jieba
      jieba分词,最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在文本可视化[一]——《今生今世》词云生成与小说分析 使用了关键词抽取,在这里我们需要用他的分词功能来提取文本中的人名。
    • gephi
      gephi是一个开源的复杂网络数据可视化软件,可用于探索数据分析、链路分析、社交网络分析、生物网络分析等。我们需要把数据处理成gephi可接受的csv格式,然后再进行绘制。

    数据处理方式

    在词云中,我们只能通过词的大小来了解该词对于文本集是否起关键作用,无法探究人物之间的关系;在关系网图中,不仅可以了解词的关键程度,还能发现人物之间的联系,更能说明问题。

    由此可见,绘制词云时,我们只需要提取两列数据,一列人名,一列为频率。而绘制网络图时,就需要两组数据。网络图,顾名思义,就是一张图。所有的图都是由节点和边构成的。节点数据也就是节点值+权重,边数据就是出度+入度+权重。

    对应到本文的例子中来,我们是来绘制《今生今世》中的任务关系网。具体的处理方式如下:

    1. 对文本进行针对性分词,统计人物在本文中的出场次数。
    2. 以段落为单位进行划分,统计每段中的人物,两两配对后计数,形成粗略的人物关系统计。
    3. 数据为gephi特定的csv格式,人物出场次数输出为格式为(Id,Label,Weight),人物关系输出格式为(Source,Target,Weigh)。这也就是之前所说的,用来绘制图的节点和边数据。

    可能存在的问题

    根据上文描述的统计方法来进行统计显然是粗略的,有很多问题需要进一步考量。

    1. 以自然段为单位统计人物关系是否合理?真实情况中有很多跨段落的人物关系。
    2. 显然利用笛卡尔积来统计人物之间的关系也是有问题的。
    3. 人物之前的称呼仅仅是直呼姓名的吗?显然还有多种代词,这里我将文本中的“我”也一并提取出来作为《今生今世》的中心人物——胡兰成。

    结果虽然是粗略的,但是通过对文本的理解,绘制的图依然有一定的参考意义。

    实现流程

    代码实现分为三步,1. 人物出场次数统计。2. 人物关系统计。3. 格式化输出。

    准备工作

    准备两份字典,用于分词。

    • 文本人物字典
      文本人物字典包含了文本中的大部分人名,或者说是我们关心的人物的人名。

    • 人物别称映射字典
      民国时期的散文,势必每个人会有多个称呼,在文化人中甚多。蕊生、我、兰成、胡先生指代的都是胡兰成。因此需要一个映射字典,将不同的称呼都映射到同一个人名当中。

    定义文件路径常量和初始化全局变量

    TEXT_PATH = '../jsjs.txt'  # 文本路径
    DICT_PATH = 'person.txt'  # 人物字典路径
    SYNONYMOUS_DICT_PATH = 'synonymous_dict.txt'  # 同义词路径
    SAVE_NODE_PATH = 'node.csv'
    SAVE_EDGE_PATH = 'edge.csv'
    
    '''
    person_counter是一个计数器,用来统计人物出现的次数。{'a':1,'b':2}
    person_per_paragraph每段文字中出现的人物[['a','b'],[]]
    relationships保存的是人物间的关系。key为人物A,value为字典,包含人物B和权值。
    '''
    person_counter = defaultdict(int)	# 人物出场次数计数器
    person_per_paragraph = []
    relationships = {}
    synonymous_dict = {}
    

    人物出场次数统计

    具体实现方式可以看代码注释。

    def count_person(self):
        '''
        统计人物出场次数,添加每段的人物
        :return:
        '''
        paragraphs = self.get_clean_paragraphs()
        synonymous = self.synonymous_names()
        print('start process node')
        with codecs.open(self._dict_path, 'r', 'utf-8') as f:
            name_list = f.read().split(' 10 nr
    ')  # 获取干净的name_list
        for p in paragraphs:
            jieba.load_userdict(self._dict_path)
            # 分词,为每一段初始化新字典
            poss = jieba.cut(p)
            self._person_per_paragraph.append([])
            for w in poss:
                # 判断是否在姓名字典以及同义词区分
                if w not in name_list:
                    continue
                if synonymous.get(w):
                    w = synonymous[w]
                # 往每段中添加人物
                self._person_per_paragraph[-1].append(w)
                # 初始化人物关系,计数
                if self._person_counter.get(w) is None:
                    self._relationships[w] = {}
                self._person_counter[w] += 1
        return self._person_counter
    

    人物关系统计

    def calc_relationship(self):
    	'''
    	统计人物关系权值
    	:return:
    	'''
    	print("start to process edge")
    	# 遍历每一段落,笛卡尔积形式,统计人物关系
    	for p in self._person_per_paragraph:
    		for name1 in p:
    			for name2 in p:
    				if name1 == name2:
    					continue
    				if self._relationships[name1].get(name2) is None:
    					self._relationships[name1][name2] = 1
    				else:
    					self._relationships[name1][name2] += 1
    	return self._relationships
    

    格式化输出

    def save_node_and_edge(self):
    	'''
    	根据dephi格式保存为csv
    	:return:
    	'''
    	with codecs.open(SAVE_NODE_PATH, "a+", "utf-8") as f:
    		f.write("Id,Label,Weight
    ")
    		for name, times in self._person_counter.items():
    			f.write(name + "," + name + "," + str(times) + "
    ")
    
    	with codecs.open(SAVE_EDGE_PATH, "a+", "utf-8") as f:
    		f.write("Source,Target,Weight
    ")
    		for name, edges in self._relationships.items():
    			for v, w in edges.items():
    				if w > 3:
    					f.write(name + "," + v + "," + str(w) + "
    ")
    	print('save file successful!')
    

    输出结果如下图所示。

    完整代码参考github
    接下来就可以把数据导入到gephi中生成人物关系网图了。

    gephi的使用

    gephi和之前使用的wordcloud不同,wordcloud仅仅是一个python的库,直接通过函数调用就可以绘制图片。gephi是一个可视化的应用程序。

    需要在https://gephi.org/ 下载windows版的安装包进行安装。打开后如下图所示。

    接下来就可以进行网图的绘制了。
    1. 新建工程,导入数据

    1. 新建工程
    2. 选择数据资料tab,点击输入数字表格,添加节点和边的csv数据。

    2.调整相关的样式
    点击概览调整相关样式。可以通过度,权重等信息修改相关的样式。

    3. 修改字体,显示相应的标签

    4. 选择一个自动化布局的方式,预览,再调整相关参数

    5. 最终点击左下角导出图片

    上面简单描述了下生成网图的过程。gephi具体的使用方式可以去查看官网的教程。

    参考文档

    **完整代码可参考github:https://github.com/maoqyhz/TextCharactervVisualization **

  • 相关阅读:
    使用duilib链接错误 _declspec(dllimport)
    USB磁盘VID和PID 对应到次盘盘符相关文章
    路径拆分函数
    COM问题
    将对话框嵌入父窗体
    duilib的caption上的Edit无法激活
    LoadLibrary失败,GetLastError MOD_NOT_FOUND
    windows字符串
    windows界面库种类
    windows插件框架
  • 原文地址:https://www.cnblogs.com/Sinte-Beuve/p/7679392.html
Copyright © 2011-2022 走看看