zoukankan html css js c++ java

基于Word2vec的诗词多情感分析

Word2vec构造情感字典

基本含义

基于Word2vec的字向量能从大量未标注的普通文本数据中无监督地学习到字向量，而且这些字向量包含了字与字之间的语义关系，正如现实世界中的“物以类聚，类以群分”一样，字可以由它们身边的字来定义。

从原理上讲，基于字嵌入的Word2vec是指把一个维数为所有字的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单字被映射为实数域上的向量。把每个单字变成一个向量，目的还是为了方便计算，比如“求单字A的同义字”，就可以通过“求与单字A在cos距离下最相似的向量”来做到。相关案例可参看《作为一个合格的“增长黑客”，你还得重视外部数据的分析！》。下面是基于Word2vec的字向量模型原理示意图。

情感字典

首先加载咱们的诗词数据，进行切分，然后用word2vec进行训练

然后将我们需要的七中情感词进行关联词查找，并保存至对应的表中

from gensim import models
from gensim.models.word2vec import Word2Vec
import os


def split_poetry(file='qi_jueju.txt'):
    all_data=open(file,"r",encoding="utf-8").read()
    # all_data=all_data.replace('，','').replace('。','')
    all_data_split=" ".join(all_data)
    with open("split.txt", "w", encoding='utf-8') as f:
        f.write(all_data_split)

def train_vec(split_file='split.txt'):
    #word2vec模型
    vec_params_file= "vec_params.pkl"
    #判断切分文件是否存在，不存在进行切分
    if os.path.exists(split_file)==False:
        split_poetry()
    #读取切分的文件
    split_all_data=open(split_file,"r",encoding="utf-8").read().split("\n")
    #存在模型文件就去加载，返回数据即可
    if os.path.exists(vec_params_file):
        return Word2Vec.load(vec_params_file)
    #词向量大小：vector_size，构造word2vec模型，字维度107，只要出现一次就统计该字，workers=6同时工作
    embedding_num=128
    model=Word2Vec(split_all_data,vector_size=embedding_num,min_count=1,workers=6)
    #保存模型
    model.save(vec_params_file)
    return model

if __name__ == '__main__':
    model=train_vec()
    emotion=['悲','惧','乐','怒','思','喜','忧']
    em_list={}
    for e in emotion:
        res = model.wv.most_similar(e, topn=100)
        lists=[]
        lists.append(e)
        for item in res:
            print(item[0] + "," + str(item[1]))
            lists.append(item[0])
        em_list[e]=",".join(lists)
    import xlwt

    xl = xlwt.Workbook()
    # 调用对象的add_sheet方法
    sheet1 = xl.add_sheet('sheet1', cell_overwrite_ok=True)

    sheet1.write(0, 0, "emotion")
    sheet1.write(0, 1, 'similar')
    i=0
    for k in em_list.keys():
        sheet1.write(i + 1, 0, emotion[i])
        sheet1.write(i + 1, 1, em_list[k])
        i+=1

    xl.save("emotion.xlsx")

结果：

情感分析

任选一首古诗，对其进行单句切分，分析每个句子的情感，然后进行汇总，预测整首诗的情感

import pandas as pd

def emotion():
    data=pd.read_excel('emotion.xlsx')
    similar=data.get('similar')
    sad_list=str(similar[0]).split(',')
    fear_list=str(similar[1]).split(',')
    happy_list=str(similar[2]).split(',')
    anger_list=str(similar[3]).split(',')
    think_list=str(similar[4]).split(',')
    like_list=str(similar[5]).split(',')
    worry_list=str(similar[6]).split(',')
    return sad_list,fear_list,happy_list,anger_list,think_list,like_list,worry_list

def test_sentence(sentence):
    sad_list, fear_list, happy_list, anger_list, think_list, like_list, worry_list=emotion()
    sad=fear=happy=anger=think=like=worry=0
    for k in sentence:
        if k in sad_list:
            sad+=1
        elif k in fear_list:
            fear+=1
        elif k in happy_list:
            happy+=1
        elif k in anger_list:
            anger+=1
        elif k in think_list:
            think+=1
        elif k in like_list:
            like+=1
        elif k in worry_list:
            worry+=1
    ans=max(sad,fear,happy,anger,think,like,worry)
    scord_list=[]
    scord_list.append(sad)
    scord_list.append(fear)
    scord_list.append(happy)
    scord_list.append(anger)
    scord_list.append(think)
    scord_list.append(like)
    scord_list.append(worry)
    emotion_list=['悲','惧','乐','怒','思','喜','忧']
    i=0
    for i in range(len(scord_list)):
        if scord_list[i]==ans:
            print(emotion_list[i])
            break
    return emotion_list[i]

def read():
    data=pd.read_excel('tang.xlsx')
    content_list=data.get('content')
    for i in range(len(content_list)):
        content=content_list[i].replace('\n','')
        ans_content=[]
        content_l=str(content).split('。')
        for k in content_l:
            kk=str(k).split('，')
            for it in kk:
                if it!='':
                    ans_content.append(it)
        ans_emotion = {}
        for sentence in ans_content:
            print(sentence)
            emot=test_sentence(sentence)
            if emot not in ans_emotion.keys():
                ans_emotion[emot] = 1
            else:
                ans_emotion[emot]+=1
        print(sorted(ans_emotion.items(), key=lambda item: item[1], reverse=True))
        ans_emotion=dict(sorted(ans_emotion.items(), key=lambda item: item[1], reverse=True))
        for key,value in ans_emotion.items():
            print('整篇文章情感：'+key)
            break
        break




if __name__ == '__main__':
    read()

例如：宗武生日

原诗鉴赏：

还是比较吻合的

查看全文

相关阅读:
Andrew Ng机器学习二： Logistic Regression
Andrew Ng机器学习一： Linear Regression
python爬有道翻译
 硬件学习之无刷电机理论1
字符串优化处理
 缓冲&缓存&对象池概念的理解
 线程池的学习及使用
 线程同步&线程池
 数据类型转换&运算符
 集合中常用的数据结构

原文地址：https://www.cnblogs.com/xiaofengzai/p/15696034.html