zoukankan      html  css  js  c++  java
  • 如何科学化、系统化的构建行业舆情模型(关键词方案)

    本文转自知乎

    作者:苏格兰折耳喵

    —————————————————————————————————————————————————————

    大家在做某个领域的舆情口碑监测时,非常关键的一步就是制作舆情模型(也叫关键词方案,一般通过“或”“与”“非”等布尔逻辑连接起来,另外还附带排除词方案,用于过滤垃圾信息),因为购置舆情系统只是一个“空壳”,需要用舆情模型注入灵魂,检索到符合业务需求且相关性极强的信息,这是监测和分析的前提条件。

    根据我的日常实践,以“汽车行业”的舆情模型的构建为例,粗略步骤如下:

    1. 定维度。通过调研垂直领域网站,发现该领域的结构/体系,并遵从咨询界的黄金法则---MECE原则,即“不重复、无遗漏”,主要针对消费者/用户关心的方面,并在桌面调研中建立起符合业务需求的维度,并明确每个维度的概念、范围和操作性定义(如下表所示)“。这一步是非常关键的,决定下面的各个维度词汇的选择。

    2. 充词汇。爬虫垂直网站上的用户评论语料或者专业评测文章,分词后进行检索、词向量模型训练,用来探索领域内专有词汇,这一步是发散,要尽可能用检索到的词汇来丰富各维度。另:可采用业界开源的词向量模型,如腾讯AI lab近期开源的16g包含各领域语料的词向量模型。举个例子,通过词向量模型,找到“动力”相关的词汇,其中有很多是其下位词

    3. 精筛选。这一步要进行收敛,尽可能的保证各维度下的词汇具有“领域专有性”,也就是能独立代表各个维度。具体方法可以是人工挑拣,或者是利用机器学习的词聚类,最好是人机相辅的做法。

    4. 做校验。将各维度的词向量通过或与非的布尔逻辑整理成关键词方案后,放置到舆情监测系统中进行测试,通过检测到的结果对监测方案进行校正,并查找到各维度对应的排除词,保证检索结果的准确性。

    5. 重复-复盘-更新。以上流程是一个循环往复的闭环,需要不断更新迭代。

    注:

    (1)在不超过监测方案字数的情况下,最好最大限度的保留具有“语义独立性”的长词/领域专有词,这通常是在该维度方案字数较少的情况。

    (2)在精简方案、合并关键词的时候,需要注意以下两种情形:

    1)形容词+名词,可分离,提取核心主体词的情形,如从“多功能行车电脑”中可以抽离出“行车电脑”这个核心主体词,“多功能”是对后者的修饰。

    2)不可分离,已经是最小语义单位,如“刹车片”和“刹车”,一个是“配置”里的,另一个是“行驶过程”里的。

  • 相关阅读:
    [LeetCode] Most Profit Assigning Work 安排最大利润的工作
    [LeetCode] Friends Of Appropriate Ages 适合年龄段的朋友
    [LeetCode] Goat Latin 山羊拉丁文
    [LeetCode] Binary Trees With Factors 带因子的二叉树
    [LeetCode] Card Flipping Game 翻卡片游戏
    [AWS] Nginx Started but not Serving AWS上Nginx服务器无法正常工作
    [LeetCode] Shortest Distance to a Character 到字符的最短距离
    [LeetCode] Short Encoding of Words 单词集的短编码
    [LeetCode] Most Common Word 最常见的单词
    Solve Error: MissingSchemaError: Schema hasn't been registered for model "YourModel".
  • 原文地址:https://www.cnblogs.com/luoluo-123/p/10126654.html
Copyright © 2011-2022 走看看