zoukankan      html  css  js  c++  java
  • 用到的专业词汇

    卷积神经网络、nlp(Natural Language Processing 分词这块)数据挖掘、机器学习、deeplearning、文本挖掘、人工智能、livsvm、word2vec

    word2vec:是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。

    分类正确率(Accuracy):不管是哪个类别,只要预测正确,其数量都放在分子上,而分母是全部数据数量,这说明正确率是对全部数据的判断。

    准确率、精度(Precise):在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。

    Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。

    DL:data mining

    ner:命名实体识别(Named Entity Recognition)

    nlp:

    词性标注:主语、谓语、宾语、介词等等

    实体命名:识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等, 不会产生歧义分词,比如长春市长春药店,正确打开方式是:长春市/长春/药店

    语义联想:返回与输入词语最相近的的词,类似autosuggest

    情感分析:将文本的情感分为负面和非负面两类。用微博、新闻、汽车、餐饮等不同行业语料进行标注和机器学习,以获得最佳的情感判断准确率。

    智能聚类:微博上相似的内容太多了,合并为话题应用,就少多了,美拍等等短视频内app,相似的内容同一时间内不会都上热门,反之则同一类型上热门的就太多了

    关键词提取:文本自动进行关键词分析,给出每个词语相应的权重,而从获得特定行业的相关度最高的数据

    预测分类:类似网易将新闻文本归类

    CRF: Conditional Random Field 条件随机场,一种机器学习技术,用于NLP技术领域.

  • 相关阅读:
    数据结构-树与二叉树-思维导图
    The last packet successfully received from the server was 2,272 milliseconds ago. The last packet sent successfully to the server was 2,258 milliseconds ago.
    idea连接mysql报错Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezone' property
    redis学习笔记
    AJAX校验注册用户名是否存在
    AJAX学习笔记
    JSON学习笔记
    JQuery基础知识学习笔记
    Filter、Listener学习笔记
    三层架构学习笔记
  • 原文地址:https://www.cnblogs.com/o-andy-o/p/4891983.html
Copyright © 2011-2022 走看看