zoukankan      html  css  js  c++  java
  • lecture1-Word2vec实战班-七月在线nlp

    nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集。自带语料库、词性分类库、自带分类分词等功能、强大社区支持、很多简单版wrapper

    文本处理:

    preprocess -》 分词 tokenize -》make features,成为数字化表示的东西 -》 ml方法产生label、targets

    中文nlp - 分词 - 1、启发式:就像对着大辞典,今是一个单词吗,今天是个。。,。。~类似贪婪算法找拟合词  2、ml:HMMCRF  -- import jieba

    例如像社交网络上的表情、字符等tokensize后就会出错 -》 利用正则表达式

    inflection变化-不影响词性

    derivation引申-影响词性

    stemming词干提取 -- 把不影响词性的inflection的小尾巴砍掉

    lemmatination词形归-- wordnet --  如went~go、was ~ be   -- 》went 1、过去式go 2、英文名温特 ~需要算法告诉我词性是什么,默认是名词

    pos-tag:中文是n、v等,英文是WDTdeng

    停止词:一千个the会指代一千个事,如果引入的话会造成很大的歧义 -- 从nltk.corpus中import stopwords -- 如果是判断有木有语病、文章相似度高不高,则不能去除停止词

    自然语言 ----》特征工程 --》计算机识别的01

    情感分析 ~广告投放中

  • 相关阅读:
    处理溢出
    电梯调度之需求分析
    求二维矩阵和最大的子矩阵
    四则运算改进,结果判断
    结对开发
    四则运算题测试阶段
    阶段二站立会议(2)
    阶段二站立会议(1)
    课程改进意见
    场景调研
  • 原文地址:https://www.cnblogs.com/rosyYY/p/8519614.html
Copyright © 2011-2022 走看看