zoukankan      html  css  js  c++  java
  • lecture1-Word2vec实战班-七月在线nlp

    nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集。自带语料库、词性分类库、自带分类分词等功能、强大社区支持、很多简单版wrapper

    文本处理:

    preprocess -》 分词 tokenize -》make features,成为数字化表示的东西 -》 ml方法产生label、targets

    中文nlp - 分词 - 1、启发式:就像对着大辞典,今是一个单词吗,今天是个。。,。。~类似贪婪算法找拟合词  2、ml:HMMCRF  -- import jieba

    例如像社交网络上的表情、字符等tokensize后就会出错 -》 利用正则表达式

    inflection变化-不影响词性

    derivation引申-影响词性

    stemming词干提取 -- 把不影响词性的inflection的小尾巴砍掉

    lemmatination词形归-- wordnet --  如went~go、was ~ be   -- 》went 1、过去式go 2、英文名温特 ~需要算法告诉我词性是什么,默认是名词

    pos-tag:中文是n、v等,英文是WDTdeng

    停止词:一千个the会指代一千个事,如果引入的话会造成很大的歧义 -- 从nltk.corpus中import stopwords -- 如果是判断有木有语病、文章相似度高不高,则不能去除停止词

    自然语言 ----》特征工程 --》计算机识别的01

    情感分析 ~广告投放中

  • 相关阅读:
    原创frame-relay配置
    iptables详解和练习
    nfs-rpcbind-portmap挂载nfs-network file system
    linux-user-group添加与删除
    cgi-fastcgi-fpm
    lamp介绍
    子签CA以及给别人发CA
    正则表达式
    字符集和字符编码
    C++11新特性
  • 原文地址:https://www.cnblogs.com/rosyYY/p/8519614.html
Copyright © 2011-2022 走看看