zoukankan      html  css  js  c++  java
  • NLP-文本分类之开始(0)

    转眼读研一年了,开题也开了,方向也定了,大方向就是NLP,然而从一开始的上课、做项目开题什么的(自己也比较贪玩,以前不打游戏,结果王者上瘾了),到现在对NLP是一知半解,不对,半解都没有半解,然后时间是不等人的,学制两年,也该考虑毕业条件了(一篇SCI或两篇EI),很难,用一句网上流行的话:我太难了。所以卸载王者,下定决心学习NLP,发个文本分类的文章,所以从文本分类学习开始吧。至到现在,我删除王者已有半月有余,但是对NLP还是那个状态,心情浮躁,再加上和同届同学已经有了差距,还有不知道怎么入门(给了一头猪,不知道从哪啃,从哪啃都感觉难,这更加浮躁了,心里着急但是还学不了),最重要的是数学基础差。奈何不能心里有个声音在呐喊,不能一直这样,所以决心从这篇博客作为开始,好好学好好做。先记录一下自己目前所知道的有关NLP的知识,纯基于自己知道的,不百度。

    一、NLP之文本分类的大概过程

      准备数据集:要么选公共数据集(先辈们已经给规划好了,打好了标签或者用文件夹表示标签,文件夹里放的是好多.txt文件(所有.txt文件都属于该类),要么是一个.txt文件,里面每行属于一类,行头为类别)

      数据预处理:分词、去停用词,去干扰(标点符号),向量化(word2vec、BoW、One-hot、N-gram)

      分类模型:CNN、LSTM、Bi-lstm等

    二、我会多少

      找公共数据集、自己的数据集打标签(确定了分类后)

      分词(用分词工具包:jieba、pkuseg等)

    三、一些概念理解

      分词:就是把文本分成一个一个词,如“我是郭心全,来自山东。”分为:我  是  郭心全   ,来自  山东  。

      去停用词:就是删除没用的词。根据停用词词典(可以在网上找或自己做),删除分完的文本中的停用词 

      词性标注():把处理好的文本中每个词给其后面加上/,然后加上所属词性(n,v,adj,adv,preb等)

      命名实体识别(NER):就是找出一些实体:如人名、地名、企业名、时间等

      语义分析:就是分析句子,如某个词在另一个词之前或之后什么的

      dropout:这还是我昨天刚看的。就是为了防止过拟合用的,就是数据较少,参数较多,容易在训练集上效果好,在测试集上效果差。主要用在前馈网络中,以一定的概率来隐藏一些神经元,多次来回训练,以降低过拟合。

      召回率:仅知道概念(后面学)

      f值:仅知道概念(后面学)

      卷积:用一个滤波器(就是一个矩阵)。。。。。。这个原理真懂不知道咋说,可以百度一下,原理解释好多

      池化:和卷积差不多,这个也有一个滑动窗口(类似于一个filter)

      代码:仅会一些基本的python

      框架:TensorFlow、pytorch、numpy、sklears、matplot(好像是这么拼写)、pandas等,但是没怎么用过

    刚刚看到的一个CSDN博主的学习记录,博客是:https://blog.csdn.net/Dacc123/article/details/82461363

    往后我觉得我还会找类似的博客,跟着博主们学习,在此感谢了

     加一个好的网页:https://www.biaodianfu.com/category/bigdata

    准备怎么做:跟着博主:https://www.cnblogs.com/jiangxinyang/p/10207273.html 完成文本分类实战,伴随着每一个博客的实现,把其中概念、模型摸索一遍                            

  • 相关阅读:
    层模型--绝对定位(position:absolute)
    什么是层模型?
    浮动模型
    流动模型(二)
    插值方法
    CFS调度分析(内核版本:2.6.34)
    CRC检验
    ubuntu误删home目录
    随想
    Android——Activity生命周期
  • 原文地址:https://www.cnblogs.com/JadenFK3326/p/11868309.html
Copyright © 2011-2022 走看看