NLP-文本分类之开始(0)

zoukankan html css js c++ java

NLP-文本分类之开始(0)

转眼读研一年了，开题也开了，方向也定了，大方向就是NLP，然而从一开始的上课、做项目开题什么的(自己也比较贪玩，以前不打游戏，结果王者上瘾了)，到现在对NLP是一知半解，不对，半解都没有半解，然后时间是不等人的，学制两年，也该考虑毕业条件了(一篇SCI或两篇EI)，很难，用一句网上流行的话：我太难了。所以卸载王者，下定决心学习NLP，发个文本分类的文章，所以从文本分类学习开始吧。至到现在，我删除王者已有半月有余，但是对NLP还是那个状态，心情浮躁，再加上和同届同学已经有了差距，还有不知道怎么入门(给了一头猪，不知道从哪啃，从哪啃都感觉难，这更加浮躁了，心里着急但是还学不了)，最重要的是数学基础差。奈何不能心里有个声音在呐喊，不能一直这样，所以决心从这篇博客作为开始，好好学好好做。先记录一下自己目前所知道的有关NLP的知识，纯基于自己知道的，不百度。

一、NLP之文本分类的大概过程

　　准备数据集：要么选公共数据集(先辈们已经给规划好了，打好了标签或者用文件夹表示标签，文件夹里放的是好多.txt文件(所有.txt文件都属于该类)，要么是一个.txt文件，里面每行属于一类，行头为类别)

　　数据预处理：分词、去停用词，去干扰(标点符号)，向量化(word2vec、BoW、One-hot、N-gram)

　　分类模型：CNN、LSTM、Bi-lstm等

二、我会多少

　　找公共数据集、自己的数据集打标签(确定了分类后)

　　分词(用分词工具包：jieba、pkuseg等)

三、一些概念理解

　　分词：就是把文本分成一个一个词，如“我是郭心全，来自山东。”分为：我是郭心全，来自山东。

　　去停用词：就是删除没用的词。根据停用词词典(可以在网上找或自己做)，删除分完的文本中的停用词

　　词性标注()：把处理好的文本中每个词给其后面加上/，然后加上所属词性(n,v,adj,adv,preb等)

　　命名实体识别(NER)：就是找出一些实体：如人名、地名、企业名、时间等

　　语义分析：就是分析句子，如某个词在另一个词之前或之后什么的

　　dropout：这还是我昨天刚看的。就是为了防止过拟合用的，就是数据较少，参数较多，容易在训练集上效果好，在测试集上效果差。主要用在前馈网络中，以一定的概率来隐藏一些神经元，多次来回训练，以降低过拟合。

　　召回率：仅知道概念(后面学)

　　f值：仅知道概念(后面学)

　　卷积：用一个滤波器(就是一个矩阵)。。。。。。这个原理真懂不知道咋说，可以百度一下，原理解释好多

　　池化：和卷积差不多，这个也有一个滑动窗口(类似于一个filter)

　　代码：仅会一些基本的python

　　框架：TensorFlow、pytorch、numpy、sklears、matplot(好像是这么拼写)、pandas等，但是没怎么用过

刚刚看到的一个CSDN博主的学习记录，博客是：https://blog.csdn.net/Dacc123/article/details/82461363

往后我觉得我还会找类似的博客，跟着博主们学习，在此感谢了

加一个好的网页：https://www.biaodianfu.com/category/bigdata

准备怎么做：跟着博主：https://www.cnblogs.com/jiangxinyang/p/10207273.html 完成文本分类实战，伴随着每一个博客的实现，把其中概念、模型摸索一遍

查看全文

相关阅读:
Java导出Excel和CSV(简单Demo)
ffmepg命令行参数
 VLC命令参数（转载）
深入Java虚拟机读书笔记第五章Java虚拟机
 JS常用方法记录
 记一次数据库的优化
 Infobright数据库使用
 Mysql连接驱动8.0版本改动
 Eclipse新建SrpingBoot项目Pom.xml文件报错
 SpringBoot 热部署开发

原文地址：https://www.cnblogs.com/JadenFK3326/p/11868309.html