12.朴素贝叶斯-垃圾邮件分类

zoukankan html css js c++ java

12.朴素贝叶斯-垃圾邮件分类
1.1 读邮件数据集文件，提取邮件本身与标签。

以numpy数组形式存储：
1 import csv 2 # import nltk 3 from nltk.corpus import stopwords # 停用词 4 from nltk.stem import WordNetLemmatizer # 词性还原 5 6 # 读取数据集 7 file_path = r'E:SMSSpamCollection' 8 sms = open(file_path, 'r', encoding='UTF-8') 9 sms_data = [] 10 sms_label = [] 11 csv_reader = csv.reader(sms, delimiter=' ') 12 for line in csv_reader: 13 sms_label.append(line[0]) 14 sms_data.append(preprocessing(line[1])) # 对每封邮件做预处理 15 sms.close() 16 sms_data
运行结果：

1.2 邮件预处理
1. 邮件分句
2. 句子分词
3. 大小写，标点符号，去掉过短的单词
4. 词性还原：复数、时态、比较级
5. 连接成字符串
运行结果：

2.1 传统方法来实现

2.2 nltk库的安装与使用

pip install nltk # 安装nltk

import nltk # 导入nltk包

#利用nltk下载软件

----------------------------------

方案（1）：直接安装 -- 可能由于网速问题下载很慢

nltk.download() # sever地址改成 http://www.nltk.org/nltk_data/

方案（2）：手动安装

https://github.com/nltk/nltk_data 下载gh-pages分支，里面的Packages就是我们要的资源。

将Packages文件夹改名为nltk_data。

方案（3）：手动安装

网盘链接：https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取码：o5ea

手动安装成功后将nltk_data放在用户目录（C:Users刘晓敏AppDataRoaming）。

----------------------------------

安装完成，通过下述命令可查看nltk版本：

import nltk

print nltk.__doc__

2.1 nltk库分词

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

运行结果：

2.2 punkt 停用词

from nltk.corpus import stopwords

stops=stopwords.words('english')

运行结果：

如果提示punkt not found

nltk.download(‘punkt’)

或下载punkt.zip

https://pan.baidu.com/s/1OwLB0O8fBWkdLx8VJ-9uNQ (密码：mema)

复制并解压到对应的目录(C:Users刘晓敏AppDataRoaming ltk_data okenizers)，要把原来的删掉

2.3 NLTK 词性标注

nltk.pos_tag(tokens)

# tokens是句子分词后的结果，同样是句子级的标注
# 查看说明 nltk.help.upenn_tagset('JJ')

2.4 Lemmatisation（词性还原）

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

lemmatizer.lemmatize('leaves') #缺省名词

lemmatizer.lemmatize('best',pos='a')

lemmatizer.lemmatize('made',pos='v')

一般先要分词、词性标注，再按词性做词性还原。

2.5 编写预处理函数

def preprocessing(text):

sms_data.append(preprocessing(line[1])) #对每封邮件做预处理
1 # 预处理 2 3 4 def preprocessing(text): 5 # text=text.decode("utf-8") 6 tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)] 7 stops = stopwords.words('english') 8 tokens = [token for token in tokens if token not in stops] 9 10 tokens = [token.lower() for token in tokens if len(token) >= 3] 11 lmtzr = WordNetLemmatizer() 12 tokens = [lmtzr.lemmatize(token) for token in tokens] 13 preprocessed_text = ' '.join(tokens) 14 return preprocessed_text
3. 训练集与测试集

4. 词向量

5. 模型

a
查看全文

相关阅读:
两分钟彻底让你明白Android Activity生命周期(图文)!
C++命名空间 namespace的作用和使用解析
 编译型语言、解释型语言、静态类型语言、动态类型语言概念与区别
 git 使用详解（8）-- tag打标签
 C#托管代码与C++非托管代码互相调用
 Qt属性表控件的使用 QtTreePropertyBrowser
在VS2010上使用C#调用非托管C++生成的DLL文件（图文讲解）
（二十二）访问者模式详解（伪动态双分派）
（二十一）状态模式详解（DOTA版）
（二十）职责链模式详解（都市异能版）

原文地址：https://www.cnblogs.com/lxml/p/12887044.html

12.朴素贝叶斯-垃圾邮件分类

1.1 读邮件数据集文件，提取邮件本身与标签。

1.2 邮件预处理

2.1 传统方法来实现

2.2 nltk库的安装与使用

2.1 nltk库 分词

2.2 punkt 停用词

2.3 NLTK 词性标注

2.4 Lemmatisation（词性还原）

2.5 编写预处理函数

3. 训练集与测试集

4. 词向量

5. 模型

2.1 nltk库分词