zoukankan      html  css  js  c++  java
  • 2020.05.22 垃圾邮件分类2

    1.读取

    2.数据预处理

    3.数据划分—训练集和测试集数据划分

    from sklearn.model_selection import train_test_split

    x_train,x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=0, stratify=y_train)

    划分数据集: 

    划分数据集结果: 

     

    4.文本特征提取

    sklearn.feature_extraction.text.CountVectorizer

    https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer

    sklearn.feature_extraction.text.TfidfVectorizer

    https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer#sklearn.feature_extraction.text.TfidfVectorizer

    from sklearn.feature_extraction.text import TfidfVectorizer

    tfidf2 = TfidfVectorizer()

    观察邮件与向量的关系

    向量还原为邮件

    对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外,同时关注包含这个词汇的其它训练文本数目的倒数。

    相比之下,邮件训练数量较多,且邮件分类需要考虑到别的邮件的词汇出现次数,TfidfVectorizer这种特征量化方式就更有优势,向量化更加有效。

    使用TfidfVectorizer进行向量化:

       向量化结果:

    4.模型选择

    from sklearn.naive_bayes import GaussianNB

    from sklearn.naive_bayes import MultinomialNB

    说明为什么选择这个模型?

    一般来说,如果样本特征的分布大部分是连续值,使用GaussianNB会比较好,高斯分布呈正态分布。如果如果样本特征的分大部分是多元离散值,使用MultinomialNB比较合适。

    根据邮件分类的情况上看,数据呈现的是多元离散值,不是连续值,且邮件数据不符合正太分布特征,因为每个单词在邮件中出现的次数并不是固定的,高斯型分布模型不适合该应用场景,此处应该选择多项式分布模型。

    选择多项式分布模型:

     模型预测情况:

     

    5.模型评价:混淆矩阵,分类报告

    from sklearn.metrics import confusion_matrix

    confusion_matrix = confusion_matrix(y_test, y_predict)

    说明混淆矩阵的含义

    from sklearn.metrics import classification_report

    说明准确率、精确率、召回率、F值分别代表的意义 

    混淆矩阵的含义:

    准确率、精确率、召回率、F值分别代表的意义 :

    准确率(正确率)= 所有预测正确的样本/总的样本  (TP+TN)/总 ,其意义是针对整个预测情况。

     精确率=  将正类预测为正类 / 所有预测为正类 TP/(TP+FP),其意义是针对分类器判断正例中的正样本的比重。

     召回率 = 将正类预测为正类 / 所有正真的正类 TP/(TP+FN),其意义是针对正类的正确覆盖率。

     F值 = 精确率 * 召回率 * 2 / ( 精确率 + 召回率) ,其意义是精确率和召回率的调和平均值。

    构建评估模型:

    模型评估结果:

     6.比较与总结

    如果用CountVectorizer进行文本特征生成,与TfidfVectorizer相比,效果如何?

    对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外,同时关注包含这个词汇的其它训练文本数目的倒数。

    相比之下,邮件训练数量较多,且邮件分类需要考虑到别的邮件的词汇出现次数,TfidfVectorizer这种特征量化方式就更有优势,向量化更加有效。

    用CountVectorizer虽在总样本中表现看似比较优秀,但其应用在邮件分类时,进行个体预测的误差要高于使用TfidfVectorizer。

     最终代码如下:

    # -*- coding:utf-8 -*-
    import nltk
    from nltk.corpus import stopwords
    from nltk.stem import WordNetLemmatizer
    from sklearn.metrics import confusion_matrix, classification_report
    from sklearn.model_selection import train_test_split
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.naive_bayes import MultinomialNB
    import csv
    import numpy as np
    
    
    # 根据词性,生成还原参数pos
    def get_wordnet_pos(treebank_tag):
        if treebank_tag.startswith('J'):  # 形容词
            return nltk.corpus.wordnet.ADJ
        elif treebank_tag.startswith('V'):  # 动词
            return nltk.corpus.wordnet.VERB
        elif treebank_tag.startswith('N'):  # 名词
            return nltk.corpus.wordnet.NOUN
        elif treebank_tag.startswith('R'):  # 副词
            return nltk.corpus.wordnet.ADV
        else:
            return nltk.corpus.wordnet.NOUN
    
    
    # 邮件预处理
    def preprocessing(text):
        # 分词
        tokens = [word for sent in nltk.sent_tokenize(text)  # 对文本按照句子进行分割
                  for word in nltk.word_tokenize(sent)  # 对句子进行分词
                  ]
        # print("去掉停用词前:",len(tokens))
        # 处理停用词
        stops = stopwords.words("english")  # 构建停用器
        tokens = [token for token in tokens
                  if token not in stops]
        # print("去掉停用词后:",len(tokens))
        tokens = [token.lower() for token in tokens if len(token) >= 3]  # 大小写,短词
        tag = nltk.pos_tag(tokens)  # 词性标注
        # Lemmatisation(词性还原)
        lmtzr = WordNetLemmatizer()  # 定义还原对象
        tokens = [lmtzr.lemmatize(token, pos=get_wordnet_pos(tag[i][1])) for i, token in enumerate(tokens)]  # 词性还原
        preprocessed_text = ' '.join(tokens)
        return preprocessed_text  # 返回处理结果
    
    
    # 数据预处理
    def dataset():
        ##数据预处理
        filepath = r"C:Users25186PycharmProjects	ask1dataSMSSpamCollection"
        sms = open(filepath, 'r', encoding='utf-8')  # 以流形式读取邮件数据集
        sms_data = []  # 邮件内容
        sms_label = []  # 邮件标题
        csv_reader = csv.reader(sms, delimiter='	')
        # 对每封邮件进行预处理
        for line in csv_reader:
            # print(line)
            sms_label.append(line[0])  # 标题
            sms_data.append(preprocessing(line[1]))  # 每封邮件进行预处理的结果
        sms.close()  # 关闭读取流
        return sms_data, sms_label
    
    
    # 划分数据集
    def split_dataset(sms_data, sms_label):
        x_train, x_test, y_train, y_test = train_test_split(sms_data, sms_label, test_size=0.2, random_state=0,
                                                            stratify=sms_label)
        return x_train, x_test, y_train, y_test
    
    
    # 向量化
    def tfidf(x_train, x_test):
        # 向量化
        tfidf = TfidfVectorizer()
        X_train = tfidf.fit_transform(x_train)  # 训练生成词汇集
        X_test = tfidf.transform(x_test)  # 不训练生成词汇集,因为要保持维度相同
        return tfidf, X_train, X_test
    
    # 向量还原成邮件
    def tfidfMail(x_train,X_train,tfidf):
        a = np.flatnonzero(X_train.toarray()[0])  # 查看第一封邮件在词汇表的非0值的位置
        print(a)
        print("第一封邮件非0元素的值:", X_train.toarray()[0][a])
    
        b = tfidf.vocabulary_  # 词汇表
    
        key_list = []
        for key, value in b.items():
            if value in a:
                # print(value)
                key_list.append(key)
    
        print("向量化之前的邮件:", x_train[0])
        print("向量化之后的邮件,向量非0元素对应的单词:", key_list)
    
    
    #构建模型
    def MnbModel(X_train,X_test,y_train,y_test):
        Mnb = MultinomialNB()  # 构建多项式分布模型
        Mnb.fit(X_train, y_train)  # 训练模型
        y_pre = Mnb.predict(X_test)  # 预测模型
        print("测试集总数:", len(y_test))
        print("测试集预测正确数:", (y_pre == y_test).sum())
        return y_pre
    
    def checkModel(y_test,y_pre):
        # 模型评价:混淆矩阵,分类报告
        conf_matrix = confusion_matrix(y_test, y_pre)print("混淆矩阵:
    ", conf_matrix)
        c = classification_report(y_test, y_pre)print("分类报告:
    ", c)
        print("模型准确率:", (conf_matrix[0][0] + conf_matrix[1][1]) / np.sum(conf_matrix))
    
    if __name__ == "__main__":
        print("111")
        sms_data,sms_label = dataset()
        x_train, x_test, y_train, y_test = split_dataset(sms_data, sms_label)  # 划分数据集
        tfidf, X_train, X_test = tfidf(x_train, x_test)  # 把原始文本转化为tf-idf的特征矩阵
        tfidfMail(x_train, X_train, tfidf)  # 向量还原成邮件
        y_pre = MnbModel(X_train, X_test, y_train, y_test)  # 模型选择
        checkModel(y_pre, y_test)  # 模型评价

    代码运行结果:

     

  • 相关阅读:
    EmitMapper系列之一:EmitMapper入门
    Dapper系列之三:Dapper的事务修改与删除
    Dapper系列之二:Dapper的事务查询
    Log4net系列二:Log4net邮件日志以及授权码
    Log4net系列一:Log4net搭建之文本格式输出
    RabbitMQ十:重要方法简述(参数)
    RabbitMQ九:远程过程调用RPC
    RabbitMQ八:交换机类型Exchange Types--Topic介绍
    JavaScript在表单页面添加打印功能,打印表单中的值并打印完成后不刷新页面
    JavaScript中的普通函数和构造函数
  • 原文地址:https://www.cnblogs.com/Azan1999/p/12938383.html
Copyright © 2011-2022 走看看