机器会学习么学习总结

import pandas as pd
%matplotlib inline
raw_train = pd.read_csv("./input/train_sample_utf8.csv",encoding="utf8")
raw_test = pd.read_csv("./input/test_sample_utf8.csv",encoding="utf8")
raw_train.head(5)
raw_test.head(5)
raw_train.shape
raw_test.shape

import matplotlib.pyplot as plt
plt.figure(figsize=(15, 8))
plt.subplot(1, 2, 1)
raw_train["分类"].value_counts().sort_index().plot(kind="barh",title='训练集新闻主题分布')
plt.subplot(1, 2, 2)
raw_test["分类"].value_counts().sort_index().plot(kind="barh",title='测试集新闻主题分布')

内容进行分词；
import jieba
def news_cut(text):
    return " ".join(list(jieba.cut(text)))
#简单测试下分词效果
test_content = "六月初的一天，来自深圳的中国旅游团游客纷纷拿起相机拍摄新奇刺激的好莱坞环球影城主题公园场景。"
print(news_cut(test_content))

Python 中一个著名的中文分析器 jieba 完成这项任务。封装一个 news_cut 函数，它接受的输入为新闻内容，输出为分词后的结果。分词后，词与词之间使用空格进行分隔。

查看全文

相关阅读:
如何进行端到端开发? | 我的物联网成长记
 华为OceanConnect物联网平台概念全景 | 我的物联网成长记
 使用T4模板生成MySql数据库实体类
 Windows Server 创建环回网卡
 使用Asp.Net Identity 2.0 认证邮箱激活账号（附DEMO）
Agile已死， Agility长存
 ASP.NET Identity 使用 RoleManager 进行角色管理 (VS2013RC)
Visual Studio调试技巧 -- Attach to Process
一文搞懂 Elasticsearch 之 Mapping
看完这篇还不会 Elasticsearch 搜索,那我就哭了！

原文地址：https://www.cnblogs.com/1234yyf/p/14329409.html

机器会学习么 学习总结

机器会学习么学习总结