拓端tecdat|R语言对推特twitter数据进行文本情感分析

zoukankan html css js c++ java

拓端tecdat|R语言对推特twitter数据进行文本情感分析
原文链接：http://tecdat.cn/?p=4012

我们以R语言抓取的推特数据为例，对数据进行文本挖掘，进一步进行情感分析，从而得到很多有趣的信息。

找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本
1. tweets <-tweets_df>%select(id, statusSource, text, created) %>%
2. extract(statusSource, "source", "Twitter for (.*?)<")>%filter(source %in%c("iPhone", "Android"))
对数据进行可视化计算不同时间，对应的推特比例.

并且对比安卓手机和苹果手机上的推特数量的区别

从对比图中我们可以发现，安卓手机和苹果手机发布推特的时间有显著的差别，安卓手机倾向于在5点到10点之间发布推特，而苹果手机一般在10点到20点左右发布推特。同时我们也可以看到，安卓手机发布推特数量的比例要高于苹果手机。

然后查看推特中是否含有引用 ,并且对比不同平台上的数量。
1. ggplot(aes(source, n, fill = quoted)) +
2. geom_bar(stat ="identity", position ="dodge") +
3. labs(x ="", y ="Number of tweets", fill ="")
从对比的结果来看，安卓手机没有引用的比例要明显低于苹果手机。而安卓手机引用的数量要明显大于苹果手机。因此可以认为，苹果手机发的推特内容大多为原创，而安卓手机大多为引用。

然后查看推特中是否有链接或者图片，并且对比不同平台的情况
1. ggplot(tweet_picture_counts, aes(source, n, fill = picture)) +
2. geom_bar(stat ="identity", position ="dodge") +
3. labs(x ="", y ="Number of tw
从上面的对比图中，我们可以看到安卓手机没有图片或者链接的情况要多于苹果，也就是说，使用苹果手机的用户在发推特的时候一般会发布照片或者链接。

同时可以看到安卓平台的用户把推特一般不使用图片或者链接，而苹果手机的用户恰恰相反。
1. spr <-tweet_picture_counts>%spread(source, n) %>%
2. mutate_each(funs(. /sum(.)), Android, iPhone)
3. rr <-spr$iPhone[2] /spr$Android[2]
然后我们对推特中的异常字符进行检测，并且进行删除然后找到推特中关键词，并且按照数量进行排序
1. reg <- "([^A-Za-z\d#@']|'(?![A-Za-z\d#@]))
2. "tweet_words <-tweets>%filter(!str_detect(text, '^"')) %>%m
3. utate(text =str_replace_all(text, "https://t.co/[A-Za-z\d]+|&", "")) %>%
4. unnest_tokens(word, text, token ="regex", pattern = reg) %>%
5. filter(!word %in%stop_words$word,str_detect(word, "[a-z]"))
8. tweet_words %>%count(word, sort =TRUE) %>%head(20) %>%
9. mutate(word =reorder(word, n)) %>%ggplot(aes(word, n)) +geom_b
对数据进行情感分析，并且计算安卓和苹果手机的相对影响比例。

通过特征词情感倾向分别计算不同平台的情感比，并且进行可视化。

在统计出不同情感倾向的词的数量之后，绘制他们的置信区间。从上面的图中可以看到，相比于苹果手机，安卓手机的负面情绪最多，其次是厌恶，然后是悲伤。表达积极的情感倾向很少。

然后我们对每个情感类别中出现的关键词的数量进行统计
1. android_iphone_ratios %>%inner_join(nrc, by ="word") %>%
2. filter(!sentiment %in%c("positive", "negative")) %>%
3. mutate(sentiment =reorder(sentiment, -logratio),word =reorder(word, -logratio)) %>%
从结果中我们可以看到，负面词大多出现在安卓手机上，而苹果手机上出现的负面词的数量要远远小于安卓平台上的数量。

最受欢迎的见解

1.数据类岗位需求的数据面

2.探析大数据期刊文章研究热点

3.机器学习助推快时尚精准销售预测

4.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用

5.数据盘点：家电线上消费新趋势

6.在r语言中使用GAM（广义相加模型）进行电力负荷时间序列分析

7.虎扑论坛基因探秘：社群用户行为数据洞察

8.把握出租车行驶的数据脉搏

9.智能门锁“剁手”数据攻略请选中你要保存的内容，粘贴到此文本框
▍关注我们【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。 ▍咨询链接：http://y0.cn/teradat ▍联系邮箱：3025393450@qq.com
查看全文

相关阅读:
索引失效
 laravel记录笔记Laravel 连接数据库、操作数据库的三种方式
 php 基于redis计数器类
 0x02 MySQL SQL基本语句
 0x01 MySQL What's DataBase
浅析僵尸进程&孤儿进程
 python并发编程&IO模型
 关于python代码是编译执行还是解释执行
 python并发编程&协程
 基于Cpython的 GIL(Global Interpreter Lock)

原文地址：https://www.cnblogs.com/tecdat/p/14118098.html

拓端tecdat|R语言对推特twitter数据进行文本情感分析

原文链接：http://tecdat.cn/?p=4012