zoukankan      html  css  js  c++  java
  • 社会计算 一

    参考《社会媒体挖掘》

    为什么社会计算领域会兴起?

    社会媒体的快速发展使得更多的人开始活跃在网络上,产生的数据量十分巨大,这些数据是研究人类社会,发展人工智能技术的重要资源。微博,微信,知乎,QQ等等社交媒体拥有巨大的用户数量,其他新兴的app(有些甚至不是以社交为主打功能的)也正在不停的吸收着用户,从交友,饮食,出行,娱乐到投资,咨询,教育各个生活领域都已开展了线上业务,不仅仅是信息量爆炸,信息的维度也逐渐变得丰富,将一系列APP的用户数据整合就可以刻画出一个大概的用户画像,随着数据挖掘技术的发展,未来有可能你的智能助理会真的比你还了解你自己。

    从个人层面看,社会计算可以利用用户数据刻画出用户画像,然后进行个性化推荐等服务(现在已经有了一些例子,比如淘宝,京东的购物推荐,网易云音乐的每日推荐);从人类社会层面来看,如此庞大的数据量,如此丰富的数据维度使得人类社会可以被表示,从而发现人类社会的模式,使得我们能更好的理解社会。

    利用计算方法处理社会媒体数据,我们可以比以往更加有效的进行社会学方面的研究,我们不仅会更加了解人类个体,而且会更加了解人类社会,一些亟待解决的社会问题可以通过这种方式研究。这次新型冠状病毒引发的疫情中,就利用大数据等技术分析了社会人员流动,对疫情防控提供了精准有效的数据支持。

    总的来说,社会计算领域是一个有着极大发展潜力的新兴领域。当今人类社会被信息技术以一种更加快速高效的方式组织在了一起,巨大的社会数据存储在互联网中,等待我们去挖掘其中的宝藏,人类社会的新一轮“淘金热”即将兴起

    社会计算涉及的领域十分广泛,主要是传统的社会学与信息技术相结合,需要掌握的技术包括但不限于数据挖掘,机器学习,文本挖掘,社会网络分析,信息检索。社会计算要做的工作就是像一个淘金者一样,在数据河流中淘金。

    社会媒体挖掘面临的问题与挑战

    最为主要的问题就是数据的噪声很大而且完全无结构化

    当越来越多的人接入社会媒体,网络上的数据爆炸式增长,但我们却“沉浸在数据的海洋,却渴望着知识”,如果我们不能有效的挖掘数据中的知识,那么这些数据只是浪费存储资源的垃圾罢了。

    社交媒体中的数据噪声很大,网络中充斥着各种的垃圾数据,好不夸张的说,互联网是一片鱼龙混杂的海洋,里面有着质量参差不齐的数据来源,有着各种性质的社区。网络中的信息完全无结构化,里面有各种形式的信息,比如文本,图像,音频等等,这些信息没有统一的结构,使得数据挖掘面临巨大的困难。同时社会媒体中还蕴含着丰富多样的社交关系等新的数据类型。要解决这些问题,必须研究新的计算方法,也就是社会计算。

    大数据悖论

    社交媒体中的数据量十分巨大,但当我们聚焦到个体,想要做个性化推荐时却发现数据少的可怜,所以我们不能只专注于单一的数据来源,我们们要利用社会媒体的特性,从不同的维度,从不同的来源整合个体的数据,从而更准确的刻画用户,这里的挑战就是如何搜集并整合数据。

    样本采集

    常用的数据采集方式是通过社交媒体的API,但是在采样过程中,我们如何才能确定样本的代表性与准确性,如何确定使用的统计方法是正确的,如何才能保证挖掘出的模式是能够真正代表人类真实的行为模式的?

    噪声消除谬误

    传统数据挖掘中,有很大一部分工作是在进行数据预处理与降噪,但是社交媒体中的噪声极多,而且其与有价值的信息往往混杂在一起,盲目的降噪会将有价值的数据一并剔除,这样会加剧大数据悖论。噪声的定义往往是相对的,噪声有可能是有价值的,有价值的数据在特定情况下也有可能成为噪声。社会媒体数据本身的性质使得对其的降噪处理变得很难。

    评价困境

    就算我们获得了足够的有效的数据,学习得到了模式,但是如何评价该模式也是一个很困难的问题。数据挖掘中常用的模式评价的方法是将数据集分为训练集与测试集。而社会媒体挖掘中往往没有标准答案,这使得评价难以进行,难以评价模式的正确性。

     

    To be continued >>>>>

  • 相关阅读:
    1046 Shortest Distance (20 分)(模拟)
    1004. Counting Leaves (30)PAT甲级真题(bfs,dfs,树的遍历,层序遍历)
    1041 Be Unique (20 分)(hash散列)
    1036 Boys vs Girls (25 分)(查找元素)
    1035 Password (20 分)(字符串处理)
    1044 Shopping in Mars (25 分)(二分查找)
    onenote使用小Tip总结^_^(不断更新中...)
    1048 Find Coins (25 分)(hash)
    三个故事
    领导者的举止
  • 原文地址:https://www.cnblogs.com/zhanghad/p/12420265.html
Copyright © 2011-2022 走看看