zoukankan      html  css  js  c++  java
  • 超人学院大数据技术沙龙

    头一次,参加技术沙龙哈哈哈哈哈

    第一个牛人演讲概要

    1.图计算

    2.Tungsten

    3.建议

    图存储与计算机中是一个矩阵,在矩阵中标识各个定点和边的属性。

    在图中求取关键路径则需要图计算,相对于hadoop的技术要快很多。主要因为图计算的每次迭代都会去掉一些信息(点和线)。hadoop则是全部在进行运算。所以相对于一些图的问题,还是图计算比较快。

    图计算的几个框架

    GIRAPH(开源)、GraphLab(开源,速度快)、GoolgePregel(未开源)

    图计算的应用:

    PageRank图,权重

    User_Item Graphs 

    Triangle Counting三角形计算

    Social NetWorks 社交网络

    Tungsten比较快,在dateset中自动引用。由于使用了java中的sun.misc.unsafe。不使用jvm的垃圾回收策略,自己控制后大大提升了计算速度。

    例如:字符串“abcd”正常应该是4个字节,但是如果是对象的表示则添加object head12字节,而后还加了一些其他的东西,一共是24字节。在java中使用unicod保存,则24*2=48字节。

    这个就是使用jvm的差异,在gcTime中

    图中使用BSP模型

    建议:

    不一定是分布式就会快,网路传送数据会有很多的延迟消耗。只要将大数据计算中的模型,基本的原型搞懂,不一定非要分布式才会高效。最好高效的算法需要自己实现。

    大数据能力:存储、计算、查询、挖据

    pasal语言很重要????不知道什么语言了。妈的

    go语言

    scala语言

  • 相关阅读:
    [HNOI2015]实验比较 树形dp+组合数学
    【bzoj1090】 [SCOI2003]字符串折叠
    hdu4514(非连通图的环判断与图中最长链)(树的直径)
    数据类型进阶 续1
    数据类型进阶
    二进制补码
    基本数据类型的包装类
    变量的作用域
    用变量保存多种类型的数据
    用变量简化计算
  • 原文地址:https://www.cnblogs.com/Lamborghini/p/5596235.html
Copyright © 2011-2022 走看看