zoukankan      html  css  js  c++  java
  • 阅读心得3:《淘宝数据魔方技术架构解析 》

    本周阅读了老师推荐阅读的公众号:架构师中的推文《淘宝数据魔方技术架构解析》,感想如下:

        淘宝,已成为一个国民级别的应用,每个新手机在推荐应用里的购物这一选项,排在第一个的就是淘宝。淘宝,更是在每年双十一屡次刷新人们购物的记录,人们浏览商品,加入购物车,购买,评价,等一系列购物的操作,都会产生很多的数据。那么通过阅读本片公众号推文,我有了一个大体的理解。

        在文章中所提到,淘宝将数据分为两类,冷数据和热数据,冷数据即指用户在浏览、搜索、加入购物车时一些操作产生的数据,这些数据不需要及时的反馈给用户,所以可以使用hadoop、mapreduce等技术,进行数据的分析,而计算出的结果并不需要计算出来就返回到前端。热数据是指,一些对实效性很高的数据,比如说搜索词的统计数据,这类数据如果在采用hadoop等技术是非常之慢的,众所周知,hadoop技术适合处理历史数据,而非实时热数据,针对此,淘宝采用了称之为“银河”的实时数据计算平台,用来处理一些用户搜索词的统计来完成“猜你喜欢”、“好物推荐”等模块的精准式推送。

        目前,通过大三上半年的学习,对hadoop、mapreduce技术有了部分了解,并作过一些清洗数据等的小实验。在实验中,mapreduce清洗数据时,首先这个数据就包括了有用数据和无用的脏数据,本文提到的淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel能够实时传输数据给一个1500节点的hadoop集群上,有40000个作业的1.5PB原始数据进行处理,而对于处理的需求都能在凌晨两点之前完成,这本身对系统的要求是非常之高的,从这一点就可以看出、淘宝在处理数据这方面真的是非常厉害。

        其次,文章第二部分所提到的,关系型数据库仍是王道。在大二大三中,我所接触到的数据库基本是Mysql、SQL这两大类,因为数据量不是很多,且进行编码的作业目前只涉及了增删改查,对性能方面没有要求,对支持最大访问量、同时进行数据的读写、并发访问还没有真正的遇到过,所以我现在在完成网页时所使用的Mysql、SQL数据库已经基本能满足,但是,在大三上学期学习hadoop等技术时,了解到了非关系型数据库,hbase以列式存储的方式处理数据、以及redis处理字符串类型的数据、mongoDB处理文档的行数处理数据等,这些数据库在处理某些特定的数据确实比关系型数据库处理的快。文章中所提到的,淘宝以关系型数据库为基础,用NoSQL来做SQL的有益补充,使得其在处理数据方面能够如虎添翼,最大程度的完成对用户每天产生的数据进行清理,计算,返回。

        正如文章结尾所说,淘宝的数据魔方目前已经能提供压缩前80TB大的数据存储空间,支持每天4000万的数据查询请求,把响应时间控制在28毫秒,真的是非常之厉害。

        《淘宝数据魔方技术架构解析》原文地址:https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&idx=1&sn=882fb8584b82107d5af191af5b805d0e&chksm=83d3224cb4a4ab5a72e04dbaa6c6621cc866ab913bb7abb1aa8e6f7860e128501ca1a3c26d4a&scene=21#wechat_redirect

  • 相关阅读:
    Seata-一站式分布式事务解决方案
    nginx相关
    module in JavaScript
    es6this箭头函数
    Python3爬虫:(一)爬取拉勾网公司列表
    markdoen语法
    吴裕雄--天生自然TensorFlow2教程:维度变换
    吴裕雄--天生自然TensorFlow2教程:numpy [ ] 索引
    吴裕雄--天生自然TensorFlow2教程:创建Tensor
    吴裕雄--天生自然TensorFlow2教程:Tensor数据类型
  • 原文地址:https://www.cnblogs.com/ljl1998/p/10589540.html
Copyright © 2011-2022 走看看