zoukankan      html  css  js  c++  java
  • 列族数据库的设计

    1. 与列族数据库相关的设计要点

    • 列族数据库应该事先成稀疏且多维的 map
    • 在列族数据库中,各个数据行所拥有的列是可以有所不同的
    • 列族数据库的列是可以动态添加的
    • 列族数据库不需要执行连接操作,需要对数据模型去规范化处理

    2. 设计数据表格时需遵循的建议

    • 用去规范化来代替连接
    • 善用无值的列
    • 同时在列名和列值之中存储数据
    • 用一个数据行来为一个实体建模
    • 设计行键时不要讲大量操作分配给少数服务器
    • 维护适当数量的列值版本
    • 不要在列值中使用复杂的数据结构

    3. 使用列族数据库时怎样才能避免执行连接操作?

    在列族数据库中,多对多的关系是通过去规范化的数据模型来表示的。

    4. 为什么说实体应该建模成一个单独的数据行?

    实体可以表示具体的事物,也可以表示成抽象的概念。列族数据库用数据行来对实体进行建模。

    一个数据行应该对应于一个实体。数据行之间通过 row key 来区分身份。

    而且列族数据库不需要执行连接操作,需要对数据模型去规范化处理。

    列族数据库并不提供与关系数据库级别相同的事务控制机制。

    一般来说,对数据行的写入是原子操作。若更新表格中的多个列,则这些列全部得到更新,要么一个也无法更新。

    5. 什么叫做热点现象(hotspotting), 为什么应该避免这种现象?

    分布式系统可以使我们利用许多台服务器来解决问题,但如果把大量的任务都压在了少数几台服务器上,就会令

    分布式系统中产生热点(hotspotting),这样就会导致其他的服务器未能得到充分利用,也未能真正发挥分布式系统的优势。

    6. 把复杂的数据结构用作列值会有哪些缺点?

    用不同的列来存放不同的属性,使得大家能够更加便利的在这些属性上运用列族数据库的特性。

    把属性放置在不同的列中也有助于大家能够按照需求来划分列族,以及使用编制索引来优化性能。

    当然,使用复杂的数据结构没有这些优势。

    7. 说出三种不应该使用辅助索引的情形。

    1. 列中的基数值很少,索引则无助于提高性能,有时甚至还会损害性能

    2. 列中的基数太多时

    3. 许多数据行都没有用到某个列时,针对该列编制辅助索引意义也不是很大

    8. 统计学可以分为哪两种?它们各自的用途是什么?

    统计学是数学的分支,研究如何描述大型数据集(总体),以及如何从数据中做出推论。

    分为描述统计学预测统计学两种。

    描述统计学有助于我们理解数据的构成情况,也使得我们更加方便的将某个数据集与其他数据相对比。

    预测统计学研究的是如何根据数据来做出预测。

    9. 机器学习可以分为哪两种?它们各自的用途是什么?

    机器学习所用的方法涉及其他很多学科,如计算机科学,人工智能,统计学,线性代数等。

    有许多服务背后都有机器学习技术来支撑,如根据过往的购买行为向顾客推荐商品,检测网络欺诈行为,机器翻译等。

    包括

    1. 非监督式学习,有助于我们探索庞大的数据集

    2. 监督式学习使得程序能够从样例数据中学到一些知识

    10. Spark 和 MapReduce 有什么区别?

    MapReduce 需要向磁盘中写入大量数据, Spark 则需要占用很多内存。

    MapReduce 采用一种比较固定的计算模型,先 map 后 reduce,而 Spark 使用的计算模型则更加通用一些。

  • 相关阅读:
    使用MySQL存储过程连续插入多条记录
    为什么编程语言以及数据库要从1970年1月1日开始计算时
    关于shtml页面include问题解决方案
    简单实用的FTP操作类
    js实现完美身份证号有效性验证
    .htaccess文件的建立和rewrite_module的启用
    php冒泡排序
    php实现汉诺塔问题(递归)
    简单的mysql数据库备份程序
    选择排序的php实现
  • 原文地址:https://www.cnblogs.com/reycg-blog/p/9111334.html
Copyright © 2011-2022 走看看