zoukankan      html  css  js  c++  java
  • Coursera, Big Data 2, Modeling and Management Systems (week 1/2/3)

    Introduction to data management 

    整个coures 2 是讲data management and storage 的,主要内容就是分布式文件系统,HDFS, Redis 等

    What is data management?

      

    Introduction to data model 

    什么是data model?

    三个aspects - Structure, Operations, Constrants

    四个基本 data operation - selection(filtering, 选满足条件的row or index), projection(选一部分field or column), union(求并集), join(见下图)  

      

      

    Constraints

    types of contraints:

      

      

      

      

     Differenet kinds of data models

    relational data model - DB

    simi-structured data model : xml, json 等树结构

    vector space model: 从text 和image 取数据. 除了讲vector model 还讲到了 similarity search

      TF - term frequency, term 出现的次数,是个绝对值

      IDF - inversed document frequency : log2(文档数n / term出现的次数 count), 比如下面出现的 单词new 的 IDF 是 log2(3/2)

      DF - 和 IDF 相反,就是 log2(term出现的次数  / count文档数n)

      

      tf-idf matrix 就是把 tf 和 idf 值 相乘得到的

       

        

      

      

    Graph data model 

    Graph data model 经常用来解决下面的问题

      

    转载请注明出处 http://www.cnblogs.com/mashuai-191/
  • 相关阅读:
    管理这门技术和艺术
    主流双核处理器对比
    20111226自然醒
    message_t
    安装 SQL Server 2008 Management Studio Express
    Linux Ext2/Ext3/Ext4 文件系统分区
    多版本火狐共存方案及火狐配置文档高级管理技巧[转自火狐社区]
    心理学,慢慢学
    system pause in C#
    play with js
  • 原文地址:https://www.cnblogs.com/mashuai-191/p/10102030.html
Copyright © 2011-2022 走看看