Yandex Big Data Essentials Week1 Scaling Distributed File System

Yandex Big Data Essentials Week1 Scaling Distributed File System
GFS Key Components

components failures are a norm

even space utilisation

write-once-read-many

GFS and Hadoop Distributed File System

GFS主要分为:Application 、Master、ChannelServer
hdfs主要分为:Appllcation 、 NameNode 、DataNode三部分

how to read file from hdfs

HDFS client 运行在client node 上的client jvm上。

读取文件的流程

打开分布式文件系统上的文件

从NameNode处取的文件块的位置

HDFS client将块位置信息传给FSDataInputStream

FSDataInputStream再从相应的DataNode里面读取其中一个块数据

FSDataInputStream再从相应的DataNode里面读取另一个块数据

关闭FSDataInputStream

写入文件的流程

hdfs client 运行在client jvm上,client jvm运行在client jvm上。
写入文件的流程:
1. HDFS client 在Distributed FileSystem上创建文件
2. DistributedFileSystem 在NameNode上create一个文件
3. HDFS client 通过FSDataInputStream向datanode发送write packet
4. 至少三个datanode组成Pipeline of datanodes写入多个副本
5. datanode向FSDataInpuStream发送ack packet
6. 关闭

In DFS,you can “append” into file,but cannot “modify” a file in the middle. Why?
DFS的核心特性write once read many time 描述了一种数据存储策略。信息一旦写入就不能修改,因为修改操作需要对对底层的存储结构进行修改。如果需要修改分布式文件系统(例如hdfs)中的文件,可以写一份新的同样文件名的数据。旧的文件在hdfs在整理数据的时候会丢弃。

HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。Map/Reduce应用或者网络爬虫应用都非常适合这个模型。目前还有计划在将来扩充这个模型，使之支持文件的附加写操作。
查看全文

相关阅读:
EasyRTMP内置进入摄像机中实现网络推流直播摄像机的功能
 EasyPlayer安卓Android流媒体播放器实现直播过程中客户端快照功能
 EasyPlayer安卓Android流媒体播放器实现直播过程中客户端快照功能
 如何用传统摄像机实现直接对接平台，类似于海康萤石、大华乐橙的方案
 如何用传统摄像机实现直接对接平台，类似于海康萤石、大华乐橙的方案
 EasyIPCamera实现的桌面采集直播用于课堂、会议、展销同屏等应用
 EasyIPCamera实现的桌面采集直播用于课堂、会议、展销同屏等应用
 EasyPlayer实现视频播放局部缩放、广角平移功能（类似水滴直播，快手视频）
EasyPlayer实现视频播放局部缩放、广角平移功能（类似水滴直播，快手视频）
EasyPusher实现将asterisk直播流以RTSP转发实现通话直播与录像

原文地址：https://www.cnblogs.com/infoflow/p/8975266.html

Yandex Big Data Essentials Week1 Scaling Distributed File System

GFS Key Components

GFS and Hadoop Distributed File System

how to read file from hdfs

读取文件的流程

写入文件的流程