zoukankan      html  css  js  c++  java
  • DHT网络

    @(基础技术)

    现在有一种方法,可以通过磁力链接,例如magnet:?xt=urn:btih:0482e0811014fd4cb5d207d08a7be616a4672daa,就可以获取BT文件。
    这个是通过DHT网络来实现的。
    DHT网络是一个去中心化的,分布式信息存储系统。
    存储的信息就是bt文件。

    一、节点

    每一台电脑,就是一个节点。它既是客户端,也是服务端。
    每个节点都有一个节点ID,IP地址和端口号(节点进程的端口)。
    节点ID由160位的二进制字符串组成,也就是长度为32的16进制字符串,跟我们常用的md5一样。
    通过异或算法,可以计算两个节点ID的距离。例如01和00的异或结果是01,也就是距离是1。

    二、路由表

    每个节点都会保存一个路由表,保存其他节点的信息,节点信息包括:节点ID,节点的IP地址和端口号。
    路由表中,会有多个bucket,例如bucket-1,bucket-2等等。
    bucket-i保存的是与自身节点ID距离为[2i-1,2i)的节点信息
    每个nodeid可以理解为深度是160的二叉树,二bucket-i就是自身的叶子的第i个父节点的兄弟节点的所有叶子节点(不太严谨)
    如下图:
    Alt text

    所以i最大值是160。

    而为什么要这么存了?
    这样存是为了可以快速找到目标节点N2。
    例如自身的节点ID是N1,需要寻找N2的IP和端口号。

    • 计算N1和N2的距离D
    • 从bucket-D,找一个节点N3,如果N3=N2,就找到了,否则就向N3发送寻找节点N2的请求
    • N3接收到请求后,计算N2和N3的距离D1,从N3的路由表里面的bucket-D1,找到一个节点N4,返回N4的信息给N1
    • N1收到返回后,如果N4=N2,就找到了,否则继续向N4发送寻找节点N2的请求。一直递归。

    因为N2和N3会处于同一个bucket,所以他们的距离D1不会超过D/2,所以每一次循环,获得的节点NN与N2的距离都会比之前的请求缩小1倍。所以时间复杂度是logN。跟二分查找是一样的。

    三、信息发布

    当发布者,需要发布信息(例如一个bt文件)到DHT网络。

    • 发布者会计算信息的md5,M1
    • 通过发布者的路由表,查询与M1的距离小于等于K的多个节点
    • 向这些节点发送保存信息(Store)的请求,就会把信息存储在这些节点上

    k一般要大于1。不然只会把信息存储在一个节点上,万一节点下线,或者退出网络,就会导致信息不能被找到。

    四、数据包

    节点与节点之间,通过UDP协议,传输数据包来通讯。
    DHT网络的数据包都是json格式。
    必须字段:

    • t:消息的id。因为是UDP传输,所以要带上消息ID,不要就不知道每个包对应是哪个包的回复。
    • y:数据包的类型,取值可以是:
      • q,请求包
      • r,回复包
      • e,错误包,其实也是回复的一种

    1. 请求和回复包

    请求包必须字段

    • q,请求的类型,
      • ping 嗅探Node是否可用
      • find_node。寻找Node的请求
      • get_peers。寻找有资源的Node
      • announce_peer ,请求下载资源
    • a,请求的参数,类型是json里面的字典

    回复包必须字段:
    *r 回复的内容,字典

    1.1ping

    请求包
    a包含字段

    • id,请求者的nodeid

    包例子

    {"t":"aa", "y":"q","q":"ping", "a":{"id":"abcdefghij0123456789"}}
    

    回复包
    r包含字段

    • id 回复者的nodeid

    包例子

    {"t":"aa", "y":"r", "r":{"id":"mnopqrstuvwxyz123456"}}
    

    1.2find_node

    请求包
    a包含字段

    • id,请求者的nodeid
    • target,需要寻找的Node的nodeid

    包例子:

    {"t":"aa", "y":"q","q":"find_node", "a":{"id":"abcdefghij0123456789","target":"mnopqrstuvwxyz123456"}}
    

    回复包
    r包含字段

    • id 回复者的nodeid
    • nodes 在回复者的路由表中,与请求的target 的nodeid最接近的几个节点的信息,包含节点的ip,端口,nodeid。

    包例子

     {"t":"aa", "y":"r", "r":{"id":"0123456789abcdefghij", "nodes":"def456..."}}
    

    1.3 get_peers

    请求包
    a包含字段

    • id,请求者的nodeid
    • info_hash 寻找的资源的hash
    • token 密钥

    包例子

    {"t":"aa", "y":"q","q":"get_peers", "a":{"id":"abcdefghij0123456789","info_hash":"mnopqrstuvwxyz123456"}}
    

    回复包
    如果回复者的路由表中,有存有info_hash资源的节点信息,就返回value,否则返回node,node的值和find_node一样
    r包含字段

    • id 回复者的nodeid
    • value,拥有info_hash的节点信息
    • nodes 和find_node的nodes一样

    包例子

    {"t":"aa", "y":"r", "r":{"id":"abcdefghij0123456789", "token":"aoeusnth","values": ["axje.u", "idhtnm"]}}
    

    1.4 announce_peer

    请求包
    a包含字段

    • id,请求者的nodeid
    • info_hash 寻找的资源的hash
    • token 密钥
    • port,下载资源的端口

    包例子

    {"t":"aa", "y":"q","q":"announce_peer", "a":{"id":"abcdefghij0123456789","info_hash":"mnopqrstuvwxyz123456", "port":6881, "token": "aoeusnth"}}
    

    回复包
    r包含字段

    • id 回复者的nodeid

    包例子

    {"t":"aa", "y":"r", "r":{"id":"mnopqrstuvwxyz123456"}}
    

    2. 错误包

    • e 列表类型,第一个元素时错误id,第二个是错误的说明

      {"t":"aa", "y":"e", "e":[201,"A Generic Error Ocurred"]}

    错误类型有:

    • 201 一般错误
    • 202 服务错误
    • 203 协议错误,比如不规范的包,无效的参数,或者错误的token
    • 204 未知方法

    五、工作流程

    1.初始化

    • 向一个固定的服务器,获取节点ID,完成冷启动
    • 不断向已知的节点发送find_node请求,让自己的路由表里面的节点更多

    2. 根据磁力链接,获取信息(bt文件)

    • 获取磁力链接里面的md5,转换为二进制M1。
    • 通过路由表,获取与M1距离最近的节点,然后向它们发送announce_peer 请求。如果节点有我们想要的信息,就会把信息发过来,这样我们就获取到了bt文件了。

    六、DHT网络中收集bt文件的原理

    向三个固定服务器发送find_node的请求,target是随机的nodeid或者是自己的nodeid,N1
    服务器返回最接近N1的的3个nodeid的信息,这些信息是一个加密了的,固定协议的字符串,里面有node的ip,port和nodeid。自身节点把所有的node存储到路由表
    新开一个线程,对node,再发送find_node请求,这时自己的nodeid是随机的
    这样,就会导致在很多个DHTNode中,都有我们ip和端口的信息,而且映射到很多不同的nodeid
    这样别人去这些DHTNode中寻找bt资源的时候,这些Node就很可能会返回我们的IP,PORT给别人,那么别人就会向我们发送announce_peer的请求,这样我们就能拿到bt文件了

    1. 初始化,目的是让自己的nodeid加入到DHT网络中,并认识尽量多的其他node,放到我们的路由表。

      1. 生成自己的nodeid。
      2. 向固定的服务器(例如:),发送find_node请求,target是自己的nodeid,这样,自己的nodeid就会进入到固定服务器的路由表,这样其他node想固定服务器发送find_node请求的话,固定服务器就会返回我们的nodeid给他们,这样我们的nodeid就会进入很多其他Node的路由表了。
      3. 发送给固定服务器的find_node请求中,会返回我们附近的node的信息,保存到我们自己的路由表
    2. 接收其他节点的请求。当我们加入到DHT网络中,就会有其他节点发送请求给我们。下面的请求处理完后,我们都把请求者加入到我们的路由表中。

      1. 当我们收到ping请求,就返回自己的id给它,表示自己在正常运行。
      2. 当我们收到find_node请求, 就从我们的路由表查找离target最近的N个node的信息,返回给它。
      3. 当我们收到get_peers请求,就从我们的路由表中查找拥有该资源的peers信息,返回给它。
      4. 当我们收到announce_peer 请求,就从发送info_hash的资源到对应的端口

    七、Bt文件下载原理

    当得到BT文件后,就可以用bt文件下载器进行文件的下载
    BT文件里面包含

    • tracket地址
    • 目标文件列表,和分块信息。每一块是2k的倍数。分块信息包含每一个分块的索引和MD5
    • BT文件的基本信息,如标题,每个文件的大小和文件名等

    下载流程

    • 下载器请求tracket地址,获取其他也在下载该bt文件的节点信息
    • 下载器连接其他节点,告诉自身缺少的分块的索引和获取到对方缺少的分块索引
    • 如果自身有分块1,而对方没有,就向对方发送分块1
    • 如果对方有分块2,而自身没有,就接收分块2
    • 接收完一个分块后,计算md5,然后和bt文件里面的md5对比,如果正确,就下载完成,否则要重新下载。

    所以bt文件的下载过程,并不是去中心化的,tracket服务器就是一个中心化的服务器。
    tracket服务器只管理下载节点的信息,并不会存储文件的具体分块。所以压力也比较小。
    节点越多,下载的速度越快。

    参考

    未经允许,请不要转载

  • 相关阅读:
    js实现年月日三级联动
    Java_Web之俱乐部会员信息管理系统
    JQuery特效之心形图片墙
    Java_Web之宠物管理系统
    JavaScript特效之图片特效放大,缩小,旋转
    使用Ajax验证用户名
    Java_Web之神奇的Ajax
    js动态操作订单表格
    tab切换
    树型菜单
  • 原文地址:https://www.cnblogs.com/Xjng/p/10616158.html
Copyright © 2011-2022 走看看