为什么ip层收到的报文可能已经设置了路由

zoukankan html css js c++ java

为什么ip层收到的报文可能已经设置了路由

一、收到报文对于网络地址的判断

对于刚收到的网络数据，经过了NF_IP_PRE_ROUTING过滤之后，开始到达了ip_rcv_finish函数，在该函数的开始做了一个看起来比较诡异的操作，就是判断了这个数据包中的路由dst是否已经设置过了，如果没有设置过则进行路由；这也就是反过来说，一些收到的报文是可能已经设置过了了路由。那么为什么会有这样的报文，它们从哪里来，又是在哪里设置了这些路由项？

static inline int ip_rcv_finish(struct sk_buff *skb)

{

struct iphdr *iph = skb->nh.iph;

/*

* Initialise the virtual path cache for the packet. It describes

* how the packet travels inside Linux networking.

*/

if (skb->dst == NULL) {//在什么情况下这个指针非空？

int err = ip_route_input(skb, iph->daddr, iph->saddr, iph->tos,

skb->dev);

if (unlikely(err)) {

if (err == -EHOSTUNREACH)

IP_INC_STATS_BH(IPSTATS_MIB_INADDRERRORS);

goto drop;

}

}

……

}

二、一个典型的场景

其实这个最为典型的场景发生在一个机器上的不同进程通过tcp通讯数据，也就是说当一个报文的发送目的地是本机的时候，此时这个报文就不再是从机器外部过来的数据，而是从本机内部的数据，所以它的目的地址在output的时候已经被设置过了，当然，如果你ping一个本地的loopback网卡设备，同样也是下面说的流程。假设说发送的目的地是在本机，此时经过的路由为

ip_route_output_flow-->>__ip_route_output_key-->>ip_route_output_slow-->>

if (res.type == RTN_LOCAL) {

if (!fl.fl4_src)

fl.fl4_src = fl.fl4_dst;

if (dev_out)

dev_put(dev_out);

dev_out = &loopback_dev;

如果网络发送的目的地址经过路由表判断之后为一个本地的地址，则此时“发送”时使用的网卡就是虚拟的loopback网卡，

ip_route_output_slow-->>ip_mkroute_output-->>ip_mkroute_output_def-->>__mkroute_output

rth->u.dst.output=ip_output;

RT_CACHE_STAT_INC(out_slow_tot);

if (flags & RTCF_LOCAL) {

rth->u.dst.input = ip_local_deliver;

rth->rt_spec_dst = fl->fl4_dst;

}ip_output-->>ip_finish_output-->>ip_finish_output2-->>dev_queue_xmit-->>dev_hard_start_xmit-->>loopback_xmit

static int loopback_xmit(struct sk_buff *skb, struct net_device *dev)

{

……

/* it's OK to use __get_cpu_var() because BHs are off */

lb_stats = &__get_cpu_var(pcpu_lstats);

lb_stats->bytes += skb->len;

lb_stats->packets++;

netif_rx(skb);再次掉头进入本机的网络协议栈。

return 0;

}

也就是这里的确使用了一个“具体的”网卡loopback将数据“发送”出去，但是这个设备非常特殊，它的发送接口是将所有被要求发送的报文进行了一个180°大转弯，调转netif_rx之后一头再次扎进了系统的协议栈中，这里的报文结构并没有作任何修改，所以它的dst指针依然有效，它的输入接口依然保留着在__mkroute_output函数中设置的方法，也就是ip_local_deliver，所以在ip_rcv_finish-->>dst_input

/* Input packet from network to transport. */

static inline int dst_input(struct sk_buff *skb)

{

int err;

for (;;) {

err = skb->dst->input(skb);

if (likely(err == 0))

return err;

/* Oh, Jamal... Seems, I will not forgive you this mess. :-) */

if (unlikely(err != NET_XMIT_BYPASS))

return err;

}

}

此时的skb->dst->input方法就是__mkroute_output中设置的ip_local_deliver。

三、再看一个“反面”的例子

除了loopback这样的设备之外，系统中还有一些其他的设备类型也是需要进行这么一番周折的，例如我们在lvs可能使用的ipip设备。它的数据包在系统协议栈中的流转也比较坎坷，因为它包含了两个iphdr(想起了《国产零零七》中的“痰盂子母弹”)，这意味着这个数据包也有机会两次进入系统协议栈，此时它是否也存在这样的问题呢？对于ipip协议数据的处理主要在函数ipip_rcv中完成：

if ((tunnel = ipip_tunnel_lookup(iph->saddr, iph->daddr)) != NULL) {

……

dst_release(skb->dst);

skb->dst = NULL;

……

   netif_rx(skb);

return 0;

}

由于这里的例子并不适应，所以对于需要再次进入系统网络协议栈的报文，这里ipip进行了主动的有意识的重新归零，也就是为了避这个报文再次进入协议栈时有残留的路由信息，而这个信息又是一个错误的路由信息，所以这个地方要主动的将这个路由信息清除。

四、路由转发对于traceroute实现的支持

在看这个代码的时候，顺便看到了对于报文转发的处理。其实这个代码处理非常简单，就是对于过了的数据包进行路由计算并转发。这个数据包进入内核协议栈之后将会被设置为ip_forward，这个函数的功能其实非常简单，因为__mkroute_input已经为它选好了output使用的dev和gateway信息，所以它只是执行了ip_forward函数就可以返回了。在这个简短的函数中，除了执行我们最为关心的netfilter的钩子调用之外，它还有一个重要的功能就是递减这个被转发的报文的生存期，也就是ttl(Time To Live)字段。当这个值减少为1之后，这个报文将会被丢弃，并且给谁发送源发送一个ICMP_TIME_EXCEEDED类型的icmp报文。据说在windows下的troucert，linux下的traceroute工具都是利用了这个特性来进行路由检测，方法就是以1为ttl初始值来发送探测数据包，然后侦听回报中的ICMP_TIME_EXCEEDED报文，通过这样来逐渐尝试到达目的地址经过的各个站点。

int ip_forward(struct sk_buff *skb)

{

……

/*

* According to the RFC, we must first decrease the TTL field. If

* that reaches zero, we must reply an ICMP control message telling

* that the packet's lifetime expired.

*/

if (skb->nh.iph->ttl <= 1)

goto too_many_hops;

……

/* Decrease ttl after skb cow done */

ip_decrease_ttl(iph);

……

too_many_hops:

/* Tell the sender its packet died... */

IP_INC_STATS_BH(IPSTATS_MIB_INHDRERRORS);

icmp_send(skb, ICMP_TIME_EXCEEDED, ICMP_EXC_TTL, 0);



在icmp_send的回包中，使用的源地址是检测到ttl归零的主机地址(而不是被转发报文的最终目的地址)。这个转换在icmp_send中可以看到：

void icmp_send(struct sk_buff *skb_in, int type, int code, __be32 info)

{

……

/*

* Construct source address and options.

*/

saddr = iph->daddr;

if (!(rt->rt_flags & RTCF_LOCAL)) {

if (sysctl_icmp_errors_use_inbound_ifaddr)

saddr = inet_select_addr(skb_in->dev, 0, RT_SCOPE_LINK);

else

saddr = 0;

}

……

struct flowi fl = {

.nl_u = {

.ip4_u = {

.daddr = icmp_param.replyopts.srr ?

icmp_param.replyopts.faddr :

iph->saddr,

.saddr = saddr,//如果源地址为0，则由路由层自主选择出口网卡的IP地址。

.tos = RT_TOS(tos)

}

},

.proto = IPPROTO_ICMP,

.uli_u = {

.icmpt = {

.type = type,

.code = code

}

}

};

在最终的发送接口中，其填充的源地址为ip_push_pending_frames

……

iph->ttl = ttl;

iph->protocol = sk->sk_protocol;

iph->saddr = rt->rt_src;

iph->daddr = rt->rt_dst;

ip_send_check(iph);

……

五、系统默认TTL的值

static void rt_set_nexthop(struct rtable *rt, struct fib_result *res, u32 itag)

if (rt->u.dst.metrics[RTAX_HOPLIMIT-1] == 0)

rt->u.dst.metrics[RTAX_HOPLIMIT-1] = sysctl_ip_default_ttl;



tsecer@harry: cat /proc/sys/net/ipv4/ip_default_ttl

64

通过tcpdump抓一个ping本地地址的数据包，可以看到ttl为默认的64

08:43:38.626117 IP (tos 0x0, ttl 64, id 31217, offset 0, flags [DF], proto UDP (17), length 118)

查看全文

相关阅读:
常用公共配置类——定时任务配置
 常用公共工具类——生成token
常用公共工具类——分页工具类(IPage)
常用公共工具类——Shiro工具类
 常用公共工具类——Redis工具类
 fmt.sprintf,fprintf区别
 web界面不显示内容排查思路
 golang值传递和引用传递
 web开发
 聊聊crd和list-watch

原文地址：https://www.cnblogs.com/tsecer/p/10487693.html