Linux網路介面的源碼分析

admin @ 2014-03-25 , reply:0

一.前言
 Linux的源碼里,網路介面的實現部份是非常值得一讀的,通過讀源碼,不僅對網路協議會有更深的了解,也有助於在網路編程的時候,對應用函數有更精確的了解和把握。
 本文把重點放在網路介面程序的總體結構上,希望能作為讀源碼時一些指導性的文字。
 本文以Linux2.4.16內核作為講解的對象,內核源碼可以在http://www.kernel.org上下載。我讀源碼時參考的是http://lxr.linux.no/這個交差參考的網站,我個人認為是一個很好的工具,如果有條件最好上這個網站。

二.網路介面程序的結構
 Linux的網路介面分為四部份:網路設備介面部份,網路介面核心部份,網路協議族部份,以及網路介面socket層。
 網路設備介面部份主要負責從物理介質接收和發送數據。實現的文件在linu/driver/net目錄下面。
 網路介面核心部份是整個網路介面的關鍵部位,它為網路協議提供統一的發送介面,屏蔽各種各樣的物理介質,同時有負責把來自下層的包向合適的協議配送。它是網路介面的中樞部份。它的主要實現文件在linux/net/core目錄下,其中linux/net/core/dev.c為主要管理文件。
 網路協議族部份是各種具體協議實現的部份。Linux支持TCP/IP,IPX,X.25,AppleTalk等的協議,各種具體協議實現的源碼在 linux/net/目錄下相應的名稱。在這裡主要討論TCP/IP(IPv4)協議,實現的源碼在linux/net/ipv4,其中 linux/net/ipv4/af_inet.c是主要的管理文件。
 網路介面Socket層為用戶提供的網路服務的編程介面。主要的源碼在linux/net/socket.c

三.網路設備介面部份
 物理層上有許多不同類型的網路介面設備, 在文件include/linux/if_arp.h的28行里定義了ARP能處理的各種的物理設備的標誌符。網路設備介面要負責具體物理介質的控制,從物理介質接收以及發送數據,並對物理介質進行諸如最大數據包之類的各種設置。這裡我們以比較簡單的3Com3c501 太網卡的驅動程序為例,大概講一下這層的工作原理。源碼在Linux/drivers/net/3c501.c。
    我們從直覺上來考慮,一個網卡當然最主要的是完成數據的接收和發送,在這裡我們來看看接收和發送的過程是怎麼樣的。
 發送相對來說比較簡單,在Linux/drivers/net/3c501.c的行475 開始的el_start_xmit()這個函數就是實際向3Com3c501乙太網卡發送數據的函數,具體的發送工作不外乎是對一些寄存器的讀寫,源碼的註釋很清楚,大家可以看看。
 接收的工作相對來說比較複雜。通常來說,一個新的包到了,或者一個包發送完成了,都會產生一個中斷。 Linux/drivers/net/3c501.c的572開始el_interrupt()的函數裡面,前半部份處理的是包發送完以後的彙報,後半部份處理的是一個新的包來的,就是說接收到了新的數據。el_interrupt()函數並沒有對新的包進行太多的處理,就交給了接收處理函數 el_receive()。el_receive()首先檢查接收的包是否正確,如果是一個“好”包就會為包分配一個緩衝結構 (dev_alloc_skb()),這樣驅動程序對包的接收工作就完成了,通過調用上層的函數netif_rx() (net/core/dev.c1214行) ,把包交給上層。
 現在驅動程序有了發送和接收數據的功能了,驅動程序怎麼樣和上層建立聯繫呢?就是說接收到包以後怎麼送給上層,以及上層怎麼能調用驅動程序的發送函數呢?
 由下往上的關係,是通過驅動程序調用上層的netif_rx()(net/core/dev.c 1214行)函數實現的,驅動程序通過這個函數把接到的數據交給上層,請注意所有的網卡驅動程序都需要調用這個函數的,這是網路介面核心層和網路介面設備聯繫的橋樑。
 由上往下的關係就複雜點。網路介面核心層需要知道有多少網路設備可以用,每個設備的函數的入口地址等都要知道。網路介面核心層會大聲喊,“嘿,有多少設備可以幫我發送數據包?能發送的請給我排成一隊!”。這一隊就由dev_base開始,指針structnet_device *dev_base (Linux/include/linux/netdevice.h 436行)就是保存了網路介面核心層所知道的所有設備。對於網路介面核心層來說,所有的設備都是一個net_device結構,它在 include/linux/netdevice.h,line 233里被定義,這是從網路介面核心層的角度看到的一個抽象的設備,我們來看看網路介面核心層的角度看到的網路設備具有的功能:

  struct net_device {
  ………
  open()
  stop()
  hard_start_xmit()
  hard_header()
  rebuild_header()
  set_mac_address()
  do_ioctl()
  set_config()
  hard_header_cache()
  header_cache_update()
  change_mtu()
  tx_timeout()
  hard_header_parse()
  neigh_setup()
  accept_fastpath()
  ………
  }

 如果網路介面核心層需要由下層發送數據的時候,在dev_base找到設備以後,就直接調dev->hard_start_xmit()的這個函數來讓下層發數據包。
 驅動程序要讓網路介面核心層知道自己的存在,當然要加入dev_base所指向的指針鏈,然後把自己的函數以及各種參數和net_device里的相應的域對應起來。加入dev_base所指向的指針鏈是通過函數register_netdev(&dev_3c50) (linux/drivers/net/net_init.c, line 532) 建立的。而把自己的函數以和net_device里的相應的域及各種參數關係的建立是在el1_probe1()(Linux/drivers/net/3c501.c)里進行的:
  el1_probe1(){
  ………
  dev->open = &el_open;
  dev->hard_start_xmit = &el_start_xmit;
  dev->tx_timeout = &el_timeout;
  dev->watchdog_timeo = HZ;
  dev->stop = &el1_close;
  dev->get_stats = &el1_get_stats;
  dev->set_multicast_list = &set_multicast_list;
  ………
  ether_setup(dev);
  ………
  }

 進一步的對應工作在ether_setup(dev) (drivers/net/net_init.c, line 405 )里進行。我們注意到dev->hard_start_xmit =&el_start_xmit,這樣發送函數的關係就建立了,上層只知道調用dev->hard_start_xmit這個來發送數據,上面的語句就把驅動程序實際的發送函數告訴了上層。

四.網路介面核心部分
 剛才談論了驅動程序怎麼和網路介面核心層銜接的。網路介面核心層知道驅動程序以及驅動程序的函數的入口是通過*dev_base指向的設備鏈的,而下層是通過調用這一層的函數netif_rx()(net/core/dev.c 1214行) 把數據傳遞個這一層的。
 網路介面核心層的上層是具體的網路協議,下層是驅動程序,我們以及解決了下層的關係,但和上層的關係沒有解決。先來討論一下網路介面核心層和網路協議族部份的關係,這種關係不外乎也是接收和發送的關係。
 網路協議,例如IP,ARP等的協議要發送數據包的時候會把數據包傳遞給這層,那麼這種傳遞是通過什麼函數來發生的呢?網路介面核心層通過 dev_queue_xmit()(net/core/dev.c,line975)這個函數向上層提供統一的發送介面,也就是說無論是IP,還是ARP 協議,通過這個函數把要發送的數據傳遞給這一層,想發送數據的時候就調用這個函數就可以了。dev_queue_xmit()做的工作最後會落實到dev ->hard_start_xmit(),而dev->hard_start_xmit()會調用實際的驅動程序來完成發送的任務。例如上面的例子中,調用dev->hard_start_xmit()實際就是調用了el_start_xmit()。
 現在討論接收的情況。網路介面核心層通過的函數netif_rx()(net/core/dev.c 1214行)接收了上層發送來的數據,這時候當然要把數據包往上層派送。所有的協議族的下層協議都需要接收數據,TCP/IP的IP協議和ARP協議, SPX/IPX的IPX協議,AppleTalk的DDP和AARP協議等都需要直接從網路介面核心層接收數據,網路介面核心層接收數據是如何把包發給這些協議的呢?這時的情形和於下層的關係很相似,網路介面核心層的下面可能有許多的網卡的驅動程序,為了知道怎麼向這些驅動程序發數據,前面以及講過時,是通過*dev_base這個指針指向的鏈解決的,現在解決和上層的關係是通過static struct packet_ptype_base[16]( net/core/dev.c line 164)這個數組解決的。這個數組包含了需要接收數據包的協議,以及它們的接收函數的入口。
 從上面可以看到,IP協議接收數據是通過ip_rcv()函數的,而ARP協議是通過arp_rcv()的,網路介面核心層只要通過這個數組就可以把數據交給上層函數了。
 如果有協議想把自己添加到這個數組,是通過dev_add_pack()(net/core/dev.c, line233)函數,從數組刪除是通過dev_remove_pack()函數的。Ip層的註冊是在初始化函數進行的void __init ip_init(void) (net/ipv4/ip_output.c, line 1003)

  {
  ………
  dev_add_pack(&ip_packet_type);
  ………
  }

 重新到回我們關於接收的討論,網路介面核心層通過的函數netif_rx()(net/core/dev.c 1214行)接收了上層發送來的數據,看看這個函數做了些什麼。
 由於現在還是在中斷的服務裡面,所有並不能夠處理太多的東西,剩下的東西就通過cpu_raise_softirq(this_cpu, NET_RX_SOFTIRQ)
 交給軟中斷處理, 從open_softirq(NET_RX_SOFTIRQ, net_rx_action, NULL)可以知道NET_RX_SOFTIRQ軟中斷的處理函數是net_rx_action()(net/core/dev.c, line 1419),net_rx_action()根據數據包的協議類型在數組ptype_base[16]里找到相應的協議,並從中知道了接收的處理函數,然後把數據包交給處理函數,這樣就交給了上層處理,實際調用處理函數是通過net_rx_action()里的pt_prev->func()這一句。例如如果數據包是IP協議的話,ptype_base[ETH_P_IP]->func()(ip_rcv()),這樣就把數據包交給了IP協議。

五.網路協議部分
 協議層是真正實現是在這一層。在linux/include/linux/socket.h裡面,Linux的BSD Socket 定義了多至32支持的協議族,其中PF_INET就是我們最熟悉的TCP/IP協議族(IPv4, 以下沒有特別聲明都指IPv4)。以這個協議族為例,看看這層是怎麼工作的。實現TCP/IP協議族的主要文件在inux/net/ipv4/目錄下面, Linux/net/ipv4/af_inet.c為主要的管理文件。
 在Linux2.4.16裡面,實現了TCP/IP協議族裡面的的IGMP,TCP,UDP,ICMP,ARP,IP。我們先討論一下這些協議之間的關係。IP和ARP協議是需要直接和網路設備介面打交道的協議,也就是需要從網路核心模塊(core) 接收數據和發送數據的。而其它協議TCP,UDP,IGMP,ICMP是需要直接利用IP協議的,需要從IP協議接收數據,以及利用IP協議發送數據,同時還要向上層Socket層提供直接的調用介面。可以看到IP層是一個核心的協議,向下需要和下層打交道,又要向上層提供所以的傳輸和接收的服務。
 先來看看IP協議層。網路核心模塊(core) 如果接收到IP層的數據,通過ptype_base[ETH_P_IP] 數組的IP層的項指向的IP協議的ip_packet_type->ip_rcv()函數把數據包傳遞給IP層,也就是說IP層通過這個函數 ip_rcv()(linux/net/ipv4/ip_input.c)接收數據的。ip_rcv()這個函數只對IP數據保做了一些checksum 的檢查工作,如果包是正確的就把包交給了下一個處理函數ip_rcv_finish()(注意調用是通過NF_HOOK這個宏實現的)。現在, ip_rcv_finish()這個函數真正要完成一些IP層的工作了。IP層要做的主要工作就是路由,要決定把數據包往那裡送。路由的工作是通過函數 ip_route_input()(/linux/net/ipv4/route.c,line 1622)實現的。對於進來的包可能的路由有這些:

  • 屬於本地的數據(即是需要傳遞給TCP,UDP,IGMP這些上層協議的) ;
  • 需要要轉發的數據包(網關或者NAT伺服器之類的);
  • 不可能路由的數據包(地址信息有誤);

 我們現在關心的是如果數據是本地數據的時候怎麼處理。ip_route_input()調用ip_route_input_slow() (net/ipv4/route.c, line 1312),在ip_route_input_slow()裡面的1559行rth->u.dst.input= ip_local_deliver,這就是判斷到IP包是本地的數據包,並把本地數據包處理函數的地址返回。好了,路由工作完成了,返回到 ip_rcv_finish()。ip_rcv_finish()最後調用拉skb->dst->input(skb),從上面可以看到,這其實就是調用了ip_local_deliver()函數,而ip_local_deliver(),接著就調用了 ip_local_deliver_finish()。現在真正到了往上層傳遞數據包的時候了。
 現在的情形和網路核心模塊層 (core) 往上層傳遞數據包的情形非常相似,怎麼從多個協議選擇合適的協議,並且往這個協議傳遞數據呢?網路網路核心模塊層(core) 通過一個數組ptype_base[16]保存了註冊了的所有可以接收數據的協議,同樣網路協議層也定義了這樣一個數組struct net_protocol*inet_protos[MAX_INET_PROTOS](/linux/net/ipv4/protocol.c#L102), 它保存了所有需要從IP協議層接收數據的上層協議(IGMP,TCP,UDP,ICMP)的接收處理函數的地址。我們來看看TCP協議的數據結構是怎麼樣的:

  linux/net/ipv4/protocol.c line67
  static struct inet_protocol tcp_protocol = {
  handler: tcp_v4_rcv,// 接收數據的函數
  err_handler: tcp_v4_err,// 出錯處理的函數
  next: IPPROTO_PREVIOUS,
  protocol: IPPROTO_TCP,
  name: "TCP"
  };

 第一項就是我們最關心的了,IP層可以通過這個函數把數據包往TCP層傳的。在linux/net/ipv4/protocol.c的上部,我們可以看到其它協議層的處理函數是igmp_rcv(), udp_rcv(), icmp_rcv()。同樣在linux/net/ipv4/protocol.c,往數組inet_protos[MAX_INET_PROTOS] 裡面添加協議是通過函數inet_add_protocol()實現的,刪除協議是通過 inet_del_protocol()實現的。inet_protos[MAX_INET_PROTOS]初始化的過程在 linux/net/ipv4/af_inet.c inet_init()初始化函數裡面。

  inet_init(){
  ……
  printk(KERN_INFO "IP Protocols: ");
  for (p = inet_protocol_base; p != NULL;) {
  struct inet_protocol *tmp = (struct inet_protocol *) p->next;
  inet_add_protocol(p);// 添加協議
  printk("%s%s",p->name,tmp?", ":" ");
  p = tmp;
  ………
  }

    如果你在Linux啟動的時候有留意啟動的信息, 或者在linux下打命令dmesg就可以看到這一段程序輸出的信息:
 IP Protocols: ICMP,UDP,TCP,IGMP也就是說現在數組inet_protos[]裡面有了ICMP,UDP,TCP,IGMP四個協議的inet_protocol數據結構,數據結構包含了它們接收數據的處理函數。
 Linux 2.4.16在linux/include/linux/socket.h里定義了32種支持的BSDsocket協議,常見的有TCP/IP, IPX/SPX,X.25等,而每種協議還提供不同的服務,例如TCP/IP協議通過TCP協議支持連接服務,而通過UDP協議支持無連接服務,面對這麼多的協議,向用戶提供統一的介面是必要的,這種統一是通過socket來進行的。
 在BSD socket網路編程的模式下,利用一系列的統一的函數來利用通信的服務。例如一個典型的利用TCP協議通信程序是這樣:

  sock_descriptor = socket(AF_INET,SOCK_STREAM,0);
  connect(sock_descriptor, 地址,) ;
  send(sock_descriptor,”hello world”);
  recv(sock_descriptor,buffer,1024,0);

 第一個函數指定了協議Inet協議,即TCP/IP協議,同時是利用面向連接的服務,這樣就對應到TCP協議,以後的操作就是利用socket的標準函數進行的。
 從上面我們可以看到兩個問題,首先socket層需要根據用戶指定的協議族(上面是AF_INET) 從下面32種協議中選擇一種協議來完成用戶的要求,當協議族確定以後,還要把特定的服務映射到協議族下的具體協議,例如當用戶指定的是面向連接的服務時,Inet協議族會映射到TCP協議。
 從多個協議中選擇用戶指定的協議,並把具體的出理交給選中的協議,這和一起網路核心層向上和向下銜接的問題本質上是一樣的,所以解決的方法也是一樣的,同樣還是通過數組。在Linux/net/socket.c定義了這個數組staticstruct net_proto_family *net_families[NPROTO] 。數組的元素已經確定了,net_families[2] 是TCP/IP協議,net_families[3] 是X.25協議,具體那一項對應什麼協議,在 include/linux/socket.h有定義。但是每一項的數據結構net_proto_family的ops是空的,也就是具體協議處理函數的地址是不知道的。協議的處理函數和ops建立聯繫是通過sock_register()(Linux/net/socket.c)這個函數建立的,例如 TCP/IP協議的是這樣建立關係的:

  int __init inet_init(void) (net/ipv4/af_inet.c)
  {
  (void) sock_register(&inet_family_ops);

  }

 只要給出AF_INET(在宏里定義是2),就可以找到net_failies[2] 裡面的處理函數了。
 協議的映射完成了,現在要進行服務的映射了。上層當然不可能知道下層的什麼協議能對應特定的服務,所以這種映射自然由協議族自己完成。在TCP/IP協議族裡,這種映射是通過struct
list_head inetsw[SOCK_MAX]( net/ipv4/af_inet.c)

 這個數組進行映射的,在談論這個數組之前我們來看另外一個數組inetsw_array[](net/ipv4/af_inet.c)

  static struct inet_protosw inetsw_array[] =
  {
  {
  type: SOCK_STREAM,
  protocol: IPPROTO_TCP,
  prot: &tcp_prot,
  ops: &inet_stream_ops,
  capability: -1,
  no_check: 0,
  flags: INET_PROTOSW_PERMANENT,
  },

  {
  type: SOCK_DGRAM,
  protocol: IPPROTO_UDP,
  prot: &udp_prot,
  ops: &inet_dgram_ops,
  capability: -1,
  no_check: UDP_CSUM_DEFAULT,
  flags: INET_PROTOSW_PERMANENT,
  },

  {
  type: SOCK_RAW,
  protocol: IPPROTO_IP, /* wild card */
  prot: &raw_prot,
  ops: &inet_dgram_ops,
  capability: CAP_NET_RAW,
  no_check: UDP_CSUM_DEFAULT,
  flags: INET_PROTOSW_REUSE,
  }
  };

 我們看到,SOCK_STREAM映射到了TCP協議,SOCK_DGRAM映射到了UDP協議,SOCK_RAW映射到了IP協議。現在只要把 inetsw_array里的三項添加到數組inetsw[SOCK_MAX]就可以了,添加是通過函數inet_register_protosw() 實現的。在inet_init() (net/ipv4/af_inet.c) 里完成了這些工作。
 還有一個需要映射的就是socket其它諸如accept,send(),
 connect(),release(),bind()等的操作函數是怎麼映射的呢?我們來看一下上面的數組的TCP的項
  {
  type: SOCK_STREAM,
  protocol: IPPROTO_TCP,
  prot: &tcp_prot,
  ops: &inet_stream_ops,
  capability: -1,
  no_check: 0,
  flags: INET_PROTOSW_PERMANENT,
  },
 我們看到這種映射是通過ops,和prot來映射的,我們再來看看 tcp_prot這一項:
  struct proto tcp_prot = {
  name: "TCP",
  close: tcp_close,
  connect: tcp_v4_connect,
  disconnect: tcp_disconnect,
  accept: tcp_accept,
  ioctl: tcp_ioctl,
  init: tcp_v4_init_sock,
  destroy: tcp_v4_destroy_sock,
  shutdown: tcp_shutdown,
  setsockopt: tcp_setsockopt,
  getsockopt: tcp_getsockopt,
  sendmsg: tcp_sendmsg,
  recvmsg: tcp_recvmsg,
  backlog_rcv: tcp_v4_do_rcv,
  hash: tcp_v4_hash,
  unhash: tcp_unhash,
  get_port: tcp_v4_get_port,
  };
 所以的映射都已經完成了,用戶調用connect()函數,其實就是調用了tcp_v4_connect()函數,按照這幅圖,讀起源碼來就簡單了很多了。

六 Socket層
 上一節把socket層大多數要討論的東西都談論了,現在只講講socket 層和用戶的銜接。
 系統調用socket(),bind(),connect(),accept,send(),release()等是在Linux/net/socket.c裡面的實現的,系統調用實現的函數是相應的函數名加上sys_的前綴。
 現在看看當用戶調用socket()這個函數,到底下面發生了什麼。
 Socket(AF_INET,SOCK_STREAM,0)調用了sys_socket(),sys_socket()接著調用 socket_creat(),socket_creat()就要根據用戶提供的協議族參數在net_families[]里尋找合適的協議族,如果協議族沒有被安裝就要請求安裝該協議族的模塊,然後就調用該協議族的create()函數的處理句柄。根據參數AF_INET,inet_creat()就被調用了,在inet_creat()根據服務類型在inetsw[SOCK_MAX] 選擇合適的協議,並把協議的操作集賦給socket就是了,根據SOCK_STREAM,TCP協議被選中,
  inet_creat(){
  answer=inetsw [用戶要求服務服務] ;
  sock->ops = answer->ops;
  sk->prot = answer->prot
  }
 到此為止,上下都打通了,該是大家讀源碼的時候了。




[admin via 研發互助社區 ] Linux網路介面的源碼分析已經有2576次圍觀

http://cocdig.com/docs/show-post-42119.html