Linux網路介面的源碼分析

admin @ 2014-03-25 , reply:0

Tags:

概述

一.前言　Linux的源碼里，網路介面的實現部份是非常值得一讀的，通過讀源碼，不僅對網路協議會有更深的了解，也有助於在網路編程的時候，對應用函數有更精確的了解和把握。　本文把重點放在網路介面程序的總體……

一.前言
　Linux的源碼里，網路介面的實現部份是非常值得一讀的，通過讀源碼，不僅對網路協議會有更深的了解，也有助於在網路編程的時候，對應用函數有更精確的了解和把握。
　本文把重點放在網路介面程序的總體結構上，希望能作為讀源碼時一些指導性的文字。
　本文以Linux2.4.16內核作為講解的對象，內核源碼可以在http://www.kernel.org上下載。我讀源碼時參考的是http://lxr.linux.no/這個交差參考的網站，我個人認為是一個很好的工具，如果有條件最好上這個網站。

二.網路介面程序的結構
　Linux的網路介面分為四部份：網路設備介面部份，網路介面核心部份，網路協議族部份，以及網路介面socket層。
　網路設備介面部份主要負責從物理介質接收和發送數據。實現的文件在linu/driver/net目錄下面。
　網路介面核心部份是整個網路介面的關鍵部位，它為網路協議提供統一的發送介面，屏蔽各種各樣的物理介質，同時有負責把來自下層的包向合適的協議配送。它是網路介面的中樞部份。它的主要實現文件在linux/net/core目錄下，其中linux/net/core/dev.c為主要管理文件。
　網路協議族部份是各種具體協議實現的部份。Linux支持TCP/IP，IPX，X.25，AppleTalk等的協議，各種具體協議實現的源碼在 linux/net/目錄下相應的名稱。在這裡主要討論TCP/IP(IPv4)協議，實現的源碼在linux/net/ipv4,其中 linux/net/ipv4/af_inet.c是主要的管理文件。
　網路介面Socket層為用戶提供的網路服務的編程介面。主要的源碼在linux/net/socket.c

三.網路設備介面部份
　物理層上有許多不同類型的網路介面設備, 在文件include/linux/if_arp.h的28行里定義了ARP能處理的各種的物理設備的標誌符。網路設備介面要負責具體物理介質的控制，從物理介質接收以及發送數據，並對物理介質進行諸如最大數據包之類的各種設置。這裡我們以比較簡單的3Com3c501 太網卡的驅動程序為例，大概講一下這層的工作原理。源碼在Linux/drivers/net/3c501.c。
我們從直覺上來考慮，一個網卡當然最主要的是完成數據的接收和發送，在這裡我們來看看接收和發送的過程是怎麼樣的。
　發送相對來說比較簡單，在Linux/drivers/net/3c501.c的行475 開始的el_start_xmit()這個函數就是實際向3Com3c501乙太網卡發送數據的函數，具體的發送工作不外乎是對一些寄存器的讀寫，源碼的註釋很清楚，大家可以看看。
　接收的工作相對來說比較複雜。通常來說，一個新的包到了，或者一個包發送完成了，都會產生一個中斷。 Linux/drivers/net/3c501.c的572開始el_interrupt()的函數裡面，前半部份處理的是包發送完以後的彙報，後半部份處理的是一個新的包來的，就是說接收到了新的數據。el_interrupt()函數並沒有對新的包進行太多的處理，就交給了接收處理函數 el_receive()。el_receive()首先檢查接收的包是否正確，如果是一個“好”包就會為包分配一個緩衝結構 (dev_alloc_skb())，這樣驅動程序對包的接收工作就完成了，通過調用上層的函數netif_rx() (net/core/dev.c1214行) ，把包交給上層。
　現在驅動程序有了發送和接收數據的功能了，驅動程序怎麼樣和上層建立聯繫呢？就是說接收到包以後怎麼送給上層，以及上層怎麼能調用驅動程序的發送函數呢？
　由下往上的關係，是通過驅動程序調用上層的netif_rx()(net/core/dev.c 1214行)函數實現的，驅動程序通過這個函數把接到的數據交給上層，請注意所有的網卡驅動程序都需要調用這個函數的，這是網路介面核心層和網路介面設備聯繫的橋樑。
　由上往下的關係就複雜點。網路介面核心層需要知道有多少網路設備可以用，每個設備的函數的入口地址等都要知道。網路介面核心層會大聲喊，“嘿，有多少設備可以幫我發送數據包？能發送的請給我排成一隊！”。這一隊就由dev_base開始，指針structnet_device *dev_base (Linux/include/linux/netdevice.h 436行)就是保存了網路介面核心層所知道的所有設備。對於網路介面核心層來說，所有的設備都是一個net_device結構，它在 include/linux/netdevice.h,line 233里被定義，這是從網路介面核心層的角度看到的一個抽象的設備，我們來看看網路介面核心層的角度看到的網路設備具有的功能：

　　struct net_device {
　　………
　　open()
　　stop()
　　hard_start_xmit()
　　hard_header()
　　rebuild_header()
　　set_mac_address()
　　do_ioctl()
　　set_config()
　　hard_header_cache()
　　header_cache_update()
　　change_mtu()
　　tx_timeout()
　　hard_header_parse()
　　neigh_setup()
　　accept_fastpath()
　　………
　　}

　如果網路介面核心層需要由下層發送數據的時候，在dev_base找到設備以後，就直接調dev->hard_start_xmit()的這個函數來讓下層發數據包。
　驅動程序要讓網路介面核心層知道自己的存在，當然要加入dev_base所指向的指針鏈，然後把自己的函數以及各種參數和net_device里的相應的域對應起來。加入dev_base所指向的指針鏈是通過函數register_netdev(&dev_3c50) (linux/drivers/net/net_init.c, line 532) 建立的。而把自己的函數以和net_device里的相應的域及各種參數關係的建立是在el1_probe1()(Linux/drivers/net/3c501.c)里進行的：
　　el1_probe1(){
　　………
　　dev->open = &el_open;
　　dev->hard_start_xmit = &el_start_xmit;
　　dev->tx_timeout = &el_timeout;
　　dev->watchdog_timeo = HZ;
　　dev->stop = &el1_close;
　　dev->get_stats = &el1_get_stats;
　　dev->set_multicast_list = &set_multicast_list;
　　………
　　ether_setup(dev);
　　………
　　}

　進一步的對應工作在ether_setup(dev) (drivers/net/net_init.c, line 405 )里進行。我們注意到dev->hard_start_xmit =&el_start_xmit，這樣發送函數的關係就建立了，上層只知道調用dev->hard_start_xmit這個來發送數據，上面的語句就把驅動程序實際的發送函數告訴了上層。

四.網路介面核心部分
　剛才談論了驅動程序怎麼和網路介面核心層銜接的。網路介面核心層知道驅動程序以及驅動程序的函數的入口是通過*dev_base指向的設備鏈的，而下層是通過調用這一層的函數netif_rx()(net/core/dev.c 1214行) 把數據傳遞個這一層的。
　網路介面核心層的上層是具體的網路協議，下層是驅動程序，我們以及解決了下層的關係，但和上層的關係沒有解決。先來討論一下網路介面核心層和網路協議族部份的關係，這種關係不外乎也是接收和發送的關係。
　網路協議，例如IP，ARP等的協議要發送數據包的時候會把數據包傳遞給這層，那麼這種傳遞是通過什麼函數來發生的呢？網路介面核心層通過 dev_queue_xmit()(net/core/dev.c,line975)這個函數向上層提供統一的發送介面，也就是說無論是IP，還是ARP 協議，通過這個函數把要發送的數據傳遞給這一層，想發送數據的時候就調用這個函數就可以了。dev_queue_xmit()做的工作最後會落實到dev ->hard_start_xmit()，而dev->hard_start_xmit()會調用實際的驅動程序來完成發送的任務。例如上面的例子中，調用dev->hard_start_xmit()實際就是調用了el_start_xmit()。
　現在討論接收的情況。網路介面核心層通過的函數netif_rx()(net/core/dev.c 1214行)接收了上層發送來的數據，這時候當然要把數據包往上層派送。所有的協議族的下層協議都需要接收數據，TCP/IP的IP協議和ARP協議， SPX/IPX的IPX協議，AppleTalk的DDP和AARP協議等都需要直接從網路介面核心層接收數據，網路介面核心層接收數據是如何把包發給這些協議的呢？這時的情形和於下層的關係很相似，網路介面核心層的下面可能有許多的網卡的驅動程序，為了知道怎麼向這些驅動程序發數據，前面以及講過時，是通過*dev_base這個指針指向的鏈解決的，現在解決和上層的關係是通過static struct packet_ptype_base[16]( net/core/dev.c line 164)這個數組解決的。這個數組包含了需要接收數據包的協議，以及它們的接收函數的入口。
　從上面可以看到，IP協議接收數據是通過ip_rcv()函數的，而ARP協議是通過arp_rcv()的，網路介面核心層只要通過這個數組就可以把數據交給上層函數了。
　如果有協議想把自己添加到這個數組，是通過dev_add_pack()(net/core/dev.c, line233)函數，從數組刪除是通過dev_remove_pack()函數的。Ip層的註冊是在初始化函數進行的void __init ip_init(void) (net/ipv4/ip_output.c, line 1003)

　　{
　　………
　　dev_add_pack(&ip_packet_type);
　　………
　　}

　重新到回我們關於接收的討論，網路介面核心層通過的函數netif_rx()(net/core/dev.c 1214行)接收了上層發送來的數據，看看這個函數做了些什麼。
　由於現在還是在中斷的服務裡面，所有並不能夠處理太多的東西，剩下的東西就通過cpu_raise_softirq(this_cpu, NET_RX_SOFTIRQ)
　交給軟中斷處理，從open_softirq(NET_RX_SOFTIRQ, net_rx_action, NULL)可以知道NET_RX_SOFTIRQ軟中斷的處理函數是net_rx_action()(net/core/dev.c, line 1419)，net_rx_action()根據數據包的協議類型在數組ptype_base[16]里找到相應的協議，並從中知道了接收的處理函數，然後把數據包交給處理函數，這樣就交給了上層處理，實際調用處理函數是通過net_rx_action()里的pt_prev->func()這一句。例如如果數據包是IP協議的話，ptype_base[ETH_P_IP]->func()(ip_rcv()),這樣就把數據包交給了IP協議。

五.網路協議部分
　協議層是真正實現是在這一層。在linux/include/linux/socket.h裡面，Linux的BSD Socket 定義了多至32支持的協議族，其中PF_INET就是我們最熟悉的TCP/IP協議族(IPv4, 以下沒有特別聲明都指IPv4)。以這個協議族為例，看看這層是怎麼工作的。實現TCP/IP協議族的主要文件在inux/net/ipv4/目錄下面， Linux/net/ipv4/af_inet.c為主要的管理文件。
　在Linux2.4.16裡面，實現了TCP/IP協議族裡面的的IGMP,TCP,UDP,ICMP,ARP,IP。我們先討論一下這些協議之間的關係。IP和ARP協議是需要直接和網路設備介面打交道的協議，也就是需要從網路核心模塊(core) 接收數據和發送數據的。而其它協議TCP,UDP,IGMP,ICMP是需要直接利用IP協議的，需要從IP協議接收數據，以及利用IP協議發送數據，同時還要向上層Socket層提供直接的調用介面。可以看到IP層是一個核心的協議，向下需要和下層打交道，又要向上層提供所以的傳輸和接收的服務。
　先來看看IP協議層。網路核心模塊(core) 如果接收到IP層的數據，通過ptype_base[ETH_P_IP] 數組的IP層的項指向的IP協議的ip_packet_type->ip_rcv()函數把數據包傳遞給IP層,也就是說IP層通過這個函數 ip_rcv()(linux/net/ipv4/ip_input.c)接收數據的。ip_rcv()這個函數只對IP數據保做了一些checksum 的檢查工作，如果包是正確的就把包交給了下一個處理函數ip_rcv_finish()(注意調用是通過NF_HOOK這個宏實現的)。現在， ip_rcv_finish()這個函數真正要完成一些IP層的工作了。IP層要做的主要工作就是路由，要決定把數據包往那裡送。路由的工作是通過函數 ip_route_input()(/linux/net/ipv4/route.c,line 1622)實現的。對於進來的包可能的路由有這些：

屬於本地的數據(即是需要傳遞給TCP，UDP，IGMP這些上層協議的) ；
需要要轉發的數據包(網關或者NAT伺服器之類的)；
不可能路由的數據包(地址信息有誤)；

　我們現在關心的是如果數據是本地數據的時候怎麼處理。ip_route_input()調用ip_route_input_slow() (net/ipv4/route.c, line 1312)，在ip_route_input_slow()裡面的1559行rth->u.dst.input= ip_local_deliver，這就是判斷到IP包是本地的數據包，並把本地數據包處理函數的地址返回。好了，路由工作完成了，返回到 ip_rcv_finish()。ip_rcv_finish()最後調用拉skb->dst->input(skb)，從上面可以看到，這其實就是調用了ip_local_deliver()函數，而ip_local_deliver(),接著就調用了 ip_local_deliver_finish()。現在真正到了往上層傳遞數據包的時候了。
　現在的情形和網路核心模塊層 (core) 往上層傳遞數據包的情形非常相似,怎麼從多個協議選擇合適的協議，並且往這個協議傳遞數據呢？網路網路核心模塊層(core) 通過一個數組ptype_base[16]保存了註冊了的所有可以接收數據的協議，同樣網路協議層也定義了這樣一個數組struct net_protocol*inet_protos[MAX_INET_PROTOS](/linux/net/ipv4/protocol.c#L102), 它保存了所有需要從IP協議層接收數據的上層協議(IGMP，TCP，UDP，ICMP)的接收處理函數的地址。我們來看看TCP協議的數據結構是怎麼樣的：

　　linux/net/ipv4/protocol.c line67
　　static struct inet_protocol tcp_protocol = {
　　handler: tcp_v4_rcv,// 接收數據的函數
　　err_handler: tcp_v4_err,// 出錯處理的函數
　　next: IPPROTO_PREVIOUS,
　　protocol: IPPROTO_TCP,
　　name: "TCP"
　　};

　第一項就是我們最關心的了，IP層可以通過這個函數把數據包往TCP層傳的。在linux/net/ipv4/protocol.c的上部，我們可以看到其它協議層的處理函數是igmp_rcv(), udp_rcv(), icmp_rcv()。同樣在linux/net/ipv4/protocol.c，往數組inet_protos[MAX_INET_PROTOS] 裡面添加協議是通過函數inet_add_protocol()實現的，刪除協議是通過 inet_del_protocol()實現的。inet_protos[MAX_INET_PROTOS]初始化的過程在 linux/net/ipv4/af_inet.c inet_init()初始化函數裡面。

　　inet_init(){
　　……
　　printk(KERN_INFO "IP Protocols: ");
　　for (p = inet_protocol_base; p != NULL;) {
　　struct inet_protocol *tmp = (struct inet_protocol *) p->next;
　　inet_add_protocol(p);// 添加協議
　　printk("%s%s",p->name,tmp?", ":" ");
　　p = tmp;
　　………
　　}

如果你在Linux啟動的時候有留意啟動的信息, 或者在linux下打命令dmesg就可以看到這一段程序輸出的信息：
　IP Protocols： ICMP，UDP，TCP，IGMP也就是說現在數組inet_protos[]裡面有了ICMP，UDP，TCP，IGMP四個協議的inet_protocol數據結構，數據結構包含了它們接收數據的處理函數。
　Linux 2.4.16在linux/include/linux/socket.h里定義了32種支持的BSDsocket協議，常見的有TCP/IP, IPX/SPX,X.25等，而每種協議還提供不同的服務，例如TCP/IP協議通過TCP協議支持連接服務，而通過UDP協議支持無連接服務，面對這麼多的協議，向用戶提供統一的介面是必要的，這種統一是通過socket來進行的。
　在BSD socket網路編程的模式下，利用一系列的統一的函數來利用通信的服務。例如一個典型的利用TCP協議通信程序是這樣：

　　sock_descriptor = socket(AF_INET,SOCK_STREAM,0);
　　connect(sock_descriptor, 地址，) ；
　　send(sock_descriptor,”hello world”);
　　recv(sock_descriptor,buffer,1024,0);

　第一個函數指定了協議Inet協議，即TCP/IP協議，同時是利用面向連接的服務，這樣就對應到TCP協議，以後的操作就是利用socket的標準函數進行的。
　從上面我們可以看到兩個問題，首先socket層需要根據用戶指定的協議族(上面是AF_INET) 從下面32種協議中選擇一種協議來完成用戶的要求，當協議族確定以後，還要把特定的服務映射到協議族下的具體協議，例如當用戶指定的是面向連接的服務時，Inet協議族會映射到TCP協議。
　從多個協議中選擇用戶指定的協議，並把具體的出理交給選中的協議，這和一起網路核心層向上和向下銜接的問題本質上是一樣的，所以解決的方法也是一樣的，同樣還是通過數組。在Linux/net/socket.c定義了這個數組staticstruct net_proto_family *net_families[NPROTO] 。數組的元素已經確定了，net_families[2] 是TCP/IP協議，net_families[3] 是X.25協議，具體那一項對應什麼協議，在 include/linux/socket.h有定義。但是每一項的數據結構net_proto_family的ops是空的，也就是具體協議處理函數的地址是不知道的。協議的處理函數和ops建立聯繫是通過sock_register()(Linux/net/socket.c)這個函數建立的，例如 TCP/IP協議的是這樣建立關係的：

　　int __init inet_init(void) (net/ipv4/af_inet.c)
　　{
　　(void) sock_register(&inet_family_ops);

　　}

　只要給出AF_INET(在宏里定義是2)，就可以找到net_failies[2] 裡面的處理函數了。
　協議的映射完成了，現在要進行服務的映射了。上層當然不可能知道下層的什麼協議能對應特定的服務，所以這種映射自然由協議族自己完成。在TCP/IP協議族裡，這種映射是通過struct
list_head inetsw[SOCK_MAX]( net/ipv4/af_inet.c)

　這個數組進行映射的，在談論這個數組之前我們來看另外一個數組inetsw_array[](net/ipv4/af_inet.c)

　　static struct inet_protosw inetsw_array[] =
　　{
　　{
　　type: SOCK_STREAM,
　　protocol: IPPROTO_TCP,
　　prot: &tcp_prot,
　　ops: &inet_stream_ops,
　　capability: -1,
　　no_check: 0,
　　flags: INET_PROTOSW_PERMANENT,
　　},

　　{
　　type: SOCK_DGRAM,
　　protocol: IPPROTO_UDP,
　　prot: &udp_prot,
　　ops: &inet_dgram_ops,
　　capability: -1,
　　no_check: UDP_CSUM_DEFAULT,
　　flags: INET_PROTOSW_PERMANENT,
　　},

　　{
　　type: SOCK_RAW,
　　protocol: IPPROTO_IP, /* wild card */
　　prot: &raw_prot,
　　ops: &inet_dgram_ops,
　　capability: CAP_NET_RAW,
　　no_check: UDP_CSUM_DEFAULT,
　　flags: INET_PROTOSW_REUSE,
　　}
　　};

　我們看到，SOCK_STREAM映射到了TCP協議，SOCK_DGRAM映射到了UDP協議，SOCK_RAW映射到了IP協議。現在只要把 inetsw_array里的三項添加到數組inetsw[SOCK_MAX]就可以了，添加是通過函數inet_register_protosw() 實現的。在inet_init() (net/ipv4/af_inet.c) 里完成了這些工作。
　還有一個需要映射的就是socket其它諸如accept,send(),
　connect(),release(),bind()等的操作函數是怎麼映射的呢？我們來看一下上面的數組的TCP的項
　　{
　　type: SOCK_STREAM,
　　protocol: IPPROTO_TCP,
　　prot: &tcp_prot,
　　ops: &inet_stream_ops,
　　capability: -1,
　　no_check: 0,
　　flags: INET_PROTOSW_PERMANENT,
　　},
　我們看到這種映射是通過ops，和prot來映射的，我們再來看看 tcp_prot這一項：
　　struct proto tcp_prot = {
　　name: "TCP",
　　close: tcp_close,
　　connect: tcp_v4_connect,
　　disconnect: tcp_disconnect,
　　accept: tcp_accept,
　　ioctl: tcp_ioctl,
　　init: tcp_v4_init_sock,
　　destroy: tcp_v4_destroy_sock,
　　shutdown: tcp_shutdown,
　　setsockopt: tcp_setsockopt,
　　getsockopt: tcp_getsockopt,
　　sendmsg: tcp_sendmsg,
　　recvmsg: tcp_recvmsg,
　　backlog_rcv: tcp_v4_do_rcv,
　　hash: tcp_v4_hash,
　　unhash: tcp_unhash,
　　get_port: tcp_v4_get_port,
　　};
　所以的映射都已經完成了，用戶調用connect()函數，其實就是調用了tcp_v4_connect()函數，按照這幅圖，讀起源碼來就簡單了很多了。

六 Socket層
　上一節把socket層大多數要討論的東西都談論了，現在只講講socket 層和用戶的銜接。
　系統調用socket(),bind(),connect(),accept,send(),release()等是在Linux/net/socket.c裡面的實現的,系統調用實現的函數是相應的函數名加上sys_的前綴。
　現在看看當用戶調用socket()這個函數，到底下面發生了什麼。
　Socket(AF_INET,SOCK_STREAM,0)調用了sys_socket(),sys_socket()接著調用 socket_creat(),socket_creat()就要根據用戶提供的協議族參數在net_families[]里尋找合適的協議族，如果協議族沒有被安裝就要請求安裝該協議族的模塊，然後就調用該協議族的create()函數的處理句柄。根據參數AF_INET，inet_creat()就被調用了，在inet_creat()根據服務類型在inetsw[SOCK_MAX] 選擇合適的協議，並把協議的操作集賦給socket就是了，根據SOCK_STREAM，TCP協議被選中，
　　inet_creat(){
　　answer=inetsw [用戶要求服務服務] ；
　　sock->ops = answer->ops;
　　sk->prot = answer->prot
　　}
　到此為止，上下都打通了，該是大家讀源碼的時候了。

[admin via 研發互助社區 ] Linux網路介面的源碼分析已經有8594次圍觀

本文地址：http://cocdig.com/docs/show-post-42119.html

Linux網路介面的源碼分析

概述

熱門文章

最新文章

你可能也喜歡