首先来看段代码:
#include <arpa/inet.h> #include <assert.h> #include <errno.h> #include <stdio.h> #include <stdlib.h> #include <strings.h> #include <sys/epoll.h> #include <sys/socket.h> #include <sys/types.h> #include <unistd.h> #define PORT 9999 #define MAX_EVENTS 10 static int tcp_listen() { int lfd, opt, err; struct sockaddr_in addr; lfd = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP); assert(lfd != -1); opt = 1; err = setsockopt(lfd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt)); assert(!err); bzero(&addr, sizeof(addr)); addr.sin_family = AF_INET; addr.sin_addr.s_addr = INADDR_ANY; addr.sin_port = htons(PORT); err = bind(lfd, (struct sockaddr *)&addr, sizeof(addr)); assert(!err); err = listen(lfd, 8); assert(!err); return lfd; } static void epoll_ctl_add(int epfd, int fd, int evts) { struct epoll_event ev; ev.events = evts; ev.data.fd = fd; int err = epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev); assert(!err); } static void handle_events(struct epoll_event *e, int epfd) { int err; printf("events: %d -> %d\n", e->data.fd, e->events); err = shutdown(e->data.fd, SHUT_WR); // err = close(e->data.fd); if (err) { printf("shutdown errno: %d\n", errno); exit(123); } } int main(int argc, char *argv[]) { int epfd, lfd, cfd, n; struct epoll_event events[MAX_EVENTS]; epfd = epoll_create1(0); assert(epfd != -1); lfd = tcp_listen(); epoll_ctl_add(epfd, lfd, EPOLLIN); for (;;) { n = epoll_wait(epfd, events, MAX_EVENTS, -1); assert(n != -1); for (int i = 0; i < n; i++) { if (events[i].data.fd == lfd) { cfd = accept(lfd, NULL, NULL); assert(cfd != -1); epoll_ctl_add(epfd, cfd, EPOLLIN | EPOLLOUT | EPOLLET); } else { handle_events(&events[i], epfd); } } } return 0; }
代码虽然有点长,但非常简单,就是tcp和epoll的基本操作,这里需要注意的是,在handle_events方法里,在输出了socket的event相关内容后,立即调用了shutdown方法,关闭该socket的send端。
看上去好像没什么问题,我们来执行试下。
下面是服务端的完整输出:
$ gcc server.c && ./a.out events: 5 -> 4 events: 5 -> 4 events: 5 -> 4 events: 5 -> 4 ... 省略大量的events输出 ... shutdown errno: 107 $ echo $? 123
下面是用ncat模拟的客户端的完整操作流程:
$ ncat localhost 9999 ^C
当服务端开始执行我们上面的程序时,终端是没有任何输出的,它在等待客户端连接。
当我们用ncat命令对服务端发起连接时,服务器终端会一直输出events,陷入死循环。
当我们ctrl-c关闭ncat模拟的客户端时,服务端停止输出events,之后,在输出完shutdown errno后,调用exit退出程序。
最后,我们用echo命令输出服务端程序的exit code,发现确实是代码里指定的123。
由上可见,服务端代码在执行完shutdown后,陷入了死循环。
但为什么呢?我们还是通过linux内核源码来看下:
// net/ipv4/af_inet.c int inet_shutdown(struct socket *sock, int how) { struct sock *sk = sock->sk; ... switch (sk->sk_state) { case TCP_CLOSE: err = -ENOTCONN; default: sk->sk_shutdown |= how; if (sk->sk_prot->shutdown) sk->sk_prot->shutdown(sk, how); break; ... } sk->sk_state_change(sk); ... return err; } EXPORT_SYMBOL(inet_shutdown);
系统调用shutdown最终会调用该方法,由上可见,该方法先设置了sk->sk_shutdown,然后又调用了sk->sk_prot->shutdown指向的方法,该方法内容如下:
// net/ipv4/tcp.c void tcp_shutdown(struct sock *sk, int how) { if (!(how & SEND_SHUTDOWN)) return; /* If we've already sent a FIN, or it's a closed state, skip this. */ if ((1 << sk->sk_state) & (TCPF_ESTABLISHED | TCPF_SYN_SENT | TCPF_SYN_RECV | TCPF_CLOSE_WAIT)) { /* Clear out any half completed packets. FIN if needed. */ if (tcp_close_state(sk)) tcp_send_fin(sk); } } EXPORT_SYMBOL(tcp_shutdown);
该方法的作用其实就是设置socket的状态和发送fin消息给对方。
我们再继续看上面的inet_shutdown方法。
在调用完sk->sk_prot->shutdown之后,inet_shutdown方法又调用了sk->sk_state_change,而该方法的作用就是通知epoll,告诉它该socket又有事件发生。
当我们执行完shutdown系统调用后,epoll进入下一次循环,发现该socket又有事件发生了(就是上面sk->sk_state_change方法导致的事件),则继续执行我们代码中的handle_events方法,而该方法中又执行了shutdown系统调用,该系统调用又执行sk->sk_state_change方法,告知epoll该socket有事件发生,就这样,我们的代码就陷入了死循环。
为什么我们用ctrl-c关闭ncat客户端,服务端的程序能从死循环中退出呢?
我们知道,当关闭ncat客户端时,其socket会对应发送fin包给服务端,我们看下该fin包的处理流程:
// net/ipv4/tcp_input.c void tcp_fin(struct sock *sk) { ... sk->sk_shutdown |= RCV_SHUTDOWN; sock_set_flag(sk, SOCK_DONE); switch (sk->sk_state) { ... case TCP_FIN_WAIT2: /* Received a FIN -- send ACK and enter TIME_WAIT. */ tcp_send_ack(sk); tcp_time_wait(sk, TCP_TIME_WAIT, 0); break; ... } ... }
因为服务端之前调用过shutdown,所以,执行这个方法时,服务端socket的状态为TCP_FIN_WAIT2。
该方法在调用tcp_send_ack,发送最后一个ack给客户端之后,又调用了tcp_time_wait,使服务端socket进入到TIME_WAIT状态。
// net/ipv4/tcp_minisocks.c void tcp_time_wait(struct sock *sk, int state, int timeo) { ... struct inet_timewait_sock *tw; ... // tw对应的伪socket的状态会被标识为TIME_WAIT tw = inet_twsk_alloc(sk, tcp_death_row, state); if (tw) { ... // 拷贝sk中的各种必要数据到tw ... // 发起TIME_WAIT计时,计时结束后,从内核移除tw对应的伪socket inet_twsk_schedule(tw, timeo); // 将tw对应的伪socket加入到内核中,占用对应的地址,不让后续的bind/connect操作使用 inet_twsk_hashdance(tw, sk, &tcp_hashinfo); ... } else { ... } ... tcp_done(sk); } EXPORT_SYMBOL(tcp_time_wait);
由该方法可见,进入TIME_WAIT的socket并不是我们的socket,而是类型为struct inet_timewait_sock的伪socket,这样做的目的应该是为了减少内存消耗。
该方法又调用了tcp_done:
// net/ipv4/tcp.c void tcp_done(struct sock *sk) { ... tcp_set_state(sk, TCP_CLOSE); ... sk->sk_shutdown = SHUTDOWN_MASK; if (!sock_flag(sk, SOCK_DEAD)) sk->sk_state_change(sk); else ... } EXPORT_SYMBOL_GPL(tcp_done);
由该方法可见,我们socket的状态最终被设置为了TCP_CLOSE。
再回到上面的inet_shutdown方法,我们可以看到,当socket状态为TCP_CLOSE时,err的错误码会被赋值为ENOTCONN并返回给用户。
ENOTCONN对应的值和描述为:
// include/uapi/asm-generic/errno.h #define ENOTCONN 107 /* Transport endpoint is not connected */
由上可见看到,该值正好就是我们程序最后输出的值,这也就解释了,为什么我们ctrl-c关闭ncat客户端后,服务端会跳出死循环,并输出shutdown errno为107。
再梳理下整个流程:
1. 当tcp连接建立后,服务端对应的socket满足EPOLLOUT事件,所以epoll会调用我们程序中的handle_events方法。
2. 在handle_events方法中,我们调用了shutdown系统调用。
3. shutdown系统调用内部又调用了sk->sk_state_change方法,告知epoll该socket又有对应对应的事件发生了。
4. 在handle_events方法结束之后,epoll进入下一次循环,检测到该socket又有事件发生,则继续调用handle_events方法。
5. handle_events方法里又调用了shutdown,shutdown方法里又通知epoll该socket有事件发生,就这样,服务端程序进入死循环。
6. 当我们用ctrl-c关闭ncat客户端时,其会发送一个fin包给服务端的socket。
7. 服务端的socket在收到fin包后,新创建一个类型为struct inet_timewait_sock的伪socket,该socket是用来占用原socket的地址,使后续的connect/bind操作无法使用该地址,并在各种工具的输出中显示该socket状态为TIME_WAIT。
8. 之后,原socket的状态会被设置为TCP_CLOSE。
9. 在我们的死循环流程再一次进入到inet_shutdown方法时,由于检测到该socket的状态为TCP_CLOSE,所以会设置该次操作的错误码为ENOTCONN,并返回给用户。
10. 由于该次shutdown操作有错误码返回,我们的程序会输出该错误码,并调用exit使该进程退出。
至此,整个流程就结束了。
由上可见,在epoll的socket处理逻辑部分,如果使用了shutdown方法,就会造成死循环。
那有什么方法可以避免这种死循环吗?
如果我们只是想单纯的关闭socket,其实用close方法就好了,这个是没有问题的,感兴趣的朋友可以将上面代码中的shutdown注释掉,用下面的close方法,运行后你会发现,不会有死循环发生。
原因是什么呢?
// fs/file_table.c static void __fput(struct file *file) { ... eventpoll_release(file); ... }
由上方法可见,在close系统调用执行的过程中,会调用eventpoll_release方法,自动将该socket从epoll注册中移除,所以也就不会出现上面的死循环了。
阅读源码的能力太重要了,源码可以解决一切问题!