LINUX: Fix error queue processing
[openafs.git] / src / rx / LINUX / rx_knet.c
1 /*
2  * Copyright 2000, International Business Machines Corporation and others.
3  * All Rights Reserved.
4  * 
5  * This software has been released under the terms of the IBM Public
6  * License.  For details, see the LICENSE file in the top-level source
7  * directory or online at http://www.openafs.org/dl/license10.html
8  */
9
10 /*
11  * rx_knet.c - RX kernel send, receive and timer routines.
12  *
13  * Linux implementation.
14  */
15 #include <afsconfig.h>
16 #include "afs/param.h"
17
18
19 #include <linux/version.h>
20 #include "rx/rx_kcommon.h"
21 #include "rx.h"
22 #include "rx_atomic.h"
23 #include "rx_globals.h"
24 #include "rx_stats.h"
25 #include "rx_peer.h"
26 #include "rx_packet.h"
27 #include "rx_internal.h"
28 #include <asm/uaccess.h>
29 #ifdef AFS_RXERRQ_ENV
30 #include <linux/errqueue.h>
31 #include <linux/icmp.h>
32 #endif
33
34 #include "osi_compat.h"
35
36 /* rxk_NewSocket
37  * open and bind RX socket
38  */
39 osi_socket *
40 rxk_NewSocketHost(afs_uint32 ahost, short aport)
41 {
42     struct socket *sockp;
43     struct sockaddr_in myaddr;
44     int code;
45 #ifdef AFS_ADAPT_PMTU
46     int pmtu = IP_PMTUDISC_WANT;
47 #else
48     int pmtu = IP_PMTUDISC_DONT;
49 #endif
50
51     /* We need a better test for this. if you need it back, tell us
52      * how to detect it. 
53      */
54 #ifdef LINUX_KERNEL_SOCK_CREATE_V
55     code = sock_create(AF_INET, SOCK_DGRAM, IPPROTO_UDP, &sockp, 0);
56 #else
57     code = sock_create(AF_INET, SOCK_DGRAM, IPPROTO_UDP, &sockp);
58 #endif
59     if (code < 0)
60         return NULL;
61
62     /* Bind socket */
63     myaddr.sin_family = AF_INET;
64     myaddr.sin_addr.s_addr = ahost;
65     myaddr.sin_port = aport;
66     code =
67         sockp->ops->bind(sockp, (struct sockaddr *)&myaddr, sizeof(myaddr));
68
69     if (code < 0) {
70         printk("sock_release(rx_socket) FIXME\n");
71         return NULL;
72     }
73
74     kernel_setsockopt(sockp, SOL_IP, IP_MTU_DISCOVER, (char *)&pmtu,
75                       sizeof(pmtu));
76 #ifdef AFS_RXERRQ_ENV
77     {
78         int recverr = 1;
79         kernel_setsockopt(sockp, SOL_IP, IP_RECVERR, (char *)&recverr,
80                           sizeof(recverr));
81     }
82 #endif
83     return (osi_socket *)sockp;
84 }
85
86 osi_socket *
87 rxk_NewSocket(short aport)
88 {
89     return rxk_NewSocketHost(htonl(INADDR_ANY), aport);
90 }
91
92 /* free socket allocated by osi_NetSocket */
93 int
94 rxk_FreeSocket(struct socket *asocket)
95 {
96     AFS_STATCNT(osi_FreeSocket);
97     return 0;
98 }
99
100 #ifdef AFS_RXERRQ_ENV
101 int
102 osi_HandleSocketError(osi_socket so)
103 {
104     int ret = 0;
105     struct msghdr msg;
106     struct cmsghdr *cmsg;
107     struct sock_extended_err *err;
108     struct sockaddr_in addr;
109     struct sockaddr *offender;
110     char *controlmsgbuf = NULL;
111     int code;
112     struct socket *sop = (struct socket *)so;
113
114     if (!(controlmsgbuf = rxi_Alloc(256)))
115         goto out;
116     msg.msg_name = &addr;
117     msg.msg_namelen = sizeof(addr);
118     msg.msg_control = controlmsgbuf;
119     msg.msg_controllen = 256;
120     msg.msg_flags = 0;
121
122     code = kernel_recvmsg(sop, &msg, NULL, 0, 0,
123                           MSG_ERRQUEUE|MSG_DONTWAIT|MSG_TRUNC);
124
125     if (code < 0 || !(msg.msg_flags & MSG_ERRQUEUE))
126         goto out;
127
128     /* kernel_recvmsg changes msg_control to point at the _end_ of the buffer,
129      * and msg_controllen is set to the number of bytes remaining */
130     msg.msg_controllen = ((char*)msg.msg_control - (char*)controlmsgbuf);
131     msg.msg_control = controlmsgbuf;
132
133     for (cmsg = CMSG_FIRSTHDR(&msg); cmsg && CMSG_OK(&msg, cmsg);
134          cmsg = CMSG_NXTHDR(&msg, cmsg)) {
135         if (cmsg->cmsg_level == SOL_IP && cmsg->cmsg_type == IP_RECVERR)
136             break;
137     }
138     if (!cmsg)
139         goto out;
140
141     ret = 1;
142     err = CMSG_DATA(cmsg);
143     offender = SO_EE_OFFENDER(err);
144     
145     if (offender->sa_family != AF_INET)
146        goto out;
147
148     memcpy(&addr, offender, sizeof(addr));
149
150 # ifdef AFS_ADAPT_PMTU
151     if (err->ee_origin == SO_EE_ORIGIN_ICMP &&
152         err->ee_type == ICMP_DEST_UNREACH &&
153         err->ee_code == ICMP_FRAG_NEEDED) {
154         rxi_SetPeerMtu(NULL, ntohl(addr.sin_addr.s_addr), ntohs(addr.sin_port),
155                        err->ee_info);
156     }
157 # endif
158     /* other DEST_UNREACH's and TIME_EXCEEDED should be dealt with too */
159
160  out:
161     if (controlmsgbuf) {
162         rxi_Free(controlmsgbuf, 256);
163     }
164     return ret;
165 }
166 #endif
167
168 /* osi_NetSend
169  *
170  * Return codes:
171  * 0 = success
172  * non-zero = failure
173  */
174 int
175 osi_NetSend(osi_socket sop, struct sockaddr_in *to, struct iovec *iovec,
176             int iovcnt, afs_int32 size, int istack)
177 {
178     struct msghdr msg;
179     int code;
180
181 #ifdef AFS_RXERRQ_ENV
182     while (osi_HandleSocketError(sop))
183         ;
184 #endif
185
186     msg.msg_name = to;
187     msg.msg_namelen = sizeof(*to);
188     msg.msg_control = NULL;
189     msg.msg_controllen = 0;
190     msg.msg_flags = 0;
191
192     code = kernel_sendmsg(sop, &msg, (struct kvec *) iovec, iovcnt, size);
193     return (code < 0) ? code : 0;
194 }
195
196
197 /* osi_NetReceive
198  * OS dependent part of kernel RX listener thread.
199  *
200  * Arguments:
201  *      so      socket to receive on, typically rx_socket
202  *      from    pointer to a sockaddr_in. 
203  *      iov     array of iovecs to fill in.
204  *      iovcnt  how many iovecs there are.
205  *      lengthp IN/OUT in: total space available in iovecs. out: size of read.
206  *
207  * Return
208  * 0 if successful
209  * error code (such as EINTER) if not
210  *
211  * Environment
212  *      Note that the maximum number of iovecs is 2 + RX_MAXWVECS. This is
213  *      so we have a little space to look for packets larger than 
214  *      rx_maxReceiveSize.
215  */
216 int rxk_lastSocketError;
217 int rxk_nSocketErrors;
218 int
219 osi_NetReceive(osi_socket so, struct sockaddr_in *from, struct iovec *iov,
220                int iovcnt, int *lengthp)
221 {
222     struct msghdr msg;
223     int code;
224     struct iovec tmpvec[RX_MAXWVECS + 2];
225     struct socket *sop = (struct socket *)so;
226
227     if (iovcnt > RX_MAXWVECS + 2) {
228         osi_Panic("Too many (%d) iovecs passed to osi_NetReceive\n", iovcnt);
229     }
230
231 #ifdef AFS_RXERRQ_ENV
232     while (osi_HandleSocketError(so))
233         ;
234 #endif
235
236     memcpy(tmpvec, iov, iovcnt * sizeof(struct iovec));
237     msg.msg_name = from;
238     msg.msg_iov = tmpvec;
239     msg.msg_iovlen = iovcnt;
240     msg.msg_control = NULL;
241     msg.msg_controllen = 0;
242     msg.msg_flags = 0;
243
244     code = kernel_recvmsg(sop, &msg, (struct kvec *)tmpvec, iovcnt,
245                           *lengthp, 0);
246     if (code < 0) {
247         afs_try_to_freeze();
248
249         /* Clear the error before using the socket again.
250          * Oh joy, Linux has hidden header files as well. It appears we can
251          * simply call again and have it clear itself via sock_error().
252          */
253         flush_signals(current); /* We don't want no stinkin' signals. */
254         rxk_lastSocketError = code;
255         rxk_nSocketErrors++;
256     } else {
257         *lengthp = code;
258         code = 0;
259     }
260
261     return code;
262 }
263
264 void
265 osi_StopListener(void)
266 {
267     extern struct task_struct *rxk_ListenerTask;
268
269     while (rxk_ListenerTask) {
270         if (rxk_ListenerTask) {
271             flush_signals(rxk_ListenerTask);
272             force_sig(SIGKILL, rxk_ListenerTask);
273         }
274         if (!rxk_ListenerTask)
275             break;
276         afs_osi_Sleep(&rxk_ListenerTask);
277     }
278     sock_release(rx_socket);
279     rx_socket = NULL;
280 }
281