942a0724b1cd50d8727015eee17bcf0cefe8f44b
[openafs.git] / src / rx / LINUX / rx_knet.c
1 /*
2  * Copyright 2000, International Business Machines Corporation and others.
3  * All Rights Reserved.
4  * 
5  * This software has been released under the terms of the IBM Public
6  * License.  For details, see the LICENSE file in the top-level source
7  * directory or online at http://www.openafs.org/dl/license10.html
8  */
9
10 /*
11  * rx_knet.c - RX kernel send, receive and timer routines.
12  *
13  * Linux implementation.
14  */
15 #include <afsconfig.h>
16 #include "afs/param.h"
17
18
19 #include <linux/version.h>
20 #include "rx/rx_kcommon.h"
21 #include <asm/uaccess.h>
22 #ifdef ADAPT_PMTU
23 #include <linux/errqueue.h>
24 #include <linux/icmp.h>
25 #endif
26
27 #include "osi_compat.h"
28
29 /* rxk_NewSocket
30  * open and bind RX socket
31  */
32 osi_socket *
33 rxk_NewSocketHost(afs_uint32 ahost, short aport)
34 {
35     struct socket *sockp;
36     struct sockaddr_in myaddr;
37     int code;
38 #ifdef ADAPT_PMTU
39     int pmtu = IP_PMTUDISC_WANT;
40     int do_recverr = 1;
41 #else
42     int pmtu = IP_PMTUDISC_DONT;
43 #endif
44
45     /* We need a better test for this. if you need it back, tell us
46      * how to detect it. 
47      */
48 #ifdef LINUX_KERNEL_SOCK_CREATE_V
49     code = sock_create(AF_INET, SOCK_DGRAM, IPPROTO_UDP, &sockp, 0);
50 #else
51     code = sock_create(AF_INET, SOCK_DGRAM, IPPROTO_UDP, &sockp);
52 #endif
53     if (code < 0)
54         return NULL;
55
56     /* Bind socket */
57     myaddr.sin_family = AF_INET;
58     myaddr.sin_addr.s_addr = ahost;
59     myaddr.sin_port = aport;
60     code =
61         sockp->ops->bind(sockp, (struct sockaddr *)&myaddr, sizeof(myaddr));
62
63     if (code < 0) {
64         printk("sock_release(rx_socket) FIXME\n");
65         return NULL;
66     }
67
68     kernel_setsockopt(sockp, SOL_IP, IP_MTU_DISCOVER, (char *)&pmtu,
69                       sizeof(pmtu));
70 #ifdef ADAPT_PMTU
71     kernel_setsockopt(sockp, SOL_IP, IP_RECVERR, (char *)&do_recverr,
72                       sizeof(do_recverr));
73 #endif
74     return (osi_socket *)sockp;
75 }
76
77 osi_socket *
78 rxk_NewSocket(short aport)
79 {
80     return rxk_NewSocketHost(htonl(INADDR_ANY), aport);
81 }
82
83 /* free socket allocated by osi_NetSocket */
84 int
85 rxk_FreeSocket(struct socket *asocket)
86 {
87     AFS_STATCNT(osi_FreeSocket);
88     return 0;
89 }
90
91 #ifdef ADAPT_PMTU
92 void
93 handle_socket_error(osi_socket so)
94 {
95     struct msghdr msg;
96     struct cmsghdr *cmsg;
97     struct sock_extended_err *err;
98     struct sockaddr_in addr;
99     struct sockaddr *offender;
100     char *controlmsgbuf;
101     int code;
102     struct socket *sop = (struct socket *)so;
103
104     if (!(controlmsgbuf=rxi_Alloc(256)))
105         return;
106     msg.msg_name = &addr;
107     msg.msg_namelen = sizeof(addr);
108     msg.msg_control = controlmsgbuf;
109     msg.msg_controllen = 256;
110     msg.msg_flags = 0;
111
112     code = kernel_recvmsg(sop, &msg, NULL, 0, 0,
113                           MSG_ERRQUEUE|MSG_DONTWAIT|MSG_TRUNC);
114
115     if (code < 0 || !(msg.msg_flags & MSG_ERRQUEUE))
116         goto out;
117
118     for (cmsg = CMSG_FIRSTHDR(&msg); cmsg; cmsg = CMSG_NXTHDR(&msg, cmsg)) {
119         if (CMSG_OK(&msg, cmsg) && cmsg->cmsg_level == SOL_IP &&
120             cmsg->cmsg_type == IP_RECVERR)
121             break;
122     }
123     if (!cmsg)
124         goto out;
125     err = CMSG_DATA(cmsg);
126     offender = SO_EE_OFFENDER(err);
127     
128     if (offender->sa_family != AF_INET)
129        goto out;
130
131     memcpy(&addr, offender, sizeof(addr));
132
133     if (err->ee_origin == SO_EE_ORIGIN_ICMP &&
134         err->ee_type == ICMP_DEST_UNREACH &&
135         err->ee_code == ICMP_FRAG_NEEDED) {
136         rxi_SetPeerMtu(NULL, ntohl(addr.sin_addr.s_addr), ntohs(addr.sin_port),
137                        err->ee_info);
138     }
139     /* other DEST_UNREACH's and TIME_EXCEEDED should be dealt with too */
140
141 out:
142     rxi_Free(controlmsgbuf, 256);
143     return;
144 }
145 #endif
146
147 /* osi_NetSend
148  *
149  * Return codes:
150  * 0 = success
151  * non-zero = failure
152  */
153 int
154 osi_NetSend(osi_socket sop, struct sockaddr_in *to, struct iovec *iovec,
155             int iovcnt, afs_int32 size, int istack)
156 {
157     struct msghdr msg;
158     int code;
159 #ifdef ADAPT_PMTU
160     int sockerr;
161     int esize;
162
163     while (1) {
164         sockerr=0;
165         esize = sizeof(sockerr);
166         kernel_getsockopt(sop, SOL_SOCKET, SO_ERROR, (char *)&sockerr, &esize);
167         if (sockerr == 0)
168            break;
169         handle_socket_error(sop);
170     }
171 #endif
172
173     msg.msg_name = to;
174     msg.msg_namelen = sizeof(*to);
175     msg.msg_control = NULL;
176     msg.msg_controllen = 0;
177     msg.msg_flags = 0;
178
179     code = kernel_sendmsg(sop, &msg, (struct kvec *) iovec, iovcnt, size);
180     return (code < 0) ? code : 0;
181 }
182
183
184 /* osi_NetReceive
185  * OS dependent part of kernel RX listener thread.
186  *
187  * Arguments:
188  *      so      socket to receive on, typically rx_socket
189  *      from    pointer to a sockaddr_in. 
190  *      iov     array of iovecs to fill in.
191  *      iovcnt  how many iovecs there are.
192  *      lengthp IN/OUT in: total space available in iovecs. out: size of read.
193  *
194  * Return
195  * 0 if successful
196  * error code (such as EINTER) if not
197  *
198  * Environment
199  *      Note that the maximum number of iovecs is 2 + RX_MAXWVECS. This is
200  *      so we have a little space to look for packets larger than 
201  *      rx_maxReceiveSize.
202  */
203 int rxk_lastSocketError;
204 int rxk_nSocketErrors;
205 int
206 osi_NetReceive(osi_socket so, struct sockaddr_in *from, struct iovec *iov,
207                int iovcnt, int *lengthp)
208 {
209     struct msghdr msg;
210     int code;
211 #ifdef ADAPT_PMTU
212     int sockerr;
213     int esize;
214 #endif
215     struct iovec tmpvec[RX_MAXWVECS + 2];
216     struct socket *sop = (struct socket *)so;
217
218     if (iovcnt > RX_MAXWVECS + 2) {
219         osi_Panic("Too many (%d) iovecs passed to osi_NetReceive\n", iovcnt);
220     }
221 #ifdef ADAPT_PMTU
222     while (1) {
223         sockerr=0;
224         esize = sizeof(sockerr);
225         kernel_getsockopt(sop, SOL_SOCKET, SO_ERROR, (char *)&sockerr, &esize);
226         if (sockerr == 0)
227            break;
228         handle_socket_error(so);
229     }
230 #endif
231     memcpy(tmpvec, iov, iovcnt * sizeof(struct iovec));
232     msg.msg_name = from;
233     msg.msg_iov = tmpvec;
234     msg.msg_iovlen = iovcnt;
235     msg.msg_control = NULL;
236     msg.msg_controllen = 0;
237     msg.msg_flags = 0;
238
239     code = kernel_recvmsg(sop, &msg, (struct kvec *)tmpvec, iovcnt,
240                           *lengthp, 0);
241     if (code < 0) {
242         afs_try_to_freeze();
243
244         /* Clear the error before using the socket again.
245          * Oh joy, Linux has hidden header files as well. It appears we can
246          * simply call again and have it clear itself via sock_error().
247          */
248         flush_signals(current); /* We don't want no stinkin' signals. */
249         rxk_lastSocketError = code;
250         rxk_nSocketErrors++;
251     } else {
252         *lengthp = code;
253         code = 0;
254     }
255
256     return code;
257 }
258
259 void
260 osi_StopListener(void)
261 {
262     extern struct task_struct *rxk_ListenerTask;
263
264     while (rxk_ListenerTask) {
265         if (rxk_ListenerTask) {
266             flush_signals(rxk_ListenerTask);
267             force_sig(SIGKILL, rxk_ListenerTask);
268         }
269         if (!rxk_ListenerTask)
270             break;
271         afs_osi_Sleep(&rxk_ListenerTask);
272     }
273     sock_release(rx_socket);
274     rx_socket = NULL;
275 }
276