rx: fix mutex leak in error case
[openafs.git] / src / rx / rx.c
1 /*
2  * Copyright 2000, International Business Machines Corporation and others.
3  * All Rights Reserved.
4  *
5  * This software has been released under the terms of the IBM Public
6  * License.  For details, see the LICENSE file in the top-level source
7  * directory or online at http://www.openafs.org/dl/license10.html
8  */
9
10 /* RX:  Extended Remote Procedure Call */
11
12 #include <afsconfig.h>
13 #include <afs/param.h>
14
15 #ifdef KERNEL
16 # include "afs/sysincludes.h"
17 # include "afsincludes.h"
18 # ifndef UKERNEL
19 #  include "h/types.h"
20 #  include "h/time.h"
21 #  include "h/stat.h"
22 #  ifdef AFS_LINUX20_ENV
23 #   include "h/socket.h"
24 #  endif
25 #  include "netinet/in.h"
26 #  ifdef AFS_SUN5_ENV
27 #   include "netinet/ip6.h"
28 #   include "inet/common.h"
29 #   include "inet/ip.h"
30 #   include "inet/ip_ire.h"
31 #  endif
32 #  include "afs/afs_args.h"
33 #  include "afs/afs_osi.h"
34 #  ifdef RX_KERNEL_TRACE
35 #   include "rx_kcommon.h"
36 #  endif
37 #  if   defined(AFS_AIX_ENV)
38 #   include "h/systm.h"
39 #  endif
40 #  ifdef RXDEBUG
41 #   undef RXDEBUG                       /* turn off debugging */
42 #  endif /* RXDEBUG */
43 #  if defined(AFS_SGI_ENV)
44 #   include "sys/debug.h"
45 #  endif
46 # else /* !UKERNEL */
47 #  include "afs/sysincludes.h"
48 #  include "afsincludes.h"
49 # endif /* !UKERNEL */
50 # include "afs/lock.h"
51 # include "rx_kmutex.h"
52 # include "rx_kernel.h"
53 # define        AFSOP_STOP_RXCALLBACK   210     /* Stop CALLBACK process */
54 # define        AFSOP_STOP_AFS          211     /* Stop AFS process */
55 # define        AFSOP_STOP_BKG          212     /* Stop BKG process */
56 extern afs_int32 afs_termState;
57 # ifdef AFS_AIX41_ENV
58 #  include "sys/lockl.h"
59 #  include "sys/lock_def.h"
60 # endif /* AFS_AIX41_ENV */
61 # include "afs/rxgen_consts.h"
62 #else /* KERNEL */
63 # include <roken.h>
64
65 # ifdef AFS_NT40_ENV
66 #  include <afs/afsutil.h>
67 #  include <WINNT\afsreg.h>
68 # endif
69
70 # include <afs/opr.h>
71
72 # include "rx_user.h"
73 #endif /* KERNEL */
74
75 #include <opr/queue.h>
76 #include <hcrypto/rand.h>
77
78 #include "rx.h"
79 #include "rx_clock.h"
80 #include "rx_atomic.h"
81 #include "rx_globals.h"
82 #include "rx_trace.h"
83 #include "rx_internal.h"
84 #include "rx_stats.h"
85 #include "rx_event.h"
86
87 #include "rx_peer.h"
88 #include "rx_conn.h"
89 #include "rx_call.h"
90 #include "rx_packet.h"
91 #include "rx_server.h"
92
93 #include <afs/rxgen_consts.h>
94
95 #ifndef KERNEL
96 #ifdef AFS_PTHREAD_ENV
97 #ifndef AFS_NT40_ENV
98 int (*registerProgram) (pid_t, char *) = 0;
99 int (*swapNameProgram) (pid_t, const char *, char *) = 0;
100 #endif
101 #else
102 int (*registerProgram) (PROCESS, char *) = 0;
103 int (*swapNameProgram) (PROCESS, const char *, char *) = 0;
104 #endif
105 #endif
106
107 /* Local static routines */
108 static void rxi_DestroyConnectionNoLock(struct rx_connection *conn);
109 static void rxi_ComputeRoundTripTime(struct rx_packet *, struct rx_ackPacket *,
110                                      struct rx_call *, struct rx_peer *,
111                                      struct clock *);
112 static void rxi_Resend(struct rxevent *event, void *arg0, void *arg1,
113                        int istack);
114 static void rxi_SendDelayedAck(struct rxevent *event, void *call,
115                                void *dummy, int dummy2);
116 static void rxi_SendDelayedCallAbort(struct rxevent *event, void *arg1,
117                                      void *dummy, int dummy2);
118 static void rxi_SendDelayedConnAbort(struct rxevent *event, void *arg1,
119                                      void *unused, int unused2);
120 static void rxi_ReapConnections(struct rxevent *unused, void *unused1,
121                                 void *unused2, int unused3);
122 static struct rx_packet *rxi_SendCallAbort(struct rx_call *call,
123                                            struct rx_packet *packet,
124                                            int istack, int force);
125 static void rxi_AckAll(struct rx_call *call);
126 static struct rx_connection
127         *rxi_FindConnection(osi_socket socket, afs_uint32 host, u_short port,
128                             u_short serviceId, afs_uint32 cid,
129                             afs_uint32 epoch, int type, u_int securityIndex,
130                             int *unknownService);
131 static struct rx_packet
132         *rxi_ReceiveDataPacket(struct rx_call *call, struct rx_packet *np,
133                                int istack, osi_socket socket,
134                                afs_uint32 host, u_short port, int *tnop,
135                                struct rx_call **newcallp);
136 static struct rx_packet
137         *rxi_ReceiveAckPacket(struct rx_call *call, struct rx_packet *np,
138                               int istack);
139 static struct rx_packet
140         *rxi_ReceiveResponsePacket(struct rx_connection *conn,
141                                    struct rx_packet *np, int istack);
142 static struct rx_packet
143         *rxi_ReceiveChallengePacket(struct rx_connection *conn,
144                                     struct rx_packet *np, int istack);
145 static void rxi_AttachServerProc(struct rx_call *call, osi_socket socket,
146                                  int *tnop, struct rx_call **newcallp);
147 static void rxi_ClearTransmitQueue(struct rx_call *call, int force);
148 static void rxi_ClearReceiveQueue(struct rx_call *call);
149 static void rxi_ResetCall(struct rx_call *call, int newcall);
150 static void rxi_ScheduleKeepAliveEvent(struct rx_call *call);
151 static void rxi_ScheduleNatKeepAliveEvent(struct rx_connection *conn);
152 static void rxi_ScheduleGrowMTUEvent(struct rx_call *call, int secs);
153 static void rxi_KeepAliveOn(struct rx_call *call);
154 static void rxi_GrowMTUOn(struct rx_call *call);
155 static void rxi_ChallengeOn(struct rx_connection *conn);
156 static int rxi_CheckCall(struct rx_call *call, int haveCTLock);
157 static void rxi_AckAllInTransmitQueue(struct rx_call *call);
158 static void rxi_CancelKeepAliveEvent(struct rx_call *call);
159 static void rxi_CancelDelayedAbortEvent(struct rx_call *call);
160 static void rxi_CancelGrowMTUEvent(struct rx_call *call);
161 static void update_nextCid(void);
162
163 #ifdef RX_ENABLE_LOCKS
164 struct rx_tq_debug {
165     rx_atomic_t rxi_start_aborted; /* rxi_start awoke after rxi_Send in error.*/
166     rx_atomic_t rxi_start_in_error;
167 } rx_tq_debug;
168 #endif /* RX_ENABLE_LOCKS */
169
170 /* Constant delay time before sending an acknowledge of the last packet
171  * received.  This is to avoid sending an extra acknowledge when the
172  * client is about to make another call, anyway, or the server is
173  * about to respond.
174  *
175  * The lastAckDelay may not exceeed 400ms without causing peers to
176  * unecessarily timeout.
177  */
178 struct clock rx_lastAckDelay = {0, 400000};
179
180 /* Constant delay time before sending a soft ack when none was requested.
181  * This is to make sure we send soft acks before the sender times out,
182  * Normally we wait and send a hard ack when the receiver consumes the packet
183  *
184  * This value has been 100ms in all shipping versions of OpenAFS. Changing it
185  * will require changes to the peer's RTT calculations.
186  */
187 struct clock rx_softAckDelay = {0, 100000};
188
189 /*
190  * rxi_rpc_peer_stat_cnt counts the total number of peer stat structures
191  * currently allocated within rx.  This number is used to allocate the
192  * memory required to return the statistics when queried.
193  * Protected by the rx_rpc_stats mutex.
194  */
195
196 static unsigned int rxi_rpc_peer_stat_cnt;
197
198 /*
199  * rxi_rpc_process_stat_cnt counts the total number of local process stat
200  * structures currently allocated within rx.  The number is used to allocate
201  * the memory required to return the statistics when queried.
202  * Protected by the rx_rpc_stats mutex.
203  */
204
205 static unsigned int rxi_rpc_process_stat_cnt;
206
207 rx_atomic_t rx_nWaiting = RX_ATOMIC_INIT(0);
208 rx_atomic_t rx_nWaited = RX_ATOMIC_INIT(0);
209
210 /* Incoming calls wait on this queue when there are no available
211  * server processes */
212 struct opr_queue rx_incomingCallQueue;
213
214 /* Server processes wait on this queue when there are no appropriate
215  * calls to process */
216 struct opr_queue rx_idleServerQueue;
217
218 #if !defined(offsetof)
219 #include <stddef.h>             /* for definition of offsetof() */
220 #endif
221
222 #ifdef RX_ENABLE_LOCKS
223 afs_kmutex_t rx_atomic_mutex;
224 #endif
225
226 /* Forward prototypes */
227 static struct rx_call * rxi_NewCall(struct rx_connection *, int);
228
229 static_inline void
230 putConnection (struct rx_connection *conn) {
231     MUTEX_ENTER(&rx_refcnt_mutex);
232     conn->refCount--;
233     MUTEX_EXIT(&rx_refcnt_mutex);
234 }
235
236 #ifdef AFS_PTHREAD_ENV
237
238 /*
239  * Use procedural initialization of mutexes/condition variables
240  * to ease NT porting
241  */
242
243 extern afs_kmutex_t rx_quota_mutex;
244 extern afs_kmutex_t rx_pthread_mutex;
245 extern afs_kmutex_t rx_packets_mutex;
246 extern afs_kmutex_t rx_refcnt_mutex;
247 extern afs_kmutex_t des_init_mutex;
248 extern afs_kmutex_t des_random_mutex;
249 #ifndef KERNEL
250 extern afs_kmutex_t rx_clock_mutex;
251 extern afs_kmutex_t rxi_connCacheMutex;
252 extern afs_kmutex_t event_handler_mutex;
253 extern afs_kmutex_t listener_mutex;
254 extern afs_kmutex_t rx_if_init_mutex;
255 extern afs_kmutex_t rx_if_mutex;
256
257 extern afs_kcondvar_t rx_event_handler_cond;
258 extern afs_kcondvar_t rx_listener_cond;
259 #endif /* !KERNEL */
260
261 static afs_kmutex_t epoch_mutex;
262 static afs_kmutex_t rx_init_mutex;
263 static afs_kmutex_t rx_debug_mutex;
264 static afs_kmutex_t rx_rpc_stats;
265
266 static void
267 rxi_InitPthread(void)
268 {
269     MUTEX_INIT(&rx_quota_mutex, "quota", MUTEX_DEFAULT, 0);
270     MUTEX_INIT(&rx_pthread_mutex, "pthread", MUTEX_DEFAULT, 0);
271     MUTEX_INIT(&rx_packets_mutex, "packets", MUTEX_DEFAULT, 0);
272     MUTEX_INIT(&rx_refcnt_mutex, "refcnts", MUTEX_DEFAULT, 0);
273 #ifndef KERNEL
274     MUTEX_INIT(&rx_clock_mutex, "clock", MUTEX_DEFAULT, 0);
275     MUTEX_INIT(&rxi_connCacheMutex, "conn cache", MUTEX_DEFAULT, 0);
276     MUTEX_INIT(&event_handler_mutex, "event handler", MUTEX_DEFAULT, 0);
277     MUTEX_INIT(&listener_mutex, "listener", MUTEX_DEFAULT, 0);
278     MUTEX_INIT(&rx_if_init_mutex, "if init", MUTEX_DEFAULT, 0);
279     MUTEX_INIT(&rx_if_mutex, "if", MUTEX_DEFAULT, 0);
280 #endif
281     MUTEX_INIT(&rx_stats_mutex, "stats", MUTEX_DEFAULT, 0);
282     MUTEX_INIT(&rx_atomic_mutex, "atomic", MUTEX_DEFAULT, 0);
283     MUTEX_INIT(&epoch_mutex, "epoch", MUTEX_DEFAULT, 0);
284     MUTEX_INIT(&rx_init_mutex, "init", MUTEX_DEFAULT, 0);
285     MUTEX_INIT(&rx_debug_mutex, "debug", MUTEX_DEFAULT, 0);
286
287 #ifndef KERNEL
288     CV_INIT(&rx_event_handler_cond, "evhand", CV_DEFAULT, 0);
289     CV_INIT(&rx_listener_cond, "rxlisten", CV_DEFAULT, 0);
290 #endif
291
292     osi_Assert(pthread_key_create(&rx_thread_id_key, NULL) == 0);
293     osi_Assert(pthread_key_create(&rx_ts_info_key, NULL) == 0);
294
295     MUTEX_INIT(&rx_rpc_stats, "rx_rpc_stats", MUTEX_DEFAULT, 0);
296     MUTEX_INIT(&rx_freePktQ_lock, "rx_freePktQ_lock", MUTEX_DEFAULT, 0);
297     MUTEX_INIT(&rx_mallocedPktQ_lock, "rx_mallocedPktQ_lock", MUTEX_DEFAULT,
298                0);
299
300 #ifdef  RX_ENABLE_LOCKS
301 #ifdef RX_LOCKS_DB
302     rxdb_init();
303 #endif /* RX_LOCKS_DB */
304     MUTEX_INIT(&freeSQEList_lock, "freeSQEList lock", MUTEX_DEFAULT, 0);
305     MUTEX_INIT(&rx_freeCallQueue_lock, "rx_freeCallQueue_lock", MUTEX_DEFAULT,
306                0);
307     CV_INIT(&rx_waitingForPackets_cv, "rx_waitingForPackets_cv", CV_DEFAULT,
308             0);
309     MUTEX_INIT(&rx_peerHashTable_lock, "rx_peerHashTable_lock", MUTEX_DEFAULT,
310                0);
311     MUTEX_INIT(&rx_connHashTable_lock, "rx_connHashTable_lock", MUTEX_DEFAULT,
312                0);
313     MUTEX_INIT(&rx_serverPool_lock, "rx_serverPool_lock", MUTEX_DEFAULT, 0);
314 #ifndef KERNEL
315     MUTEX_INIT(&rxi_keyCreate_lock, "rxi_keyCreate_lock", MUTEX_DEFAULT, 0);
316 #endif
317 #endif /* RX_ENABLE_LOCKS */
318 }
319
320 pthread_once_t rx_once_init = PTHREAD_ONCE_INIT;
321 #define INIT_PTHREAD_LOCKS osi_Assert(pthread_once(&rx_once_init, rxi_InitPthread)==0)
322 /*
323  * The rx_stats_mutex mutex protects the following global variables:
324  * rxi_lowConnRefCount
325  * rxi_lowPeerRefCount
326  * rxi_nCalls
327  * rxi_Alloccnt
328  * rxi_Allocsize
329  * rx_tq_debug
330  * rx_stats
331  */
332
333 /*
334  * The rx_quota_mutex mutex protects the following global variables:
335  * rxi_dataQuota
336  * rxi_minDeficit
337  * rxi_availProcs
338  * rxi_totalMin
339  */
340
341 /*
342  * The rx_freePktQ_lock protects the following global variables:
343  * rx_nFreePackets
344  */
345
346 /*
347  * The rx_packets_mutex mutex protects the following global variables:
348  * rx_nPackets
349  * rx_TSFPQLocalMax
350  * rx_TSFPQGlobSize
351  * rx_TSFPQMaxProcs
352  */
353
354 /*
355  * The rx_pthread_mutex mutex protects the following global variables:
356  * rxi_fcfs_thread_num
357  */
358 #else
359 #define INIT_PTHREAD_LOCKS
360 #endif
361
362
363 /* Variables for handling the minProcs implementation.  availProcs gives the
364  * number of threads available in the pool at this moment (not counting dudes
365  * executing right now).  totalMin gives the total number of procs required
366  * for handling all minProcs requests.  minDeficit is a dynamic variable
367  * tracking the # of procs required to satisfy all of the remaining minProcs
368  * demands.
369  * For fine grain locking to work, the quota check and the reservation of
370  * a server thread has to come while rxi_availProcs and rxi_minDeficit
371  * are locked. To this end, the code has been modified under #ifdef
372  * RX_ENABLE_LOCKS so that quota checks and reservation occur at the
373  * same time. A new function, ReturnToServerPool() returns the allocation.
374  *
375  * A call can be on several queue's (but only one at a time). When
376  * rxi_ResetCall wants to remove the call from a queue, it has to ensure
377  * that no one else is touching the queue. To this end, we store the address
378  * of the queue lock in the call structure (under the call lock) when we
379  * put the call on a queue, and we clear the call_queue_lock when the
380  * call is removed from a queue (once the call lock has been obtained).
381  * This allows rxi_ResetCall to safely synchronize with others wishing
382  * to manipulate the queue.
383  */
384
385 #if defined(RX_ENABLE_LOCKS)
386 static afs_kmutex_t rx_rpc_stats;
387 #endif
388
389 /* We keep a "last conn pointer" in rxi_FindConnection. The odds are
390 ** pretty good that the next packet coming in is from the same connection
391 ** as the last packet, since we're send multiple packets in a transmit window.
392 */
393 struct rx_connection *rxLastConn = 0;
394
395 #ifdef RX_ENABLE_LOCKS
396 /* The locking hierarchy for rx fine grain locking is composed of these
397  * tiers:
398  *
399  * rx_connHashTable_lock - synchronizes conn creation, rx_connHashTable access
400  *                         also protects updates to rx_nextCid
401  * conn_call_lock - used to synchonize rx_EndCall and rx_NewCall
402  * call->lock - locks call data fields.
403  * These are independent of each other:
404  *      rx_freeCallQueue_lock
405  *      rxi_keyCreate_lock
406  * rx_serverPool_lock
407  * freeSQEList_lock
408  *
409  * serverQueueEntry->lock
410  * rx_peerHashTable_lock - locked under rx_connHashTable_lock
411  * rx_rpc_stats
412  * peer->lock - locks peer data fields.
413  * conn_data_lock - that more than one thread is not updating a conn data
414  *                  field at the same time.
415  * rx_freePktQ_lock
416  *
417  * lowest level:
418  *      multi_handle->lock
419  *      rxevent_lock
420  *      rx_packets_mutex
421  *      rx_stats_mutex
422  *      rx_refcnt_mutex
423  *      rx_atomic_mutex
424  *
425  * Do we need a lock to protect the peer field in the conn structure?
426  *      conn->peer was previously a constant for all intents and so has no
427  *      lock protecting this field. The multihomed client delta introduced
428  *      a RX code change : change the peer field in the connection structure
429  *      to that remote interface from which the last packet for this
430  *      connection was sent out. This may become an issue if further changes
431  *      are made.
432  */
433 #define SET_CALL_QUEUE_LOCK(C, L) (C)->call_queue_lock = (L)
434 #define CLEAR_CALL_QUEUE_LOCK(C) (C)->call_queue_lock = NULL
435 #ifdef RX_LOCKS_DB
436 /* rxdb_fileID is used to identify the lock location, along with line#. */
437 static int rxdb_fileID = RXDB_FILE_RX;
438 #endif /* RX_LOCKS_DB */
439 #else /* RX_ENABLE_LOCKS */
440 #define SET_CALL_QUEUE_LOCK(C, L)
441 #define CLEAR_CALL_QUEUE_LOCK(C)
442 #endif /* RX_ENABLE_LOCKS */
443 struct rx_serverQueueEntry *rx_waitForPacket = 0;
444
445 /* ------------Exported Interfaces------------- */
446
447 /* Initialize rx.  A port number may be mentioned, in which case this
448  * becomes the default port number for any service installed later.
449  * If 0 is provided for the port number, a random port will be chosen
450  * by the kernel.  Whether this will ever overlap anything in
451  * /etc/services is anybody's guess...  Returns 0 on success, -1 on
452  * error. */
453 #if !(defined(AFS_NT40_ENV) || defined(RXK_UPCALL_ENV))
454 static
455 #endif
456 rx_atomic_t rxinit_status = RX_ATOMIC_INIT(1);
457
458 int
459 rx_InitHost(u_int host, u_int port)
460 {
461 #ifdef KERNEL
462     osi_timeval_t tv;
463 #else /* KERNEL */
464     struct timeval tv;
465 #endif /* KERNEL */
466     char *htable, *ptable;
467
468     SPLVAR;
469
470     INIT_PTHREAD_LOCKS;
471     if (!rx_atomic_test_and_clear_bit(&rxinit_status, 0))
472         return 0; /* already started */
473
474 #ifdef RXDEBUG
475     rxi_DebugInit();
476 #endif
477 #ifdef AFS_NT40_ENV
478     if (afs_winsockInit() < 0)
479         return -1;
480 #endif
481
482 #ifndef KERNEL
483     /*
484      * Initialize anything necessary to provide a non-premptive threading
485      * environment.
486      */
487     rxi_InitializeThreadSupport();
488 #endif
489
490     /* Allocate and initialize a socket for client and perhaps server
491      * connections. */
492
493     rx_socket = rxi_GetHostUDPSocket(host, (u_short) port);
494     if (rx_socket == OSI_NULLSOCKET) {
495         return RX_ADDRINUSE;
496     }
497 #if defined(RX_ENABLE_LOCKS) && defined(KERNEL)
498 #ifdef RX_LOCKS_DB
499     rxdb_init();
500 #endif /* RX_LOCKS_DB */
501     MUTEX_INIT(&rx_stats_mutex, "rx_stats_mutex", MUTEX_DEFAULT, 0);
502     MUTEX_INIT(&rx_quota_mutex, "rx_quota_mutex", MUTEX_DEFAULT, 0);
503     MUTEX_INIT(&rx_atomic_mutex, "rx_atomic_mutex", MUTEX_DEFAULT, 0);
504     MUTEX_INIT(&rx_pthread_mutex, "rx_pthread_mutex", MUTEX_DEFAULT, 0);
505     MUTEX_INIT(&rx_packets_mutex, "rx_packets_mutex", MUTEX_DEFAULT, 0);
506     MUTEX_INIT(&rx_refcnt_mutex, "rx_refcnt_mutex", MUTEX_DEFAULT, 0);
507     MUTEX_INIT(&rx_rpc_stats, "rx_rpc_stats", MUTEX_DEFAULT, 0);
508     MUTEX_INIT(&rx_freePktQ_lock, "rx_freePktQ_lock", MUTEX_DEFAULT, 0);
509     MUTEX_INIT(&freeSQEList_lock, "freeSQEList lock", MUTEX_DEFAULT, 0);
510     MUTEX_INIT(&rx_freeCallQueue_lock, "rx_freeCallQueue_lock", MUTEX_DEFAULT,
511                0);
512     CV_INIT(&rx_waitingForPackets_cv, "rx_waitingForPackets_cv", CV_DEFAULT,
513             0);
514     MUTEX_INIT(&rx_peerHashTable_lock, "rx_peerHashTable_lock", MUTEX_DEFAULT,
515                0);
516     MUTEX_INIT(&rx_connHashTable_lock, "rx_connHashTable_lock", MUTEX_DEFAULT,
517                0);
518     MUTEX_INIT(&rx_serverPool_lock, "rx_serverPool_lock", MUTEX_DEFAULT, 0);
519     MUTEX_INIT(&rx_mallocedPktQ_lock, "rx_mallocedPktQ_lock", MUTEX_DEFAULT,
520                0);
521
522 #if defined(AFS_HPUX110_ENV)
523     if (!uniprocessor)
524         rx_sleepLock = alloc_spinlock(LAST_HELD_ORDER - 10, "rx_sleepLock");
525 #endif /* AFS_HPUX110_ENV */
526 #endif /* RX_ENABLE_LOCKS && KERNEL */
527
528     rxi_nCalls = 0;
529     rx_connDeadTime = 12;
530     rx_tranquil = 0;            /* reset flag */
531     rxi_ResetStatistics();
532     htable = osi_Alloc(rx_hashTableSize * sizeof(struct rx_connection *));
533     PIN(htable, rx_hashTableSize * sizeof(struct rx_connection *));     /* XXXXX */
534     memset(htable, 0, rx_hashTableSize * sizeof(struct rx_connection *));
535     ptable = osi_Alloc(rx_hashTableSize * sizeof(struct rx_peer *));
536     PIN(ptable, rx_hashTableSize * sizeof(struct rx_peer *));   /* XXXXX */
537     memset(ptable, 0, rx_hashTableSize * sizeof(struct rx_peer *));
538
539     /* Malloc up a bunch of packets & buffers */
540     rx_nFreePackets = 0;
541     opr_queue_Init(&rx_freePacketQueue);
542     rxi_NeedMorePackets = FALSE;
543     rx_nPackets = 0;    /* rx_nPackets is managed by rxi_MorePackets* */
544     opr_queue_Init(&rx_mallocedPacketQueue);
545
546     /* enforce a minimum number of allocated packets */
547     if (rx_extraPackets < rxi_nSendFrags * rx_maxSendWindow)
548         rx_extraPackets = rxi_nSendFrags * rx_maxSendWindow;
549
550     /* allocate the initial free packet pool */
551 #ifdef RX_ENABLE_TSFPQ
552     rxi_MorePacketsTSFPQ(rx_extraPackets + RX_MAX_QUOTA + 2, RX_TS_FPQ_FLUSH_GLOBAL, 0);
553 #else /* RX_ENABLE_TSFPQ */
554     rxi_MorePackets(rx_extraPackets + RX_MAX_QUOTA + 2);        /* fudge */
555 #endif /* RX_ENABLE_TSFPQ */
556     rx_CheckPackets();
557
558     NETPRI;
559
560     clock_Init();
561
562 #if defined(AFS_NT40_ENV) && !defined(AFS_PTHREAD_ENV)
563     tv.tv_sec = clock_now.sec;
564     tv.tv_usec = clock_now.usec;
565     srand((unsigned int)tv.tv_usec);
566 #else
567     osi_GetTime(&tv);
568 #endif
569     if (port) {
570         rx_port = port;
571     } else {
572 #if defined(KERNEL) && !defined(UKERNEL)
573         /* Really, this should never happen in a real kernel */
574         rx_port = 0;
575 #else
576         struct sockaddr_in addr;
577 #ifdef AFS_NT40_ENV
578         int addrlen = sizeof(addr);
579 #else
580         socklen_t addrlen = sizeof(addr);
581 #endif
582         if (getsockname((intptr_t)rx_socket, (struct sockaddr *)&addr, &addrlen)) {
583             rx_Finalize();
584             osi_Free(htable, rx_hashTableSize * sizeof(struct rx_connection *));
585             return -1;
586         }
587         rx_port = addr.sin_port;
588 #endif
589     }
590     rx_stats.minRtt.sec = 9999999;
591     if (RAND_bytes(&rx_epoch, sizeof(rx_epoch)) != 1)
592         return -1;
593     rx_epoch  = (rx_epoch & ~0x40000000) | 0x80000000;
594     if (RAND_bytes(&rx_nextCid, sizeof(rx_nextCid)) != 1)
595         return -1;
596     rx_nextCid &= RX_CIDMASK;
597     MUTEX_ENTER(&rx_quota_mutex);
598     rxi_dataQuota += rx_extraQuota; /* + extra pkts caller asked to rsrv */
599     MUTEX_EXIT(&rx_quota_mutex);
600     /* *Slightly* random start time for the cid.  This is just to help
601      * out with the hashing function at the peer */
602     rx_nextCid = ((tv.tv_sec ^ tv.tv_usec) << RX_CIDSHIFT);
603     rx_connHashTable = (struct rx_connection **)htable;
604     rx_peerHashTable = (struct rx_peer **)ptable;
605
606     rx_hardAckDelay.sec = 0;
607     rx_hardAckDelay.usec = 100000;      /* 100 milliseconds */
608
609     rxevent_Init(20, rxi_ReScheduleEvents);
610
611     /* Initialize various global queues */
612     opr_queue_Init(&rx_idleServerQueue);
613     opr_queue_Init(&rx_incomingCallQueue);
614     opr_queue_Init(&rx_freeCallQueue);
615
616 #if defined(AFS_NT40_ENV) && !defined(KERNEL)
617     /* Initialize our list of usable IP addresses. */
618     rx_GetIFInfo();
619 #endif
620
621     /* Start listener process (exact function is dependent on the
622      * implementation environment--kernel or user space) */
623     rxi_StartListener();
624
625     USERPRI;
626     rx_atomic_clear_bit(&rxinit_status, 0);
627     return 0;
628 }
629
630 int
631 rx_Init(u_int port)
632 {
633     return rx_InitHost(htonl(INADDR_ANY), port);
634 }
635
636 /* RTT Timer
637  * ---------
638  *
639  * The rxi_rto functions implement a TCP (RFC2988) style algorithm for
640  * maintaing the round trip timer.
641  *
642  */
643
644 /*!
645  * Start a new RTT timer for a given call and packet.
646  *
647  * There must be no resendEvent already listed for this call, otherwise this
648  * will leak events - intended for internal use within the RTO code only
649  *
650  * @param[in] call
651  *      the RX call to start the timer for
652  * @param[in] lastPacket
653  *      a flag indicating whether the last packet has been sent or not
654  *
655  * @pre call must be locked before calling this function
656  *
657  */
658 static_inline void
659 rxi_rto_startTimer(struct rx_call *call, int lastPacket, int istack)
660 {
661     struct clock now, retryTime;
662
663     MUTEX_ASSERT(&call->lock);
664     clock_GetTime(&now);
665     retryTime = now;
666
667     clock_Add(&retryTime, &call->rto);
668
669     /* If we're sending the last packet, and we're the client, then the server
670      * may wait for an additional 400ms before returning the ACK, wait for it
671      * rather than hitting a timeout */
672     if (lastPacket && call->conn->type == RX_CLIENT_CONNECTION)
673         clock_Addmsec(&retryTime, 400);
674
675     CALL_HOLD(call, RX_CALL_REFCOUNT_RESEND);
676     call->resendEvent = rxevent_Post(&retryTime, &now, rxi_Resend,
677                                      call, NULL, istack);
678 }
679
680 /*!
681  * Cancel an RTT timer for a given call.
682  *
683  *
684  * @param[in] call
685  *      the RX call to cancel the timer for
686  *
687  * @pre call must be locked before calling this function
688  *
689  */
690
691 static_inline void
692 rxi_rto_cancel(struct rx_call *call)
693 {
694     MUTEX_ASSERT(&call->lock);
695     if (rxevent_Cancel(&call->resendEvent))
696         CALL_RELE(call, RX_CALL_REFCOUNT_RESEND);
697 }
698
699 /*!
700  * Tell the RTO timer that we have sent a packet.
701  *
702  * If the timer isn't already running, then start it. If the timer is running,
703  * then do nothing.
704  *
705  * @param[in] call
706  *      the RX call that the packet has been sent on
707  * @param[in] lastPacket
708  *      A flag which is true if this is the last packet for the call
709  *
710  * @pre The call must be locked before calling this function
711  *
712  */
713
714 static_inline void
715 rxi_rto_packet_sent(struct rx_call *call, int lastPacket, int istack)
716 {
717     if (call->resendEvent)
718         return;
719
720     rxi_rto_startTimer(call, lastPacket, istack);
721 }
722
723 /*!
724  * Tell the RTO timer that we have received an new ACK message
725  *
726  * This function should be called whenever a call receives an ACK that
727  * acknowledges new packets. Whatever happens, we stop the current timer.
728  * If there are unacked packets in the queue which have been sent, then
729  * we restart the timer from now. Otherwise, we leave it stopped.
730  *
731  * @param[in] call
732  *      the RX call that the ACK has been received on
733  */
734
735 static_inline void
736 rxi_rto_packet_acked(struct rx_call *call, int istack)
737 {
738     struct opr_queue *cursor;
739
740     rxi_rto_cancel(call);
741
742     if (opr_queue_IsEmpty(&call->tq))
743         return;
744
745     for (opr_queue_Scan(&call->tq, cursor)) {
746         struct rx_packet *p = opr_queue_Entry(cursor, struct rx_packet, entry);
747         if (p->header.seq > call->tfirst + call->twind)
748             return;
749
750         if (!(p->flags & RX_PKTFLAG_ACKED) && p->flags & RX_PKTFLAG_SENT) {
751             rxi_rto_startTimer(call, p->header.flags & RX_LAST_PACKET, istack);
752             return;
753         }
754     }
755 }
756
757
758 /**
759  * Set an initial round trip timeout for a peer connection
760  *
761  * @param[in] secs The timeout to set in seconds
762  */
763
764 void
765 rx_rto_setPeerTimeoutSecs(struct rx_peer *peer, int secs) {
766     peer->rtt = secs * 8000;
767 }
768
769 /**
770  * Set a delayed ack event on the specified call for the given time
771  *
772  * @param[in] call - the call on which to set the event
773  * @param[in] offset - the delay from now after which the event fires
774  */
775 void
776 rxi_PostDelayedAckEvent(struct rx_call *call, struct clock *offset)
777 {
778     struct clock now, when;
779
780     MUTEX_ASSERT(&call->lock);
781     clock_GetTime(&now);
782     when = now;
783     clock_Add(&when, offset);
784
785     if (clock_Gt(&call->delayedAckTime, &when) &&
786         rxevent_Cancel(&call->delayedAckEvent)) {
787         /* We successfully cancelled an event too far in the future to install
788          * our new one; we can reuse the reference on the call. */
789         call->delayedAckEvent = rxevent_Post(&when, &now, rxi_SendDelayedAck,
790                                              call, NULL, 0);
791
792         call->delayedAckTime = when;
793     } else if (call->delayedAckEvent == NULL) {
794         CALL_HOLD(call, RX_CALL_REFCOUNT_DELAY);
795         call->delayedAckEvent = rxevent_Post(&when, &now,
796                                              rxi_SendDelayedAck,
797                                              call, NULL, 0);
798         call->delayedAckTime = when;
799     }
800 }
801
802 void
803 rxi_CancelDelayedAckEvent(struct rx_call *call)
804 {
805     MUTEX_ASSERT(&call->lock);
806     /* Only drop the ref if we cancelled it before it could run. */
807     if (rxevent_Cancel(&call->delayedAckEvent))
808         CALL_RELE(call, RX_CALL_REFCOUNT_DELAY);
809 }
810
811 /* called with unincremented nRequestsRunning to see if it is OK to start
812  * a new thread in this service.  Could be "no" for two reasons: over the
813  * max quota, or would prevent others from reaching their min quota.
814  */
815 #ifdef RX_ENABLE_LOCKS
816 /* This verion of QuotaOK reserves quota if it's ok while the
817  * rx_serverPool_lock is held.  Return quota using ReturnToServerPool().
818  */
819 static int
820 QuotaOK(struct rx_service *aservice)
821 {
822     /* check if over max quota */
823     if (aservice->nRequestsRunning >= aservice->maxProcs) {
824         return 0;
825     }
826
827     /* under min quota, we're OK */
828     /* otherwise, can use only if there are enough to allow everyone
829      * to go to their min quota after this guy starts.
830      */
831
832     MUTEX_ENTER(&rx_quota_mutex);
833     if ((aservice->nRequestsRunning < aservice->minProcs)
834         || (rxi_availProcs > rxi_minDeficit)) {
835         aservice->nRequestsRunning++;
836         /* just started call in minProcs pool, need fewer to maintain
837          * guarantee */
838         if (aservice->nRequestsRunning <= aservice->minProcs)
839             rxi_minDeficit--;
840         rxi_availProcs--;
841         MUTEX_EXIT(&rx_quota_mutex);
842         return 1;
843     }
844     MUTEX_EXIT(&rx_quota_mutex);
845
846     return 0;
847 }
848
849 static void
850 ReturnToServerPool(struct rx_service *aservice)
851 {
852     aservice->nRequestsRunning--;
853     MUTEX_ENTER(&rx_quota_mutex);
854     if (aservice->nRequestsRunning < aservice->minProcs)
855         rxi_minDeficit++;
856     rxi_availProcs++;
857     MUTEX_EXIT(&rx_quota_mutex);
858 }
859
860 #else /* RX_ENABLE_LOCKS */
861 static int
862 QuotaOK(struct rx_service *aservice)
863 {
864     int rc = 0;
865     /* under min quota, we're OK */
866     if (aservice->nRequestsRunning < aservice->minProcs)
867         return 1;
868
869     /* check if over max quota */
870     if (aservice->nRequestsRunning >= aservice->maxProcs)
871         return 0;
872
873     /* otherwise, can use only if there are enough to allow everyone
874      * to go to their min quota after this guy starts.
875      */
876     MUTEX_ENTER(&rx_quota_mutex);
877     if (rxi_availProcs > rxi_minDeficit)
878         rc = 1;
879     MUTEX_EXIT(&rx_quota_mutex);
880     return rc;
881 }
882 #endif /* RX_ENABLE_LOCKS */
883
884 #ifndef KERNEL
885 /* Called by rx_StartServer to start up lwp's to service calls.
886    NExistingProcs gives the number of procs already existing, and which
887    therefore needn't be created. */
888 static void
889 rxi_StartServerProcs(int nExistingProcs)
890 {
891     struct rx_service *service;
892     int i;
893     int maxdiff = 0;
894     int nProcs = 0;
895
896     /* For each service, reserve N processes, where N is the "minimum"
897      * number of processes that MUST be able to execute a request in parallel,
898      * at any time, for that process.  Also compute the maximum difference
899      * between any service's maximum number of processes that can run
900      * (i.e. the maximum number that ever will be run, and a guarantee
901      * that this number will run if other services aren't running), and its
902      * minimum number.  The result is the extra number of processes that
903      * we need in order to provide the latter guarantee */
904     for (i = 0; i < RX_MAX_SERVICES; i++) {
905         int diff;
906         service = rx_services[i];
907         if (service == (struct rx_service *)0)
908             break;
909         nProcs += service->minProcs;
910         diff = service->maxProcs - service->minProcs;
911         if (diff > maxdiff)
912             maxdiff = diff;
913     }
914     nProcs += maxdiff;          /* Extra processes needed to allow max number requested to run in any given service, under good conditions */
915     nProcs -= nExistingProcs;   /* Subtract the number of procs that were previously created for use as server procs */
916     for (i = 0; i < nProcs; i++) {
917         rxi_StartServerProc(rx_ServerProc, rx_stackSize);
918     }
919 }
920 #endif /* KERNEL */
921
922 #ifdef AFS_NT40_ENV
923 /* This routine is only required on Windows */
924 void
925 rx_StartClientThread(void)
926 {
927 #ifdef AFS_PTHREAD_ENV
928     pthread_t pid;
929     pid = pthread_self();
930 #endif /* AFS_PTHREAD_ENV */
931 }
932 #endif /* AFS_NT40_ENV */
933
934 /* This routine must be called if any services are exported.  If the
935  * donateMe flag is set, the calling process is donated to the server
936  * process pool */
937 void
938 rx_StartServer(int donateMe)
939 {
940     struct rx_service *service;
941     int i;
942     SPLVAR;
943     clock_NewTime();
944
945     NETPRI;
946     /* Start server processes, if necessary (exact function is dependent
947      * on the implementation environment--kernel or user space).  DonateMe
948      * will be 1 if there is 1 pre-existing proc, i.e. this one.  In this
949      * case, one less new proc will be created rx_StartServerProcs.
950      */
951     rxi_StartServerProcs(donateMe);
952
953     /* count up the # of threads in minProcs, and add set the min deficit to
954      * be that value, too.
955      */
956     for (i = 0; i < RX_MAX_SERVICES; i++) {
957         service = rx_services[i];
958         if (service == (struct rx_service *)0)
959             break;
960         MUTEX_ENTER(&rx_quota_mutex);
961         rxi_totalMin += service->minProcs;
962         /* below works even if a thread is running, since minDeficit would
963          * still have been decremented and later re-incremented.
964          */
965         rxi_minDeficit += service->minProcs;
966         MUTEX_EXIT(&rx_quota_mutex);
967     }
968
969     /* Turn on reaping of idle server connections */
970     rxi_ReapConnections(NULL, NULL, NULL, 0);
971
972     USERPRI;
973
974     if (donateMe) {
975 #ifndef AFS_NT40_ENV
976 #ifndef KERNEL
977         char name[32];
978         static int nProcs;
979 #ifdef AFS_PTHREAD_ENV
980         pid_t pid;
981         pid = afs_pointer_to_int(pthread_self());
982 #else /* AFS_PTHREAD_ENV */
983         PROCESS pid;
984         LWP_CurrentProcess(&pid);
985 #endif /* AFS_PTHREAD_ENV */
986
987         sprintf(name, "srv_%d", ++nProcs);
988         if (registerProgram)
989             (*registerProgram) (pid, name);
990 #endif /* KERNEL */
991 #endif /* AFS_NT40_ENV */
992         rx_ServerProc(NULL);    /* Never returns */
993     }
994 #ifdef RX_ENABLE_TSFPQ
995     /* no use leaving packets around in this thread's local queue if
996      * it isn't getting donated to the server thread pool.
997      */
998     rxi_FlushLocalPacketsTSFPQ();
999 #endif /* RX_ENABLE_TSFPQ */
1000     return;
1001 }
1002
1003 /* Create a new client connection to the specified service, using the
1004  * specified security object to implement the security model for this
1005  * connection. */
1006 struct rx_connection *
1007 rx_NewConnection(afs_uint32 shost, u_short sport, u_short sservice,
1008                  struct rx_securityClass *securityObject,
1009                  int serviceSecurityIndex)
1010 {
1011     int hashindex, i;
1012     struct rx_connection *conn;
1013
1014     SPLVAR;
1015
1016     clock_NewTime();
1017     dpf(("rx_NewConnection(host %x, port %u, service %u, securityObject %p, "
1018          "serviceSecurityIndex %d)\n",
1019          ntohl(shost), ntohs(sport), sservice, securityObject,
1020          serviceSecurityIndex));
1021
1022     /* Vasilsi said: "NETPRI protects Cid and Alloc", but can this be true in
1023      * the case of kmem_alloc? */
1024     conn = rxi_AllocConnection();
1025 #ifdef  RX_ENABLE_LOCKS
1026     MUTEX_INIT(&conn->conn_call_lock, "conn call lock", MUTEX_DEFAULT, 0);
1027     MUTEX_INIT(&conn->conn_data_lock, "conn data lock", MUTEX_DEFAULT, 0);
1028     CV_INIT(&conn->conn_call_cv, "conn call cv", CV_DEFAULT, 0);
1029 #endif
1030     NETPRI;
1031     MUTEX_ENTER(&rx_connHashTable_lock);
1032     conn->type = RX_CLIENT_CONNECTION;
1033     conn->epoch = rx_epoch;
1034     conn->cid = rx_nextCid;
1035     update_nextCid();
1036     conn->peer = rxi_FindPeer(shost, sport, 1);
1037     conn->serviceId = sservice;
1038     conn->securityObject = securityObject;
1039     conn->securityData = (void *) 0;
1040     conn->securityIndex = serviceSecurityIndex;
1041     rx_SetConnDeadTime(conn, rx_connDeadTime);
1042     rx_SetConnSecondsUntilNatPing(conn, 0);
1043     conn->ackRate = RX_FAST_ACK_RATE;
1044     conn->nSpecific = 0;
1045     conn->specific = NULL;
1046     conn->challengeEvent = NULL;
1047     conn->delayedAbortEvent = NULL;
1048     conn->abortCount = 0;
1049     conn->error = 0;
1050     for (i = 0; i < RX_MAXCALLS; i++) {
1051         conn->twind[i] = rx_initSendWindow;
1052         conn->rwind[i] = rx_initReceiveWindow;
1053         conn->lastBusy[i] = 0;
1054     }
1055
1056     RXS_NewConnection(securityObject, conn);
1057     hashindex =
1058         CONN_HASH(shost, sport, conn->cid, conn->epoch, RX_CLIENT_CONNECTION);
1059
1060     conn->refCount++;           /* no lock required since only this thread knows... */
1061     conn->next = rx_connHashTable[hashindex];
1062     rx_connHashTable[hashindex] = conn;
1063     if (rx_stats_active)
1064         rx_atomic_inc(&rx_stats.nClientConns);
1065     MUTEX_EXIT(&rx_connHashTable_lock);
1066     USERPRI;
1067     return conn;
1068 }
1069
1070 /**
1071  * Ensure a connection's timeout values are valid.
1072  *
1073  * @param[in] conn The connection to check
1074  *
1075  * @post conn->secondUntilDead <= conn->idleDeadTime <= conn->hardDeadTime,
1076  *       unless idleDeadTime and/or hardDeadTime are not set
1077  * @internal
1078  */
1079 static void
1080 rxi_CheckConnTimeouts(struct rx_connection *conn)
1081 {
1082     /* a connection's timeouts must have the relationship
1083      * deadTime <= idleDeadTime <= hardDeadTime. Otherwise, for example, a
1084      * total loss of network to a peer may cause an idle timeout instead of a
1085      * dead timeout, simply because the idle timeout gets hit first. Also set
1086      * a minimum deadTime of 6, just to ensure it doesn't get set too low. */
1087     /* this logic is slightly complicated by the fact that
1088      * idleDeadTime/hardDeadTime may not be set at all, but it's not too bad.
1089      */
1090     conn->secondsUntilDead = MAX(conn->secondsUntilDead, 6);
1091     if (conn->idleDeadTime) {
1092         conn->idleDeadTime = MAX(conn->idleDeadTime, conn->secondsUntilDead);
1093     }
1094     if (conn->hardDeadTime) {
1095         if (conn->idleDeadTime) {
1096             conn->hardDeadTime = MAX(conn->idleDeadTime, conn->hardDeadTime);
1097         } else {
1098             conn->hardDeadTime = MAX(conn->secondsUntilDead, conn->hardDeadTime);
1099         }
1100     }
1101 }
1102
1103 void
1104 rx_SetConnDeadTime(struct rx_connection *conn, int seconds)
1105 {
1106     /* The idea is to set the dead time to a value that allows several
1107      * keepalives to be dropped without timing out the connection. */
1108     conn->secondsUntilDead = seconds;
1109     rxi_CheckConnTimeouts(conn);
1110     conn->secondsUntilPing = conn->secondsUntilDead / 6;
1111 }
1112
1113 void
1114 rx_SetConnHardDeadTime(struct rx_connection *conn, int seconds)
1115 {
1116     conn->hardDeadTime = seconds;
1117     rxi_CheckConnTimeouts(conn);
1118 }
1119
1120 void
1121 rx_SetConnIdleDeadTime(struct rx_connection *conn, int seconds)
1122 {
1123     conn->idleDeadTime = seconds;
1124     rxi_CheckConnTimeouts(conn);
1125 }
1126
1127 int rxi_lowPeerRefCount = 0;
1128 int rxi_lowConnRefCount = 0;
1129
1130 /*
1131  * Cleanup a connection that was destroyed in rxi_DestroyConnectioNoLock.
1132  * NOTE: must not be called with rx_connHashTable_lock held.
1133  */
1134 static void
1135 rxi_CleanupConnection(struct rx_connection *conn)
1136 {
1137     /* Notify the service exporter, if requested, that this connection
1138      * is being destroyed */
1139     if (conn->type == RX_SERVER_CONNECTION && conn->service->destroyConnProc)
1140         (*conn->service->destroyConnProc) (conn);
1141
1142     /* Notify the security module that this connection is being destroyed */
1143     RXS_DestroyConnection(conn->securityObject, conn);
1144
1145     /* If this is the last connection using the rx_peer struct, set its
1146      * idle time to now. rxi_ReapConnections will reap it if it's still
1147      * idle (refCount == 0) after rx_idlePeerTime (60 seconds) have passed.
1148      */
1149     MUTEX_ENTER(&rx_peerHashTable_lock);
1150     if (conn->peer->refCount < 2) {
1151         conn->peer->idleWhen = clock_Sec();
1152         if (conn->peer->refCount < 1) {
1153             conn->peer->refCount = 1;
1154             if (rx_stats_active) {
1155                 MUTEX_ENTER(&rx_stats_mutex);
1156                 rxi_lowPeerRefCount++;
1157                 MUTEX_EXIT(&rx_stats_mutex);
1158             }
1159         }
1160     }
1161     conn->peer->refCount--;
1162     MUTEX_EXIT(&rx_peerHashTable_lock);
1163
1164     if (rx_stats_active)
1165     {
1166         if (conn->type == RX_SERVER_CONNECTION)
1167             rx_atomic_dec(&rx_stats.nServerConns);
1168         else
1169             rx_atomic_dec(&rx_stats.nClientConns);
1170     }
1171 #ifndef KERNEL
1172     if (conn->specific) {
1173         int i;
1174         for (i = 0; i < conn->nSpecific; i++) {
1175             if (conn->specific[i] && rxi_keyCreate_destructor[i])
1176                 (*rxi_keyCreate_destructor[i]) (conn->specific[i]);
1177             conn->specific[i] = NULL;
1178         }
1179         free(conn->specific);
1180     }
1181     conn->specific = NULL;
1182     conn->nSpecific = 0;
1183 #endif /* !KERNEL */
1184
1185     MUTEX_DESTROY(&conn->conn_call_lock);
1186     MUTEX_DESTROY(&conn->conn_data_lock);
1187     CV_DESTROY(&conn->conn_call_cv);
1188
1189     rxi_FreeConnection(conn);
1190 }
1191
1192 /* Destroy the specified connection */
1193 void
1194 rxi_DestroyConnection(struct rx_connection *conn)
1195 {
1196     MUTEX_ENTER(&rx_connHashTable_lock);
1197     rxi_DestroyConnectionNoLock(conn);
1198     /* conn should be at the head of the cleanup list */
1199     if (conn == rx_connCleanup_list) {
1200         rx_connCleanup_list = rx_connCleanup_list->next;
1201         MUTEX_EXIT(&rx_connHashTable_lock);
1202         rxi_CleanupConnection(conn);
1203     }
1204 #ifdef RX_ENABLE_LOCKS
1205     else {
1206         MUTEX_EXIT(&rx_connHashTable_lock);
1207     }
1208 #endif /* RX_ENABLE_LOCKS */
1209 }
1210
1211 static void
1212 rxi_DestroyConnectionNoLock(struct rx_connection *conn)
1213 {
1214     struct rx_connection **conn_ptr;
1215     int havecalls = 0;
1216     int i;
1217     SPLVAR;
1218
1219     clock_NewTime();
1220
1221     NETPRI;
1222     MUTEX_ENTER(&conn->conn_data_lock);
1223     MUTEX_ENTER(&rx_refcnt_mutex);
1224     if (conn->refCount > 0)
1225         conn->refCount--;
1226     else {
1227 #ifdef RX_REFCOUNT_CHECK
1228         osi_Assert(conn->refCount == 0);
1229 #endif
1230         if (rx_stats_active) {
1231             MUTEX_ENTER(&rx_stats_mutex);
1232             rxi_lowConnRefCount++;
1233             MUTEX_EXIT(&rx_stats_mutex);
1234         }
1235     }
1236
1237     if ((conn->refCount > 0) || (conn->flags & RX_CONN_BUSY)) {
1238         /* Busy; wait till the last guy before proceeding */
1239         MUTEX_EXIT(&rx_refcnt_mutex);
1240         MUTEX_EXIT(&conn->conn_data_lock);
1241         USERPRI;
1242         return;
1243     }
1244
1245     /* If the client previously called rx_NewCall, but it is still
1246      * waiting, treat this as a running call, and wait to destroy the
1247      * connection later when the call completes. */
1248     if ((conn->type == RX_CLIENT_CONNECTION)
1249         && (conn->flags & (RX_CONN_MAKECALL_WAITING|RX_CONN_MAKECALL_ACTIVE))) {
1250         conn->flags |= RX_CONN_DESTROY_ME;
1251         MUTEX_EXIT(&rx_refcnt_mutex);
1252         MUTEX_EXIT(&conn->conn_data_lock);
1253         USERPRI;
1254         return;
1255     }
1256     MUTEX_EXIT(&rx_refcnt_mutex);
1257     MUTEX_EXIT(&conn->conn_data_lock);
1258
1259     /* Check for extant references to this connection */
1260     MUTEX_ENTER(&conn->conn_call_lock);
1261     for (i = 0; i < RX_MAXCALLS; i++) {
1262         struct rx_call *call = conn->call[i];
1263         if (call) {
1264             havecalls = 1;
1265             if (conn->type == RX_CLIENT_CONNECTION) {
1266                 MUTEX_ENTER(&call->lock);
1267                 if (call->delayedAckEvent) {
1268                     /* Push the final acknowledgment out now--there
1269                      * won't be a subsequent call to acknowledge the
1270                      * last reply packets */
1271                     rxi_CancelDelayedAckEvent(call);
1272                     if (call->state == RX_STATE_PRECALL
1273                         || call->state == RX_STATE_ACTIVE) {
1274                         rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
1275                     } else {
1276                         rxi_AckAll(call);
1277                     }
1278                 }
1279                 MUTEX_EXIT(&call->lock);
1280             }
1281         }
1282     }
1283     MUTEX_EXIT(&conn->conn_call_lock);
1284
1285 #ifdef RX_ENABLE_LOCKS
1286     if (!havecalls) {
1287         if (MUTEX_TRYENTER(&conn->conn_data_lock)) {
1288             MUTEX_EXIT(&conn->conn_data_lock);
1289         } else {
1290             /* Someone is accessing a packet right now. */
1291             havecalls = 1;
1292         }
1293     }
1294 #endif /* RX_ENABLE_LOCKS */
1295
1296     if (havecalls) {
1297         /* Don't destroy the connection if there are any call
1298          * structures still in use */
1299         MUTEX_ENTER(&conn->conn_data_lock);
1300         conn->flags |= RX_CONN_DESTROY_ME;
1301         MUTEX_EXIT(&conn->conn_data_lock);
1302         USERPRI;
1303         return;
1304     }
1305
1306     /* Remove from connection hash table before proceeding */
1307     conn_ptr =
1308         &rx_connHashTable[CONN_HASH
1309                           (peer->host, peer->port, conn->cid, conn->epoch,
1310                            conn->type)];
1311     for (; *conn_ptr; conn_ptr = &(*conn_ptr)->next) {
1312         if (*conn_ptr == conn) {
1313             *conn_ptr = conn->next;
1314             break;
1315         }
1316     }
1317     /* if the conn that we are destroying was the last connection, then we
1318      * clear rxLastConn as well */
1319     if (rxLastConn == conn)
1320         rxLastConn = 0;
1321
1322     /* Make sure the connection is completely reset before deleting it. */
1323     /*
1324      * Pending events hold a refcount, so we can't get here if they are
1325      * non-NULL. */
1326     osi_Assert(conn->challengeEvent == NULL);
1327     osi_Assert(conn->delayedAbortEvent == NULL);
1328     osi_Assert(conn->natKeepAliveEvent == NULL);
1329     osi_Assert(conn->checkReachEvent == NULL);
1330
1331     /* Add the connection to the list of destroyed connections that
1332      * need to be cleaned up. This is necessary to avoid deadlocks
1333      * in the routines we call to inform others that this connection is
1334      * being destroyed. */
1335     conn->next = rx_connCleanup_list;
1336     rx_connCleanup_list = conn;
1337 }
1338
1339 /* Externally available version */
1340 void
1341 rx_DestroyConnection(struct rx_connection *conn)
1342 {
1343     SPLVAR;
1344
1345     NETPRI;
1346     rxi_DestroyConnection(conn);
1347     USERPRI;
1348 }
1349
1350 void
1351 rx_GetConnection(struct rx_connection *conn)
1352 {
1353     SPLVAR;
1354
1355     NETPRI;
1356     MUTEX_ENTER(&rx_refcnt_mutex);
1357     conn->refCount++;
1358     MUTEX_EXIT(&rx_refcnt_mutex);
1359     USERPRI;
1360 }
1361
1362 #ifdef RX_ENABLE_LOCKS
1363 /* Wait for the transmit queue to no longer be busy.
1364  * requires the call->lock to be held */
1365 void
1366 rxi_WaitforTQBusy(struct rx_call *call) {
1367     while (!call->error && (call->flags & RX_CALL_TQ_BUSY)) {
1368         call->flags |= RX_CALL_TQ_WAIT;
1369         call->tqWaiters++;
1370         MUTEX_ASSERT(&call->lock);
1371         CV_WAIT(&call->cv_tq, &call->lock);
1372         call->tqWaiters--;
1373         if (call->tqWaiters == 0) {
1374             call->flags &= ~RX_CALL_TQ_WAIT;
1375         }
1376     }
1377 }
1378 #endif
1379
1380 static void
1381 rxi_WakeUpTransmitQueue(struct rx_call *call)
1382 {
1383     if (call->tqWaiters || (call->flags & RX_CALL_TQ_WAIT)) {
1384         dpf(("call %"AFS_PTR_FMT" has %d waiters and flags %d\n",
1385              call, call->tqWaiters, call->flags));
1386 #ifdef RX_ENABLE_LOCKS
1387         MUTEX_ASSERT(&call->lock);
1388         CV_BROADCAST(&call->cv_tq);
1389 #else /* RX_ENABLE_LOCKS */
1390         osi_rxWakeup(&call->tq);
1391 #endif /* RX_ENABLE_LOCKS */
1392     }
1393 }
1394
1395 /* Start a new rx remote procedure call, on the specified connection.
1396  * If wait is set to 1, wait for a free call channel; otherwise return
1397  * 0.  Maxtime gives the maximum number of seconds this call may take,
1398  * after rx_NewCall returns.  After this time interval, a call to any
1399  * of rx_SendData, rx_ReadData, etc. will fail with RX_CALL_TIMEOUT.
1400  * For fine grain locking, we hold the conn_call_lock in order to
1401  * to ensure that we don't get signalle after we found a call in an active
1402  * state and before we go to sleep.
1403  */
1404 struct rx_call *
1405 rx_NewCall(struct rx_connection *conn)
1406 {
1407     int i, wait, ignoreBusy = 1;
1408     struct rx_call *call;
1409     struct clock queueTime;
1410     afs_uint32 leastBusy = 0;
1411     SPLVAR;
1412
1413     clock_NewTime();
1414     dpf(("rx_NewCall(conn %"AFS_PTR_FMT")\n", conn));
1415
1416     NETPRI;
1417     clock_GetTime(&queueTime);
1418     /*
1419      * Check if there are others waiting for a new call.
1420      * If so, let them go first to avoid starving them.
1421      * This is a fairly simple scheme, and might not be
1422      * a complete solution for large numbers of waiters.
1423      *
1424      * makeCallWaiters keeps track of the number of
1425      * threads waiting to make calls and the
1426      * RX_CONN_MAKECALL_WAITING flag bit is used to
1427      * indicate that there are indeed calls waiting.
1428      * The flag is set when the waiter is incremented.
1429      * It is only cleared when makeCallWaiters is 0.
1430      * This prevents us from accidently destroying the
1431      * connection while it is potentially about to be used.
1432      */
1433     MUTEX_ENTER(&conn->conn_call_lock);
1434     MUTEX_ENTER(&conn->conn_data_lock);
1435     while (conn->flags & RX_CONN_MAKECALL_ACTIVE) {
1436         conn->flags |= RX_CONN_MAKECALL_WAITING;
1437         conn->makeCallWaiters++;
1438         MUTEX_EXIT(&conn->conn_data_lock);
1439
1440 #ifdef  RX_ENABLE_LOCKS
1441         CV_WAIT(&conn->conn_call_cv, &conn->conn_call_lock);
1442 #else
1443         osi_rxSleep(conn);
1444 #endif
1445         MUTEX_ENTER(&conn->conn_data_lock);
1446         conn->makeCallWaiters--;
1447         if (conn->makeCallWaiters == 0)
1448             conn->flags &= ~RX_CONN_MAKECALL_WAITING;
1449     }
1450
1451     /* We are now the active thread in rx_NewCall */
1452     conn->flags |= RX_CONN_MAKECALL_ACTIVE;
1453     MUTEX_EXIT(&conn->conn_data_lock);
1454
1455     for (;;) {
1456         wait = 1;
1457
1458         for (i = 0; i < RX_MAXCALLS; i++) {
1459             call = conn->call[i];
1460             if (call) {
1461                 if (!ignoreBusy && conn->lastBusy[i] != leastBusy) {
1462                     /* we're not ignoring busy call slots; only look at the
1463                      * call slot that is the "least" busy */
1464                     continue;
1465                 }
1466
1467                 if (call->state == RX_STATE_DALLY) {
1468                     MUTEX_ENTER(&call->lock);
1469                     if (call->state == RX_STATE_DALLY) {
1470                         if (ignoreBusy && conn->lastBusy[i]) {
1471                             /* if we're ignoring busy call slots, skip any ones that
1472                              * have lastBusy set */
1473                             if (leastBusy == 0 || conn->lastBusy[i] < leastBusy) {
1474                                 leastBusy = conn->lastBusy[i];
1475                             }
1476                             MUTEX_EXIT(&call->lock);
1477                             continue;
1478                         }
1479
1480                         /*
1481                          * We are setting the state to RX_STATE_RESET to
1482                          * ensure that no one else will attempt to use this
1483                          * call once we drop the conn->conn_call_lock and
1484                          * call->lock.  We must drop the conn->conn_call_lock
1485                          * before calling rxi_ResetCall because the process
1486                          * of clearing the transmit queue can block for an
1487                          * extended period of time.  If we block while holding
1488                          * the conn->conn_call_lock, then all rx_EndCall
1489                          * processing will block as well.  This has a detrimental
1490                          * effect on overall system performance.
1491                          */
1492                         call->state = RX_STATE_RESET;
1493                         (*call->callNumber)++;
1494                         MUTEX_EXIT(&conn->conn_call_lock);
1495                         CALL_HOLD(call, RX_CALL_REFCOUNT_BEGIN);
1496                         rxi_ResetCall(call, 0);
1497                         if (MUTEX_TRYENTER(&conn->conn_call_lock))
1498                             break;
1499
1500                         /*
1501                          * If we failed to be able to safely obtain the
1502                          * conn->conn_call_lock we will have to drop the
1503                          * call->lock to avoid a deadlock.  When the call->lock
1504                          * is released the state of the call can change.  If it
1505                          * is no longer RX_STATE_RESET then some other thread is
1506                          * using the call.
1507                          */
1508                         MUTEX_EXIT(&call->lock);
1509                         MUTEX_ENTER(&conn->conn_call_lock);
1510                         MUTEX_ENTER(&call->lock);
1511
1512                         if (call->state == RX_STATE_RESET)
1513                             break;
1514
1515                         /*
1516                          * If we get here it means that after dropping
1517                          * the conn->conn_call_lock and call->lock that
1518                          * the call is no longer ours.  If we can't find
1519                          * a free call in the remaining slots we should
1520                          * not go immediately to RX_CONN_MAKECALL_WAITING
1521                          * because by dropping the conn->conn_call_lock
1522                          * we have given up synchronization with rx_EndCall.
1523                          * Instead, cycle through one more time to see if
1524                          * we can find a call that can call our own.
1525                          */
1526                         CALL_RELE(call, RX_CALL_REFCOUNT_BEGIN);
1527                         wait = 0;
1528                     }
1529                     MUTEX_EXIT(&call->lock);
1530                 }
1531             } else {
1532                 if (ignoreBusy && conn->lastBusy[i]) {
1533                     /* if we're ignoring busy call slots, skip any ones that
1534                      * have lastBusy set */
1535                     if (leastBusy == 0 || conn->lastBusy[i] < leastBusy) {
1536                         leastBusy = conn->lastBusy[i];
1537                     }
1538                     continue;
1539                 }
1540
1541                 /* rxi_NewCall returns with mutex locked */
1542                 call = rxi_NewCall(conn, i);
1543                 CALL_HOLD(call, RX_CALL_REFCOUNT_BEGIN);
1544                 break;
1545             }
1546         }
1547         if (i < RX_MAXCALLS) {
1548             conn->lastBusy[i] = 0;
1549             break;
1550         }
1551         if (!wait)
1552             continue;
1553         if (leastBusy && ignoreBusy) {
1554             /* we didn't find a useable call slot, but we did see at least one
1555              * 'busy' slot; look again and only use a slot with the 'least
1556              * busy time */
1557             ignoreBusy = 0;
1558             continue;
1559         }
1560
1561         MUTEX_ENTER(&conn->conn_data_lock);
1562         conn->flags |= RX_CONN_MAKECALL_WAITING;
1563         conn->makeCallWaiters++;
1564         MUTEX_EXIT(&conn->conn_data_lock);
1565
1566 #ifdef  RX_ENABLE_LOCKS
1567         CV_WAIT(&conn->conn_call_cv, &conn->conn_call_lock);
1568 #else
1569         osi_rxSleep(conn);
1570 #endif
1571         MUTEX_ENTER(&conn->conn_data_lock);
1572         conn->makeCallWaiters--;
1573         if (conn->makeCallWaiters == 0)
1574             conn->flags &= ~RX_CONN_MAKECALL_WAITING;
1575         MUTEX_EXIT(&conn->conn_data_lock);
1576     }
1577     /* Client is initially in send mode */
1578     call->state = RX_STATE_ACTIVE;
1579     call->error = conn->error;
1580     if (call->error)
1581         call->app.mode = RX_MODE_ERROR;
1582     else
1583         call->app.mode = RX_MODE_SENDING;
1584
1585 #ifdef AFS_RXERRQ_ENV
1586     /* remember how many network errors the peer has when we started, so if
1587      * more errors are encountered after the call starts, we know the other endpoint won't be
1588      * responding to us */
1589     call->neterr_gen = rx_atomic_read(&conn->peer->neterrs);
1590 #endif
1591
1592     /* remember start time for call in case we have hard dead time limit */
1593     call->queueTime = queueTime;
1594     clock_GetTime(&call->startTime);
1595     call->app.bytesSent = 0;
1596     call->app.bytesRcvd = 0;
1597
1598     /* Turn on busy protocol. */
1599     rxi_KeepAliveOn(call);
1600
1601     /* Attempt MTU discovery */
1602     rxi_GrowMTUOn(call);
1603
1604     /*
1605      * We are no longer the active thread in rx_NewCall
1606      */
1607     MUTEX_ENTER(&conn->conn_data_lock);
1608     conn->flags &= ~RX_CONN_MAKECALL_ACTIVE;
1609     MUTEX_EXIT(&conn->conn_data_lock);
1610
1611     /*
1612      * Wake up anyone else who might be giving us a chance to
1613      * run (see code above that avoids resource starvation).
1614      */
1615 #ifdef  RX_ENABLE_LOCKS
1616     if (call->flags & (RX_CALL_TQ_BUSY | RX_CALL_TQ_CLEARME)) {
1617         osi_Panic("rx_NewCall call about to be used without an empty tq");
1618     }
1619
1620     CV_BROADCAST(&conn->conn_call_cv);
1621 #else
1622     osi_rxWakeup(conn);
1623 #endif
1624     MUTEX_EXIT(&conn->conn_call_lock);
1625     MUTEX_EXIT(&call->lock);
1626     USERPRI;
1627
1628     dpf(("rx_NewCall(call %"AFS_PTR_FMT")\n", call));
1629     return call;
1630 }
1631
1632 static int
1633 rxi_HasActiveCalls(struct rx_connection *aconn)
1634 {
1635     int i;
1636     struct rx_call *tcall;
1637     SPLVAR;
1638
1639     NETPRI;
1640     for (i = 0; i < RX_MAXCALLS; i++) {
1641         if ((tcall = aconn->call[i])) {
1642             if ((tcall->state == RX_STATE_ACTIVE)
1643                 || (tcall->state == RX_STATE_PRECALL)) {
1644                 USERPRI;
1645                 return 1;
1646             }
1647         }
1648     }
1649     USERPRI;
1650     return 0;
1651 }
1652
1653 int
1654 rxi_GetCallNumberVector(struct rx_connection *aconn,
1655                         afs_int32 * aint32s)
1656 {
1657     int i;
1658     struct rx_call *tcall;
1659     SPLVAR;
1660
1661     NETPRI;
1662     MUTEX_ENTER(&aconn->conn_call_lock);
1663     for (i = 0; i < RX_MAXCALLS; i++) {
1664         if ((tcall = aconn->call[i]) && (tcall->state == RX_STATE_DALLY))
1665             aint32s[i] = aconn->callNumber[i] + 1;
1666         else
1667             aint32s[i] = aconn->callNumber[i];
1668     }
1669     MUTEX_EXIT(&aconn->conn_call_lock);
1670     USERPRI;
1671     return 0;
1672 }
1673
1674 int
1675 rxi_SetCallNumberVector(struct rx_connection *aconn,
1676                         afs_int32 * aint32s)
1677 {
1678     int i;
1679     struct rx_call *tcall;
1680     SPLVAR;
1681
1682     NETPRI;
1683     MUTEX_ENTER(&aconn->conn_call_lock);
1684     for (i = 0; i < RX_MAXCALLS; i++) {
1685         if ((tcall = aconn->call[i]) && (tcall->state == RX_STATE_DALLY))
1686             aconn->callNumber[i] = aint32s[i] - 1;
1687         else
1688             aconn->callNumber[i] = aint32s[i];
1689     }
1690     MUTEX_EXIT(&aconn->conn_call_lock);
1691     USERPRI;
1692     return 0;
1693 }
1694
1695 /* Advertise a new service.  A service is named locally by a UDP port
1696  * number plus a 16-bit service id.  Returns (struct rx_service *) 0
1697  * on a failure.
1698  *
1699      char *serviceName;  Name for identification purposes (e.g. the
1700                          service name might be used for probing for
1701                          statistics) */
1702 struct rx_service *
1703 rx_NewServiceHost(afs_uint32 host, u_short port, u_short serviceId,
1704                   char *serviceName, struct rx_securityClass **securityObjects,
1705                   int nSecurityObjects,
1706                   afs_int32(*serviceProc) (struct rx_call * acall))
1707 {
1708     osi_socket socket = OSI_NULLSOCKET;
1709     struct rx_service *tservice;
1710     int i;
1711     SPLVAR;
1712
1713     clock_NewTime();
1714
1715     if (serviceId == 0) {
1716         (osi_Msg
1717          "rx_NewService:  service id for service %s is not non-zero.\n",
1718          serviceName);
1719         return 0;
1720     }
1721     if (port == 0) {
1722         if (rx_port == 0) {
1723             (osi_Msg
1724              "rx_NewService: A non-zero port must be specified on this call if a non-zero port was not provided at Rx initialization (service %s).\n",
1725              serviceName);
1726             return 0;
1727         }
1728         port = rx_port;
1729         socket = rx_socket;
1730     }
1731
1732     tservice = rxi_AllocService();
1733     NETPRI;
1734
1735     MUTEX_INIT(&tservice->svc_data_lock, "svc data lock", MUTEX_DEFAULT, 0);
1736
1737     for (i = 0; i < RX_MAX_SERVICES; i++) {
1738         struct rx_service *service = rx_services[i];
1739         if (service) {
1740             if (port == service->servicePort && host == service->serviceHost) {
1741                 if (service->serviceId == serviceId) {
1742                     /* The identical service has already been
1743                      * installed; if the caller was intending to
1744                      * change the security classes used by this
1745                      * service, he/she loses. */
1746                     (osi_Msg
1747                      "rx_NewService: tried to install service %s with service id %d, which is already in use for service %s\n",
1748                      serviceName, serviceId, service->serviceName);
1749                     USERPRI;
1750                     rxi_FreeService(tservice);
1751                     return service;
1752                 }
1753                 /* Different service, same port: re-use the socket
1754                  * which is bound to the same port */
1755                 socket = service->socket;
1756             }
1757         } else {
1758             if (socket == OSI_NULLSOCKET) {
1759                 /* If we don't already have a socket (from another
1760                  * service on same port) get a new one */
1761                 socket = rxi_GetHostUDPSocket(host, port);
1762                 if (socket == OSI_NULLSOCKET) {
1763                     USERPRI;
1764                     rxi_FreeService(tservice);
1765                     return 0;
1766                 }
1767             }
1768             service = tservice;
1769             service->socket = socket;
1770             service->serviceHost = host;
1771             service->servicePort = port;
1772             service->serviceId = serviceId;
1773             service->serviceName = serviceName;
1774             service->nSecurityObjects = nSecurityObjects;
1775             service->securityObjects = securityObjects;
1776             service->minProcs = 0;
1777             service->maxProcs = 1;
1778             service->idleDeadTime = 60;
1779             service->connDeadTime = rx_connDeadTime;
1780             service->executeRequestProc = serviceProc;
1781             service->checkReach = 0;
1782             service->nSpecific = 0;
1783             service->specific = NULL;
1784             rx_services[i] = service;   /* not visible until now */
1785             USERPRI;
1786             return service;
1787         }
1788     }
1789     USERPRI;
1790     rxi_FreeService(tservice);
1791     (osi_Msg "rx_NewService: cannot support > %d services\n",
1792      RX_MAX_SERVICES);
1793     return 0;
1794 }
1795
1796 /* Set configuration options for all of a service's security objects */
1797
1798 afs_int32
1799 rx_SetSecurityConfiguration(struct rx_service *service,
1800                             rx_securityConfigVariables type,
1801                             void *value)
1802 {
1803     int i;
1804     for (i = 0; i<service->nSecurityObjects; i++) {
1805         if (service->securityObjects[i]) {
1806             RXS_SetConfiguration(service->securityObjects[i], NULL, type,
1807                                  value, NULL);
1808         }
1809     }
1810     return 0;
1811 }
1812
1813 struct rx_service *
1814 rx_NewService(u_short port, u_short serviceId, char *serviceName,
1815               struct rx_securityClass **securityObjects, int nSecurityObjects,
1816               afs_int32(*serviceProc) (struct rx_call * acall))
1817 {
1818     return rx_NewServiceHost(htonl(INADDR_ANY), port, serviceId, serviceName, securityObjects, nSecurityObjects, serviceProc);
1819 }
1820
1821 /* Generic request processing loop. This routine should be called
1822  * by the implementation dependent rx_ServerProc. If socketp is
1823  * non-null, it will be set to the file descriptor that this thread
1824  * is now listening on. If socketp is null, this routine will never
1825  * returns. */
1826 void
1827 rxi_ServerProc(int threadID, struct rx_call *newcall, osi_socket * socketp)
1828 {
1829     struct rx_call *call;
1830     afs_int32 code;
1831     struct rx_service *tservice = NULL;
1832
1833     for (;;) {
1834         if (newcall) {
1835             call = newcall;
1836             newcall = NULL;
1837         } else {
1838             call = rx_GetCall(threadID, tservice, socketp);
1839             if (socketp && *socketp != OSI_NULLSOCKET) {
1840                 /* We are now a listener thread */
1841                 return;
1842             }
1843         }
1844
1845 #ifdef  KERNEL
1846         if (afs_termState == AFSOP_STOP_RXCALLBACK) {
1847 #ifdef RX_ENABLE_LOCKS
1848             AFS_GLOCK();
1849 #endif /* RX_ENABLE_LOCKS */
1850             afs_termState = AFSOP_STOP_AFS;
1851             afs_osi_Wakeup(&afs_termState);
1852 #ifdef RX_ENABLE_LOCKS
1853             AFS_GUNLOCK();
1854 #endif /* RX_ENABLE_LOCKS */
1855             return;
1856         }
1857 #endif
1858
1859         /* if server is restarting( typically smooth shutdown) then do not
1860          * allow any new calls.
1861          */
1862
1863         if (rx_tranquil && (call != NULL)) {
1864             SPLVAR;
1865
1866             NETPRI;
1867             MUTEX_ENTER(&call->lock);
1868
1869             rxi_CallError(call, RX_RESTARTING);
1870             rxi_SendCallAbort(call, (struct rx_packet *)0, 0, 0);
1871
1872             MUTEX_EXIT(&call->lock);
1873             USERPRI;
1874             continue;
1875         }
1876
1877         tservice = call->conn->service;
1878
1879         if (tservice->beforeProc)
1880             (*tservice->beforeProc) (call);
1881
1882         code = tservice->executeRequestProc(call);
1883
1884         if (tservice->afterProc)
1885             (*tservice->afterProc) (call, code);
1886
1887         rx_EndCall(call, code);
1888
1889         if (tservice->postProc)
1890             (*tservice->postProc) (code);
1891
1892         if (rx_stats_active) {
1893             MUTEX_ENTER(&rx_stats_mutex);
1894             rxi_nCalls++;
1895             MUTEX_EXIT(&rx_stats_mutex);
1896         }
1897     }
1898 }
1899
1900
1901 void
1902 rx_WakeupServerProcs(void)
1903 {
1904     struct rx_serverQueueEntry *np, *tqp;
1905     struct opr_queue *cursor;
1906     SPLVAR;
1907
1908     NETPRI;
1909     MUTEX_ENTER(&rx_serverPool_lock);
1910
1911 #ifdef RX_ENABLE_LOCKS
1912     if (rx_waitForPacket)
1913         CV_BROADCAST(&rx_waitForPacket->cv);
1914 #else /* RX_ENABLE_LOCKS */
1915     if (rx_waitForPacket)
1916         osi_rxWakeup(rx_waitForPacket);
1917 #endif /* RX_ENABLE_LOCKS */
1918     MUTEX_ENTER(&freeSQEList_lock);
1919     for (np = rx_FreeSQEList; np; np = tqp) {
1920         tqp = *(struct rx_serverQueueEntry **)np;
1921 #ifdef RX_ENABLE_LOCKS
1922         CV_BROADCAST(&np->cv);
1923 #else /* RX_ENABLE_LOCKS */
1924         osi_rxWakeup(np);
1925 #endif /* RX_ENABLE_LOCKS */
1926     }
1927     MUTEX_EXIT(&freeSQEList_lock);
1928     for (opr_queue_Scan(&rx_idleServerQueue, cursor)) {
1929         np = opr_queue_Entry(cursor, struct rx_serverQueueEntry, entry);
1930 #ifdef RX_ENABLE_LOCKS
1931         CV_BROADCAST(&np->cv);
1932 #else /* RX_ENABLE_LOCKS */
1933         osi_rxWakeup(np);
1934 #endif /* RX_ENABLE_LOCKS */
1935     }
1936     MUTEX_EXIT(&rx_serverPool_lock);
1937     USERPRI;
1938 }
1939
1940 /* meltdown:
1941  * One thing that seems to happen is that all the server threads get
1942  * tied up on some empty or slow call, and then a whole bunch of calls
1943  * arrive at once, using up the packet pool, so now there are more
1944  * empty calls.  The most critical resources here are server threads
1945  * and the free packet pool.  The "doreclaim" code seems to help in
1946  * general.  I think that eventually we arrive in this state: there
1947  * are lots of pending calls which do have all their packets present,
1948  * so they won't be reclaimed, are multi-packet calls, so they won't
1949  * be scheduled until later, and thus are tying up most of the free
1950  * packet pool for a very long time.
1951  * future options:
1952  * 1.  schedule multi-packet calls if all the packets are present.
1953  * Probably CPU-bound operation, useful to return packets to pool.
1954  * Do what if there is a full window, but the last packet isn't here?
1955  * 3.  preserve one thread which *only* runs "best" calls, otherwise
1956  * it sleeps and waits for that type of call.
1957  * 4.  Don't necessarily reserve a whole window for each thread.  In fact,
1958  * the current dataquota business is badly broken.  The quota isn't adjusted
1959  * to reflect how many packets are presently queued for a running call.
1960  * So, when we schedule a queued call with a full window of packets queued
1961  * up for it, that *should* free up a window full of packets for other 2d-class
1962  * calls to be able to use from the packet pool.  But it doesn't.
1963  *
1964  * NB.  Most of the time, this code doesn't run -- since idle server threads
1965  * sit on the idle server queue and are assigned by "...ReceivePacket" as soon
1966  * as a new call arrives.
1967  */
1968 /* Sleep until a call arrives.  Returns a pointer to the call, ready
1969  * for an rx_Read. */
1970 #ifdef RX_ENABLE_LOCKS
1971 struct rx_call *
1972 rx_GetCall(int tno, struct rx_service *cur_service, osi_socket * socketp)
1973 {
1974     struct rx_serverQueueEntry *sq;
1975     struct rx_call *call = (struct rx_call *)0;
1976     struct rx_service *service = NULL;
1977
1978     MUTEX_ENTER(&freeSQEList_lock);
1979
1980     if ((sq = rx_FreeSQEList)) {
1981         rx_FreeSQEList = *(struct rx_serverQueueEntry **)sq;
1982         MUTEX_EXIT(&freeSQEList_lock);
1983     } else {                    /* otherwise allocate a new one and return that */
1984         MUTEX_EXIT(&freeSQEList_lock);
1985         sq = rxi_Alloc(sizeof(struct rx_serverQueueEntry));
1986         MUTEX_INIT(&sq->lock, "server Queue lock", MUTEX_DEFAULT, 0);
1987         CV_INIT(&sq->cv, "server Queue lock", CV_DEFAULT, 0);
1988     }
1989
1990     MUTEX_ENTER(&rx_serverPool_lock);
1991     if (cur_service != NULL) {
1992         ReturnToServerPool(cur_service);
1993     }
1994     while (1) {
1995         if (!opr_queue_IsEmpty(&rx_incomingCallQueue)) {
1996             struct rx_call *tcall, *choice2 = NULL;
1997             struct opr_queue *cursor;
1998
1999             /* Scan for eligible incoming calls.  A call is not eligible
2000              * if the maximum number of calls for its service type are
2001              * already executing */
2002             /* One thread will process calls FCFS (to prevent starvation),
2003              * while the other threads may run ahead looking for calls which
2004              * have all their input data available immediately.  This helps
2005              * keep threads from blocking, waiting for data from the client. */
2006             for (opr_queue_Scan(&rx_incomingCallQueue, cursor)) {
2007                 tcall = opr_queue_Entry(cursor, struct rx_call, entry);
2008
2009                 service = tcall->conn->service;
2010                 if (!QuotaOK(service)) {
2011                     continue;
2012                 }
2013                 MUTEX_ENTER(&rx_pthread_mutex);
2014                 if (tno == rxi_fcfs_thread_num
2015                         || opr_queue_IsEnd(&rx_incomingCallQueue, cursor)) {
2016                     MUTEX_EXIT(&rx_pthread_mutex);
2017                     /* If we're the fcfs thread , then  we'll just use
2018                      * this call. If we haven't been able to find an optimal
2019                      * choice, and we're at the end of the list, then use a
2020                      * 2d choice if one has been identified.  Otherwise... */
2021                     call = (choice2 ? choice2 : tcall);
2022                     service = call->conn->service;
2023                 } else {
2024                     MUTEX_EXIT(&rx_pthread_mutex);
2025                     if (!opr_queue_IsEmpty(&tcall->rq)) {
2026                         struct rx_packet *rp;
2027                         rp = opr_queue_First(&tcall->rq, struct rx_packet,
2028                                             entry);
2029                         if (rp->header.seq == 1) {
2030                             if (!meltdown_1pkt
2031                                 || (rp->header.flags & RX_LAST_PACKET)) {
2032                                 call = tcall;
2033                             } else if (rxi_2dchoice && !choice2
2034                                        && !(tcall->flags & RX_CALL_CLEARED)
2035                                        && (tcall->rprev > rxi_HardAckRate)) {
2036                                 choice2 = tcall;
2037                             } else
2038                                 rxi_md2cnt++;
2039                         }
2040                     }
2041                 }
2042                 if (call) {
2043                     break;
2044                 } else {
2045                     ReturnToServerPool(service);
2046                 }
2047             }
2048         }
2049
2050         if (call) {
2051             opr_queue_Remove(&call->entry);
2052             MUTEX_EXIT(&rx_serverPool_lock);
2053             MUTEX_ENTER(&call->lock);
2054
2055             if (call->flags & RX_CALL_WAIT_PROC) {
2056                 call->flags &= ~RX_CALL_WAIT_PROC;
2057                 rx_atomic_dec(&rx_nWaiting);
2058             }
2059
2060             if (call->state != RX_STATE_PRECALL || call->error) {
2061                 MUTEX_EXIT(&call->lock);
2062                 MUTEX_ENTER(&rx_serverPool_lock);
2063                 ReturnToServerPool(service);
2064                 call = NULL;
2065                 continue;
2066             }
2067
2068             if (opr_queue_IsEmpty(&call->rq)
2069                 || opr_queue_First(&call->rq, struct rx_packet, entry)->header.seq != 1)
2070                 rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
2071
2072             CLEAR_CALL_QUEUE_LOCK(call);
2073             break;
2074         } else {
2075             /* If there are no eligible incoming calls, add this process
2076              * to the idle server queue, to wait for one */
2077             sq->newcall = 0;
2078             sq->tno = tno;
2079             if (socketp) {
2080                 *socketp = OSI_NULLSOCKET;
2081             }
2082             sq->socketp = socketp;
2083             opr_queue_Append(&rx_idleServerQueue, &sq->entry);
2084 #ifndef AFS_AIX41_ENV
2085             rx_waitForPacket = sq;
2086 #endif /* AFS_AIX41_ENV */
2087             do {
2088                 CV_WAIT(&sq->cv, &rx_serverPool_lock);
2089 #ifdef  KERNEL
2090                 if (afs_termState == AFSOP_STOP_RXCALLBACK) {
2091                     MUTEX_EXIT(&rx_serverPool_lock);
2092                     return (struct rx_call *)0;
2093                 }
2094 #endif
2095             } while (!(call = sq->newcall)
2096                      && !(socketp && *socketp != OSI_NULLSOCKET));
2097             MUTEX_EXIT(&rx_serverPool_lock);
2098             if (call) {
2099                 MUTEX_ENTER(&call->lock);
2100             }
2101             break;
2102         }
2103     }
2104
2105     MUTEX_ENTER(&freeSQEList_lock);
2106     *(struct rx_serverQueueEntry **)sq = rx_FreeSQEList;
2107     rx_FreeSQEList = sq;
2108     MUTEX_EXIT(&freeSQEList_lock);
2109
2110     if (call) {
2111         clock_GetTime(&call->startTime);
2112         call->state = RX_STATE_ACTIVE;
2113         call->app.mode = RX_MODE_RECEIVING;
2114 #ifdef RX_KERNEL_TRACE
2115         if (ICL_SETACTIVE(afs_iclSetp)) {
2116             int glockOwner = ISAFS_GLOCK();
2117             if (!glockOwner)
2118                 AFS_GLOCK();
2119             afs_Trace3(afs_iclSetp, CM_TRACE_WASHERE, ICL_TYPE_STRING,
2120                        __FILE__, ICL_TYPE_INT32, __LINE__, ICL_TYPE_POINTER,
2121                        call);
2122             if (!glockOwner)
2123                 AFS_GUNLOCK();
2124         }
2125 #endif
2126
2127         rxi_calltrace(RX_CALL_START, call);
2128         dpf(("rx_GetCall(port=%d, service=%d) ==> call %"AFS_PTR_FMT"\n",
2129              call->conn->service->servicePort, call->conn->service->serviceId,
2130              call));
2131
2132         MUTEX_EXIT(&call->lock);
2133         CALL_HOLD(call, RX_CALL_REFCOUNT_BEGIN);
2134     } else {
2135         dpf(("rx_GetCall(socketp=%p, *socketp=0x%x)\n", socketp, *socketp));
2136     }
2137
2138     return call;
2139 }
2140 #else /* RX_ENABLE_LOCKS */
2141 struct rx_call *
2142 rx_GetCall(int tno, struct rx_service *cur_service, osi_socket * socketp)
2143 {
2144     struct rx_serverQueueEntry *sq;
2145     struct rx_call *call = (struct rx_call *)0, *choice2;
2146     struct rx_service *service = NULL;
2147     SPLVAR;
2148
2149     NETPRI;
2150     MUTEX_ENTER(&freeSQEList_lock);
2151
2152     if ((sq = rx_FreeSQEList)) {
2153         rx_FreeSQEList = *(struct rx_serverQueueEntry **)sq;
2154         MUTEX_EXIT(&freeSQEList_lock);
2155     } else {                    /* otherwise allocate a new one and return that */
2156         MUTEX_EXIT(&freeSQEList_lock);
2157         sq = rxi_Alloc(sizeof(struct rx_serverQueueEntry));
2158         MUTEX_INIT(&sq->lock, "server Queue lock", MUTEX_DEFAULT, 0);
2159         CV_INIT(&sq->cv, "server Queue lock", CV_DEFAULT, 0);
2160     }
2161     MUTEX_ENTER(&sq->lock);
2162
2163     if (cur_service != NULL) {
2164         cur_service->nRequestsRunning--;
2165         MUTEX_ENTER(&rx_quota_mutex);
2166         if (cur_service->nRequestsRunning < cur_service->minProcs)
2167             rxi_minDeficit++;
2168         rxi_availProcs++;
2169         MUTEX_EXIT(&rx_quota_mutex);
2170     }
2171     if (!opr_queue_IsEmpty(&rx_incomingCallQueue)) {
2172         struct rx_call *tcall;
2173         struct opr_queue *cursor;
2174         /* Scan for eligible incoming calls.  A call is not eligible
2175          * if the maximum number of calls for its service type are
2176          * already executing */
2177         /* One thread will process calls FCFS (to prevent starvation),
2178          * while the other threads may run ahead looking for calls which
2179          * have all their input data available immediately.  This helps
2180          * keep threads from blocking, waiting for data from the client. */
2181         choice2 = (struct rx_call *)0;
2182         for (opr_queue_Scan(&rx_incomingCallQueue, cursor)) {
2183             tcall = opr_queue_Entry(cursor, struct rx_call, entry);
2184             service = tcall->conn->service;
2185             if (QuotaOK(service)) {
2186                 MUTEX_ENTER(&rx_pthread_mutex);
2187                 /* XXX - If tcall->entry.next is NULL, then we're no longer
2188                  * on a queue at all. This shouldn't happen. */
2189                 if (tno == rxi_fcfs_thread_num || !tcall->entry.next) {
2190                     MUTEX_EXIT(&rx_pthread_mutex);
2191                     /* If we're the fcfs thread, then  we'll just use
2192                      * this call. If we haven't been able to find an optimal
2193                      * choice, and we're at the end of the list, then use a
2194                      * 2d choice if one has been identified.  Otherwise... */
2195                     call = (choice2 ? choice2 : tcall);
2196                     service = call->conn->service;
2197                 } else {
2198                     MUTEX_EXIT(&rx_pthread_mutex);
2199                     if (!opr_queue_IsEmpty(&tcall->rq)) {
2200                         struct rx_packet *rp;
2201                         rp = opr_queue_First(&tcall->rq, struct rx_packet,
2202                                             entry);
2203                         if (rp->header.seq == 1
2204                             && (!meltdown_1pkt
2205                                 || (rp->header.flags & RX_LAST_PACKET))) {
2206                             call = tcall;
2207                         } else if (rxi_2dchoice && !choice2
2208                                    && !(tcall->flags & RX_CALL_CLEARED)
2209                                    && (tcall->rprev > rxi_HardAckRate)) {
2210                             choice2 = tcall;
2211                         } else
2212                             rxi_md2cnt++;
2213                     }
2214                 }
2215             }
2216             if (call)
2217                 break;
2218         }
2219     }
2220
2221     if (call) {
2222         opr_queue_Remove(&call->entry);
2223         /* we can't schedule a call if there's no data!!! */
2224         /* send an ack if there's no data, if we're missing the
2225          * first packet, or we're missing something between first
2226          * and last -- there's a "hole" in the incoming data. */
2227         if (opr_queue_IsEmpty(&call->rq)
2228             || opr_queue_First(&call->rq, struct rx_packet, entry)->header.seq != 1
2229             || call->rprev != opr_queue_Last(&call->rq, struct rx_packet, entry)->header.seq)
2230             rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
2231
2232         call->flags &= (~RX_CALL_WAIT_PROC);
2233         service->nRequestsRunning++;
2234         /* just started call in minProcs pool, need fewer to maintain
2235          * guarantee */
2236         MUTEX_ENTER(&rx_quota_mutex);
2237         if (service->nRequestsRunning <= service->minProcs)
2238             rxi_minDeficit--;
2239         rxi_availProcs--;
2240         MUTEX_EXIT(&rx_quota_mutex);
2241         rx_atomic_dec(&rx_nWaiting);
2242         /* MUTEX_EXIT(&call->lock); */
2243     } else {
2244         /* If there are no eligible incoming calls, add this process
2245          * to the idle server queue, to wait for one */
2246         sq->newcall = 0;
2247         if (socketp) {
2248             *socketp = OSI_NULLSOCKET;
2249         }
2250         sq->socketp = socketp;
2251         opr_queue_Append(&rx_idleServerQueue, &sq->entry);
2252         do {
2253             osi_rxSleep(sq);
2254 #ifdef  KERNEL
2255             if (afs_termState == AFSOP_STOP_RXCALLBACK) {
2256                 USERPRI;
2257                 rxi_Free(sq, sizeof(struct rx_serverQueueEntry));
2258                 return (struct rx_call *)0;
2259             }
2260 #endif
2261         } while (!(call = sq->newcall)
2262                  && !(socketp && *socketp != OSI_NULLSOCKET));
2263     }
2264     MUTEX_EXIT(&sq->lock);
2265
2266     MUTEX_ENTER(&freeSQEList_lock);
2267     *(struct rx_serverQueueEntry **)sq = rx_FreeSQEList;
2268     rx_FreeSQEList = sq;
2269     MUTEX_EXIT(&freeSQEList_lock);
2270
2271     if (call) {
2272         clock_GetTime(&call->startTime);
2273         call->state = RX_STATE_ACTIVE;
2274         call->app.mode = RX_MODE_RECEIVING;
2275 #ifdef RX_KERNEL_TRACE
2276         if (ICL_SETACTIVE(afs_iclSetp)) {
2277             int glockOwner = ISAFS_GLOCK();
2278             if (!glockOwner)
2279                 AFS_GLOCK();
2280             afs_Trace3(afs_iclSetp, CM_TRACE_WASHERE, ICL_TYPE_STRING,
2281                        __FILE__, ICL_TYPE_INT32, __LINE__, ICL_TYPE_POINTER,
2282                        call);
2283             if (!glockOwner)
2284                 AFS_GUNLOCK();
2285         }
2286 #endif
2287
2288         rxi_calltrace(RX_CALL_START, call);
2289         dpf(("rx_GetCall(port=%d, service=%d) ==> call %p\n",
2290              call->conn->service->servicePort, call->conn->service->serviceId,
2291              call));
2292     } else {
2293         dpf(("rx_GetCall(socketp=%p, *socketp=0x%x)\n", socketp, *socketp));
2294     }
2295
2296     USERPRI;
2297
2298     return call;
2299 }
2300 #endif /* RX_ENABLE_LOCKS */
2301
2302
2303
2304 /* Establish a procedure to be called when a packet arrives for a
2305  * call.  This routine will be called at most once after each call,
2306  * and will also be called if there is an error condition on the or
2307  * the call is complete.  Used by multi rx to build a selection
2308  * function which determines which of several calls is likely to be a
2309  * good one to read from.
2310  * NOTE: the way this is currently implemented it is probably only a
2311  * good idea to (1) use it immediately after a newcall (clients only)
2312  * and (2) only use it once.  Other uses currently void your warranty
2313  */
2314 void
2315 rx_SetArrivalProc(struct rx_call *call,
2316                   void (*proc) (struct rx_call * call,
2317                                         void * mh,
2318                                         int index),
2319                   void * handle, int arg)
2320 {
2321     call->arrivalProc = proc;
2322     call->arrivalProcHandle = handle;
2323     call->arrivalProcArg = arg;
2324 }
2325
2326 /* Call is finished (possibly prematurely).  Return rc to the peer, if
2327  * appropriate, and return the final error code from the conversation
2328  * to the caller */
2329
2330 afs_int32
2331 rx_EndCall(struct rx_call *call, afs_int32 rc)
2332 {
2333     struct rx_connection *conn = call->conn;
2334     afs_int32 error;
2335     SPLVAR;
2336
2337     dpf(("rx_EndCall(call %"AFS_PTR_FMT" rc %d error %d abortCode %d)\n",
2338           call, rc, call->error, call->abortCode));
2339
2340     NETPRI;
2341     MUTEX_ENTER(&call->lock);
2342
2343     if (rc == 0 && call->error == 0) {
2344         call->abortCode = 0;
2345         call->abortCount = 0;
2346     }
2347
2348     call->arrivalProc = (void (*)())0;
2349     if (rc && call->error == 0) {
2350         rxi_CallError(call, rc);
2351         call->app.mode = RX_MODE_ERROR;
2352         /* Send an abort message to the peer if this error code has
2353          * only just been set.  If it was set previously, assume the
2354          * peer has already been sent the error code or will request it
2355          */
2356         rxi_SendCallAbort(call, (struct rx_packet *)0, 0, 0);
2357     }
2358     if (conn->type == RX_SERVER_CONNECTION) {
2359         /* Make sure reply or at least dummy reply is sent */
2360         if (call->app.mode == RX_MODE_RECEIVING) {
2361             MUTEX_EXIT(&call->lock);
2362             rxi_WriteProc(call, 0, 0);
2363             MUTEX_ENTER(&call->lock);
2364         }
2365         if (call->app.mode == RX_MODE_SENDING) {
2366             rxi_FlushWriteLocked(call);
2367         }
2368         rxi_calltrace(RX_CALL_END, call);
2369         /* Call goes to hold state until reply packets are acknowledged */
2370         if (call->tfirst + call->nSoftAcked < call->tnext) {
2371             call->state = RX_STATE_HOLD;
2372         } else {
2373             call->state = RX_STATE_DALLY;
2374             rxi_ClearTransmitQueue(call, 0);
2375             rxi_rto_cancel(call);
2376             rxi_CancelKeepAliveEvent(call);
2377         }
2378     } else {                    /* Client connection */
2379         char dummy;
2380         /* Make sure server receives input packets, in the case where
2381          * no reply arguments are expected */
2382
2383         if ((call->app.mode == RX_MODE_SENDING)
2384             || (call->app.mode == RX_MODE_RECEIVING && call->rnext == 1)) {
2385             MUTEX_EXIT(&call->lock);
2386             (void)rxi_ReadProc(call, &dummy, 1);
2387             MUTEX_ENTER(&call->lock);
2388         }
2389
2390         /* If we had an outstanding delayed ack, be nice to the server
2391          * and force-send it now.
2392          */
2393         if (call->delayedAckEvent) {
2394             rxi_CancelDelayedAckEvent(call);
2395             rxi_SendDelayedAck(NULL, call, NULL, 0);
2396         }
2397
2398         /* We need to release the call lock since it's lower than the
2399          * conn_call_lock and we don't want to hold the conn_call_lock
2400          * over the rx_ReadProc call. The conn_call_lock needs to be held
2401          * here for the case where rx_NewCall is perusing the calls on
2402          * the connection structure. We don't want to signal until
2403          * rx_NewCall is in a stable state. Otherwise, rx_NewCall may
2404          * have checked this call, found it active and by the time it
2405          * goes to sleep, will have missed the signal.
2406          */
2407         MUTEX_EXIT(&call->lock);
2408         MUTEX_ENTER(&conn->conn_call_lock);
2409         MUTEX_ENTER(&call->lock);
2410
2411         if (!call->error) {
2412             /* While there are some circumstances where a call with an error is
2413              * obviously not on a "busy" channel, be conservative (clearing
2414              * lastBusy is just best-effort to possibly speed up rx_NewCall).
2415              * The call channel is definitely not busy if we just successfully
2416              * completed a call on it. */
2417             conn->lastBusy[call->channel] = 0;
2418
2419         } else if (call->error == RX_CALL_TIMEOUT) {
2420             /* The call is still probably running on the server side, so try to
2421              * avoid this call channel in the future. */
2422             conn->lastBusy[call->channel] = clock_Sec();
2423         }
2424
2425         MUTEX_ENTER(&conn->conn_data_lock);
2426         conn->flags |= RX_CONN_BUSY;
2427         if (conn->flags & RX_CONN_MAKECALL_WAITING) {
2428             MUTEX_EXIT(&conn->conn_data_lock);
2429 #ifdef  RX_ENABLE_LOCKS
2430             CV_BROADCAST(&conn->conn_call_cv);
2431 #else
2432             osi_rxWakeup(conn);
2433 #endif
2434         }
2435 #ifdef RX_ENABLE_LOCKS
2436         else {
2437             MUTEX_EXIT(&conn->conn_data_lock);
2438         }
2439 #endif /* RX_ENABLE_LOCKS */
2440         call->state = RX_STATE_DALLY;
2441     }
2442     error = call->error;
2443
2444     /* currentPacket, nLeft, and NFree must be zeroed here, because
2445      * ResetCall cannot: ResetCall may be called at splnet(), in the
2446      * kernel version, and may interrupt the macros rx_Read or
2447      * rx_Write, which run at normal priority for efficiency. */
2448     if (call->app.currentPacket) {
2449 #ifdef RX_TRACK_PACKETS
2450         call->app.currentPacket->flags &= ~RX_PKTFLAG_CP;
2451 #endif
2452         rxi_FreePacket(call->app.currentPacket);
2453         call->app.currentPacket = (struct rx_packet *)0;
2454     }
2455
2456     call->app.nLeft = call->app.nFree = call->app.curlen = 0;
2457
2458     /* Free any packets from the last call to ReadvProc/WritevProc */
2459 #ifdef RXDEBUG_PACKET
2460     call->iovqc -=
2461 #endif /* RXDEBUG_PACKET */
2462         rxi_FreePackets(0, &call->app.iovq);
2463     MUTEX_EXIT(&call->lock);
2464
2465     CALL_RELE(call, RX_CALL_REFCOUNT_BEGIN);
2466     if (conn->type == RX_CLIENT_CONNECTION) {
2467         MUTEX_ENTER(&conn->conn_data_lock);
2468         conn->flags &= ~RX_CONN_BUSY;
2469         MUTEX_EXIT(&conn->conn_data_lock);
2470         MUTEX_EXIT(&conn->conn_call_lock);
2471     }
2472     USERPRI;
2473     /*
2474      * Map errors to the local host's errno.h format.
2475      */
2476     error = ntoh_syserr_conv(error);
2477
2478     /* If the caller said the call failed with some error, we had better
2479      * return an error code. */
2480     osi_Assert(!rc || error);
2481     return error;
2482 }
2483
2484 #if !defined(KERNEL)
2485
2486 /* Call this routine when shutting down a server or client (especially
2487  * clients).  This will allow Rx to gracefully garbage collect server
2488  * connections, and reduce the number of retries that a server might
2489  * make to a dead client.
2490  * This is not quite right, since some calls may still be ongoing and
2491  * we can't lock them to destroy them. */
2492 void
2493 rx_Finalize(void)
2494 {
2495     struct rx_connection **conn_ptr, **conn_end;
2496
2497     INIT_PTHREAD_LOCKS;
2498     if (rx_atomic_test_and_set_bit(&rxinit_status, 0))
2499         return;                 /* Already shutdown. */
2500
2501     rxi_DeleteCachedConnections();
2502     if (rx_connHashTable) {
2503         MUTEX_ENTER(&rx_connHashTable_lock);
2504         for (conn_ptr = &rx_connHashTable[0], conn_end =
2505              &rx_connHashTable[rx_hashTableSize]; conn_ptr < conn_end;
2506              conn_ptr++) {
2507             struct rx_connection *conn, *next;
2508             for (conn = *conn_ptr; conn; conn = next) {
2509                 next = conn->next;
2510                 if (conn->type == RX_CLIENT_CONNECTION) {
2511                     MUTEX_ENTER(&rx_refcnt_mutex);
2512                     conn->refCount++;
2513                     MUTEX_EXIT(&rx_refcnt_mutex);
2514 #ifdef RX_ENABLE_LOCKS
2515                     rxi_DestroyConnectionNoLock(conn);
2516 #else /* RX_ENABLE_LOCKS */
2517                     rxi_DestroyConnection(conn);
2518 #endif /* RX_ENABLE_LOCKS */
2519                 }
2520             }
2521         }
2522 #ifdef RX_ENABLE_LOCKS
2523         while (rx_connCleanup_list) {
2524             struct rx_connection *conn;
2525             conn = rx_connCleanup_list;
2526             rx_connCleanup_list = rx_connCleanup_list->next;
2527             MUTEX_EXIT(&rx_connHashTable_lock);
2528             rxi_CleanupConnection(conn);
2529             MUTEX_ENTER(&rx_connHashTable_lock);
2530         }
2531         MUTEX_EXIT(&rx_connHashTable_lock);
2532 #endif /* RX_ENABLE_LOCKS */
2533     }
2534     rxi_flushtrace();
2535
2536 #ifdef AFS_NT40_ENV
2537     afs_winsockCleanup();
2538 #endif
2539
2540 }
2541 #endif
2542
2543 /* if we wakeup packet waiter too often, can get in loop with two
2544     AllocSendPackets each waking each other up (from ReclaimPacket calls) */
2545 void
2546 rxi_PacketsUnWait(void)
2547 {
2548     if (!rx_waitingForPackets) {
2549         return;
2550     }
2551 #ifdef KERNEL
2552     if (rxi_OverQuota(RX_PACKET_CLASS_SEND)) {
2553         return;                 /* still over quota */
2554     }
2555 #endif /* KERNEL */
2556     rx_waitingForPackets = 0;
2557 #ifdef  RX_ENABLE_LOCKS
2558     CV_BROADCAST(&rx_waitingForPackets_cv);
2559 #else
2560     osi_rxWakeup(&rx_waitingForPackets);
2561 #endif
2562     return;
2563 }
2564
2565
2566 /* ------------------Internal interfaces------------------------- */
2567
2568 /* Return this process's service structure for the
2569  * specified socket and service */
2570 static struct rx_service *
2571 rxi_FindService(osi_socket socket, u_short serviceId)
2572 {
2573     struct rx_service **sp;
2574     for (sp = &rx_services[0]; *sp; sp++) {
2575         if ((*sp)->serviceId == serviceId && (*sp)->socket == socket)
2576             return *sp;
2577     }
2578     return 0;
2579 }
2580
2581 #ifdef RXDEBUG_PACKET
2582 #ifdef KDUMP_RX_LOCK
2583 static struct rx_call_rx_lock *rx_allCallsp = 0;
2584 #else
2585 static struct rx_call *rx_allCallsp = 0;
2586 #endif
2587 #endif /* RXDEBUG_PACKET */
2588
2589 /* Allocate a call structure, for the indicated channel of the
2590  * supplied connection.  The mode and state of the call must be set by
2591  * the caller. Returns the call with mutex locked. */
2592 static struct rx_call *
2593 rxi_NewCall(struct rx_connection *conn, int channel)
2594 {
2595     struct rx_call *call;
2596 #ifdef RX_ENABLE_LOCKS
2597     struct rx_call *cp; /* Call pointer temp */
2598     struct opr_queue *cursor;
2599 #endif
2600
2601     dpf(("rxi_NewCall(conn %"AFS_PTR_FMT", channel %d)\n", conn, channel));
2602
2603     /* Grab an existing call structure, or allocate a new one.
2604      * Existing call structures are assumed to have been left reset by
2605      * rxi_FreeCall */
2606     MUTEX_ENTER(&rx_freeCallQueue_lock);
2607
2608 #ifdef RX_ENABLE_LOCKS
2609     /*
2610      * EXCEPT that the TQ might not yet be cleared out.
2611      * Skip over those with in-use TQs.
2612      */
2613     call = NULL;
2614     for (opr_queue_Scan(&rx_freeCallQueue, cursor)) {
2615         cp = opr_queue_Entry(cursor, struct rx_call, entry);
2616         if (!(cp->flags & RX_CALL_TQ_BUSY)) {
2617             call = cp;
2618             break;
2619         }
2620     }
2621     if (call) {
2622 #else /* RX_ENABLE_LOCKS */
2623     if (!opr_queue_IsEmpty(&rx_freeCallQueue)) {
2624         call = opr_queue_First(&rx_freeCallQueue, struct rx_call, entry);
2625 #endif /* RX_ENABLE_LOCKS */
2626         opr_queue_Remove(&call->entry);
2627         if (rx_stats_active)
2628             rx_atomic_dec(&rx_stats.nFreeCallStructs);
2629         MUTEX_EXIT(&rx_freeCallQueue_lock);
2630         MUTEX_ENTER(&call->lock);
2631         CLEAR_CALL_QUEUE_LOCK(call);
2632 #ifdef RX_ENABLE_LOCKS
2633         /* Now, if TQ wasn't cleared earlier, do it now. */
2634         rxi_WaitforTQBusy(call);
2635         if (call->flags & RX_CALL_TQ_CLEARME) {
2636             rxi_ClearTransmitQueue(call, 1);
2637             /*queue_Init(&call->tq);*/
2638         }
2639 #endif /* RX_ENABLE_LOCKS */
2640         /* Bind the call to its connection structure */
2641         call->conn = conn;
2642         rxi_ResetCall(call, 1);
2643     } else {
2644
2645         call = rxi_Alloc(sizeof(struct rx_call));
2646 #ifdef RXDEBUG_PACKET
2647         call->allNextp = rx_allCallsp;
2648         rx_allCallsp = call;
2649         call->call_id =
2650             rx_atomic_inc_and_read(&rx_stats.nCallStructs);
2651 #else /* RXDEBUG_PACKET */
2652         rx_atomic_inc(&rx_stats.nCallStructs);
2653 #endif /* RXDEBUG_PACKET */
2654
2655         MUTEX_EXIT(&rx_freeCallQueue_lock);
2656         MUTEX_INIT(&call->lock, "call lock", MUTEX_DEFAULT, NULL);
2657         MUTEX_ENTER(&call->lock);
2658         CV_INIT(&call->cv_twind, "call twind", CV_DEFAULT, 0);
2659         CV_INIT(&call->cv_rq, "call rq", CV_DEFAULT, 0);
2660         CV_INIT(&call->cv_tq, "call tq", CV_DEFAULT, 0);
2661
2662         /* Initialize once-only items */
2663         opr_queue_Init(&call->tq);
2664         opr_queue_Init(&call->rq);
2665         opr_queue_Init(&call->app.iovq);
2666 #ifdef RXDEBUG_PACKET
2667         call->rqc = call->tqc = call->iovqc = 0;
2668 #endif /* RXDEBUG_PACKET */
2669         /* Bind the call to its connection structure (prereq for reset) */
2670         call->conn = conn;
2671         rxi_ResetCall(call, 1);
2672     }
2673     call->channel = channel;
2674     call->callNumber = &conn->callNumber[channel];
2675     call->rwind = conn->rwind[channel];
2676     call->twind = conn->twind[channel];
2677     /* Note that the next expected call number is retained (in
2678      * conn->callNumber[i]), even if we reallocate the call structure
2679      */
2680     conn->call[channel] = call;
2681     /* if the channel's never been used (== 0), we should start at 1, otherwise
2682      * the call number is valid from the last time this channel was used */
2683     if (*call->callNumber == 0)
2684         *call->callNumber = 1;
2685
2686     return call;
2687 }
2688
2689 /* A call has been inactive long enough that so we can throw away
2690  * state, including the call structure, which is placed on the call
2691  * free list.
2692  *
2693  * call->lock amd rx_refcnt_mutex are held upon entry.
2694  * haveCTLock is set when called from rxi_ReapConnections.
2695  *
2696  * return 1 if the call is freed, 0 if not.
2697  */
2698 static int
2699 rxi_FreeCall(struct rx_call *call, int haveCTLock)
2700 {
2701     int channel = call->channel;
2702     struct rx_connection *conn = call->conn;
2703     u_char state = call->state;
2704
2705     /*
2706      * We are setting the state to RX_STATE_RESET to
2707      * ensure that no one else will attempt to use this
2708      * call once we drop the refcnt lock. We must drop
2709      * the refcnt lock before calling rxi_ResetCall
2710      * because it cannot be held across acquiring the
2711      * freepktQ lock. NewCall does the same.
2712      */
2713     call->state = RX_STATE_RESET;
2714     MUTEX_EXIT(&rx_refcnt_mutex);
2715     rxi_ResetCall(call, 0);
2716
2717     if (MUTEX_TRYENTER(&conn->conn_call_lock))
2718     {
2719         if (state == RX_STATE_DALLY || state == RX_STATE_HOLD)
2720             (*call->callNumber)++;
2721
2722         if (call->conn->call[channel] == call)
2723             call->conn->call[channel] = 0;
2724         MUTEX_EXIT(&conn->conn_call_lock);
2725     } else {
2726         /*
2727          * We couldn't obtain the conn_call_lock so we can't
2728          * disconnect the call from the connection.  Set the
2729          * call state to dally so that the call can be reused.
2730          */
2731         MUTEX_ENTER(&rx_refcnt_mutex);
2732         call->state = RX_STATE_DALLY;
2733         return 0;
2734     }
2735
2736     MUTEX_ENTER(&rx_freeCallQueue_lock);
2737     SET_CALL_QUEUE_LOCK(call, &rx_freeCallQueue_lock);
2738 #ifdef RX_ENABLE_LOCKS
2739     /* A call may be free even though its transmit queue is still in use.
2740      * Since we search the call list from head to tail, put busy calls at
2741      * the head of the list, and idle calls at the tail.
2742      */
2743     if (call->flags & RX_CALL_TQ_BUSY)
2744         opr_queue_Prepend(&rx_freeCallQueue, &call->entry);
2745     else
2746         opr_queue_Append(&rx_freeCallQueue, &call->entry);
2747 #else /* RX_ENABLE_LOCKS */
2748     opr_queue_Append(&rx_freeCallQueue, &call->entry);
2749 #endif /* RX_ENABLE_LOCKS */
2750     if (rx_stats_active)
2751         rx_atomic_inc(&rx_stats.nFreeCallStructs);
2752     MUTEX_EXIT(&rx_freeCallQueue_lock);
2753
2754     /* Destroy the connection if it was previously slated for
2755      * destruction, i.e. the Rx client code previously called
2756      * rx_DestroyConnection (client connections), or
2757      * rxi_ReapConnections called the same routine (server
2758      * connections).  Only do this, however, if there are no
2759      * outstanding calls. Note that for fine grain locking, there appears
2760      * to be a deadlock in that rxi_FreeCall has a call locked and
2761      * DestroyConnectionNoLock locks each call in the conn. But note a
2762      * few lines up where we have removed this call from the conn.
2763      * If someone else destroys a connection, they either have no
2764      * call lock held or are going through this section of code.
2765      */
2766     MUTEX_ENTER(&conn->conn_data_lock);
2767     if (conn->flags & RX_CONN_DESTROY_ME && !(conn->flags & RX_CONN_MAKECALL_WAITING)) {
2768         MUTEX_ENTER(&rx_refcnt_mutex);
2769         conn->refCount++;
2770         MUTEX_EXIT(&rx_refcnt_mutex);
2771         MUTEX_EXIT(&conn->conn_data_lock);
2772 #ifdef RX_ENABLE_LOCKS
2773         if (haveCTLock)
2774             rxi_DestroyConnectionNoLock(conn);
2775         else
2776             rxi_DestroyConnection(conn);
2777 #else /* RX_ENABLE_LOCKS */
2778         rxi_DestroyConnection(conn);
2779 #endif /* RX_ENABLE_LOCKS */
2780     } else {
2781         MUTEX_EXIT(&conn->conn_data_lock);
2782     }
2783     MUTEX_ENTER(&rx_refcnt_mutex);
2784     return 1;
2785 }
2786
2787 rx_atomic_t rxi_Allocsize = RX_ATOMIC_INIT(0);
2788 rx_atomic_t rxi_Alloccnt = RX_ATOMIC_INIT(0);
2789
2790 void *
2791 rxi_Alloc(size_t size)
2792 {
2793     char *p;
2794
2795     if (rx_stats_active) {
2796         rx_atomic_add(&rxi_Allocsize, (int) size);
2797         rx_atomic_inc(&rxi_Alloccnt);
2798     }
2799
2800 p = (char *)
2801 #if defined(KERNEL) && !defined(UKERNEL) && defined(AFS_FBSD80_ENV)
2802   afs_osi_Alloc_NoSleep(size);
2803 #else
2804   osi_Alloc(size);
2805 #endif
2806     if (!p)
2807         osi_Panic("rxi_Alloc error");
2808     memset(p, 0, size);
2809     return p;
2810 }
2811
2812 void
2813 rxi_Free(void *addr, size_t size)
2814 {
2815     if (rx_stats_active) {
2816         rx_atomic_sub(&rxi_Allocsize, (int) size);
2817         rx_atomic_dec(&rxi_Alloccnt);
2818     }
2819     osi_Free(addr, size);
2820 }
2821
2822 void
2823 rxi_SetPeerMtu(struct rx_peer *peer, afs_uint32 host, afs_uint32 port, int mtu)
2824 {
2825     struct rx_peer **peer_ptr = NULL, **peer_end = NULL;
2826     struct rx_peer *next = NULL;
2827     int hashIndex;
2828
2829     if (!peer) {
2830         MUTEX_ENTER(&rx_peerHashTable_lock);
2831         if (port == 0) {
2832             peer_ptr = &rx_peerHashTable[0];
2833             peer_end = &rx_peerHashTable[rx_hashTableSize];
2834             next = NULL;
2835         resume:
2836             for ( ; peer_ptr < peer_end; peer_ptr++) {
2837                 if (!peer)
2838                     peer = *peer_ptr;
2839                 for ( ; peer; peer = next) {
2840                     next = peer->next;
2841                     if (host == peer->host)
2842                         break;
2843                 }
2844             }
2845         } else {
2846             hashIndex = PEER_HASH(host, port);
2847             for (peer = rx_peerHashTable[hashIndex]; peer; peer = peer->next) {
2848                 if ((peer->host == host) && (peer->port == port))
2849                     break;
2850             }
2851         }
2852     } else {
2853         MUTEX_ENTER(&rx_peerHashTable_lock);
2854     }
2855
2856     if (peer) {
2857         peer->refCount++;
2858         MUTEX_EXIT(&rx_peerHashTable_lock);
2859
2860         MUTEX_ENTER(&peer->peer_lock);
2861         /* We don't handle dropping below min, so don't */
2862         mtu = MAX(mtu, RX_MIN_PACKET_SIZE);
2863         peer->ifMTU=MIN(mtu, peer->ifMTU);
2864         peer->natMTU = rxi_AdjustIfMTU(peer->ifMTU);
2865         /* if we tweaked this down, need to tune our peer MTU too */
2866         peer->MTU = MIN(peer->MTU, peer->natMTU);
2867         /* if we discovered a sub-1500 mtu, degrade */
2868         if (peer->ifMTU < OLD_MAX_PACKET_SIZE)
2869             peer->maxDgramPackets = 1;
2870         /* We no longer have valid peer packet information */
2871         if (peer->maxPacketSize + RX_HEADER_SIZE > peer->ifMTU)
2872             peer->maxPacketSize = 0;
2873         MUTEX_EXIT(&peer->peer_lock);
2874
2875         MUTEX_ENTER(&rx_peerHashTable_lock);
2876         peer->refCount--;
2877         if (host && !port) {
2878             peer = next;
2879             /* pick up where we left off */
2880             goto resume;
2881         }
2882     }
2883     MUTEX_EXIT(&rx_peerHashTable_lock);
2884 }
2885
2886 #ifdef AFS_RXERRQ_ENV
2887 static void
2888 rxi_SetPeerDead(struct sock_extended_err *err, afs_uint32 host, afs_uint16 port)
2889 {
2890     int hashIndex = PEER_HASH(host, port);
2891     struct rx_peer *peer;
2892
2893     MUTEX_ENTER(&rx_peerHashTable_lock);
2894
2895     for (peer = rx_peerHashTable[hashIndex]; peer; peer = peer->next) {
2896         if (peer->host == host && peer->port == port) {
2897             peer->refCount++;
2898             break;
2899         }
2900     }
2901
2902     MUTEX_EXIT(&rx_peerHashTable_lock);
2903
2904     if (peer) {
2905         rx_atomic_inc(&peer->neterrs);
2906         MUTEX_ENTER(&peer->peer_lock);
2907         peer->last_err_origin = RX_NETWORK_ERROR_ORIGIN_ICMP;
2908         peer->last_err_type = err->ee_type;
2909         peer->last_err_code = err->ee_code;
2910         MUTEX_EXIT(&peer->peer_lock);
2911
2912         MUTEX_ENTER(&rx_peerHashTable_lock);
2913         peer->refCount--;
2914         MUTEX_EXIT(&rx_peerHashTable_lock);
2915     }
2916 }
2917
2918 void
2919 rxi_ProcessNetError(struct sock_extended_err *err, afs_uint32 addr, afs_uint16 port)
2920 {
2921 # ifdef AFS_ADAPT_PMTU
2922     if (err->ee_errno == EMSGSIZE && err->ee_info >= 68) {
2923         rxi_SetPeerMtu(NULL, addr, port, err->ee_info - RX_IPUDP_SIZE);
2924         return;
2925     }
2926 # endif
2927     if (err->ee_origin == SO_EE_ORIGIN_ICMP && err->ee_type == ICMP_DEST_UNREACH) {
2928         switch (err->ee_code) {
2929         case ICMP_NET_UNREACH:
2930         case ICMP_HOST_UNREACH:
2931         case ICMP_PORT_UNREACH:
2932         case ICMP_NET_ANO:
2933         case ICMP_HOST_ANO:
2934             rxi_SetPeerDead(err, addr, port);
2935             break;
2936         }
2937     }
2938 }
2939
2940 static const char *
2941 rxi_TranslateICMP(int type, int code)
2942 {
2943     switch (type) {
2944     case ICMP_DEST_UNREACH:
2945         switch (code) {
2946         case ICMP_NET_UNREACH:
2947             return "Destination Net Unreachable";
2948         case ICMP_HOST_UNREACH:
2949             return "Destination Host Unreachable";
2950         case ICMP_PROT_UNREACH:
2951             return "Destination Protocol Unreachable";
2952         case ICMP_PORT_UNREACH:
2953             return "Destination Port Unreachable";
2954         case ICMP_NET_ANO:
2955             return "Destination Net Prohibited";
2956         case ICMP_HOST_ANO:
2957             return "Destination Host Prohibited";
2958         }
2959         break;
2960     }
2961     return NULL;
2962 }
2963 #endif /* AFS_RXERRQ_ENV */
2964
2965 /**
2966  * Get the last network error for a connection
2967  *
2968  * A "network error" here means an error retrieved from ICMP, or some other
2969  * mechanism outside of Rx that informs us of errors in network reachability.
2970  *
2971  * If a peer associated with the given Rx connection has received a network
2972  * error recently, this function allows the caller to know what error
2973  * specifically occurred. This can be useful to know, since e.g. ICMP errors
2974  * can cause calls to that peer to be quickly aborted. So, this function can
2975  * help see why a call was aborted due to network errors.
2976  *
2977  * If we have received traffic from a peer since the last network error, we
2978  * treat that peer as if we had not received an network error for it.
2979  *
2980  * @param[in] conn  The Rx connection to examine
2981  * @param[out] err_origin  The origin of the last network error (e.g. ICMP);
2982  *                         one of the RX_NETWORK_ERROR_ORIGIN_* constants
2983  * @param[out] err_type  The type of the last error
2984  * @param[out] err_code  The code of the last error
2985  * @param[out] msg  Human-readable error message, if applicable; NULL otherwise
2986  *
2987  * @return If we have an error
2988  *  @retval -1 No error to get; 'out' params are undefined
2989  *  @retval 0 We have an error; 'out' params contain the last error
2990  */
2991 int
2992 rx_GetNetworkError(struct rx_connection *conn, int *err_origin, int *err_type,
2993                    int *err_code, const char **msg)
2994 {
2995 #ifdef AFS_RXERRQ_ENV
2996     struct rx_peer *peer = conn->peer;
2997     if (rx_atomic_read(&peer->neterrs)) {
2998         MUTEX_ENTER(&peer->peer_lock);
2999         *err_origin = peer->last_err_origin;
3000         *err_type = peer->last_err_type;
3001         *err_code = peer->last_err_code;
3002         MUTEX_EXIT(&peer->peer_lock);
3003
3004         *msg = NULL;
3005         if (*err_origin == RX_NETWORK_ERROR_ORIGIN_ICMP) {
3006             *msg = rxi_TranslateICMP(*err_type, *err_code);
3007         }
3008
3009         return 0;
3010     }
3011 #endif
3012     return -1;
3013 }
3014
3015 /* Find the peer process represented by the supplied (host,port)
3016  * combination.  If there is no appropriate active peer structure, a
3017  * new one will be allocated and initialized
3018  */
3019 struct rx_peer *
3020 rxi_FindPeer(afs_uint32 host, u_short port, int create)
3021 {
3022     struct rx_peer *pp;
3023     int hashIndex;
3024     hashIndex = PEER_HASH(host, port);
3025     MUTEX_ENTER(&rx_peerHashTable_lock);
3026     for (pp = rx_peerHashTable[hashIndex]; pp; pp = pp->next) {
3027         if ((pp->host == host) && (pp->port == port))
3028             break;
3029     }
3030     if (!pp) {
3031         if (create) {
3032             pp = rxi_AllocPeer();       /* This bzero's *pp */
3033             pp->host = host;    /* set here or in InitPeerParams is zero */
3034             pp->port = port;
3035 #ifdef AFS_RXERRQ_ENV
3036             rx_atomic_set(&pp->neterrs, 0);
3037 #endif
3038             MUTEX_INIT(&pp->peer_lock, "peer_lock", MUTEX_DEFAULT, 0);
3039             opr_queue_Init(&pp->rpcStats);
3040             pp->next = rx_peerHashTable[hashIndex];
3041             rx_peerHashTable[hashIndex] = pp;
3042             rxi_InitPeerParams(pp);
3043             if (rx_stats_active)
3044                 rx_atomic_inc(&rx_stats.nPeerStructs);
3045         }
3046     }
3047     if (pp && create) {
3048         pp->refCount++;
3049     }
3050     MUTEX_EXIT(&rx_peerHashTable_lock);
3051     return pp;
3052 }
3053
3054
3055 /* Find the connection at (host, port) started at epoch, and with the
3056  * given connection id.  Creates the server connection if necessary.
3057  * The type specifies whether a client connection or a server
3058  * connection is desired.  In both cases, (host, port) specify the
3059  * peer's (host, pair) pair.  Client connections are not made
3060  * automatically by this routine.  The parameter socket gives the
3061  * socket descriptor on which the packet was received.  This is used,
3062  * in the case of server connections, to check that *new* connections
3063  * come via a valid (port, serviceId).  Finally, the securityIndex
3064  * parameter must match the existing index for the connection.  If a
3065  * server connection is created, it will be created using the supplied
3066  * index, if the index is valid for this service */
3067 static struct rx_connection *
3068 rxi_FindConnection(osi_socket socket, afs_uint32 host,
3069                    u_short port, u_short serviceId, afs_uint32 cid,
3070                    afs_uint32 epoch, int type, u_int securityIndex,
3071                    int *unknownService)
3072 {
3073     int hashindex, flag, i;
3074     struct rx_connection *conn;
3075     *unknownService = 0;
3076     hashindex = CONN_HASH(host, port, cid, epoch, type);
3077     MUTEX_ENTER(&rx_connHashTable_lock);
3078     rxLastConn ? (conn = rxLastConn, flag = 0) : (conn =
3079                                                   rx_connHashTable[hashindex],
3080                                                   flag = 1);
3081     for (; conn;) {
3082         if ((conn->type == type) && ((cid & RX_CIDMASK) == conn->cid)
3083             && (epoch == conn->epoch)) {
3084             struct rx_peer *pp = conn->peer;
3085             if (securityIndex != conn->securityIndex) {
3086                 /* this isn't supposed to happen, but someone could forge a packet
3087                  * like this, and there seems to be some CM bug that makes this
3088                  * happen from time to time -- in which case, the fileserver
3089                  * asserts. */
3090                 MUTEX_EXIT(&rx_connHashTable_lock);
3091                 return (struct rx_connection *)0;
3092             }
3093             if (pp->host == host && pp->port == port)
3094                 break;
3095             if (type == RX_CLIENT_CONNECTION && pp->port == port)
3096                 break;
3097             /* So what happens when it's a callback connection? */
3098             if (                /*type == RX_CLIENT_CONNECTION && */
3099                    (conn->epoch & 0x80000000))
3100                 break;
3101         }
3102         if (!flag) {
3103             /* the connection rxLastConn that was used the last time is not the
3104              ** one we are looking for now. Hence, start searching in the hash */
3105             flag = 1;
3106             conn = rx_connHashTable[hashindex];
3107         } else
3108             conn = conn->next;
3109     }
3110     if (!conn) {
3111         struct rx_service *service;
3112         if (type == RX_CLIENT_CONNECTION) {
3113             MUTEX_EXIT(&rx_connHashTable_lock);
3114             return (struct rx_connection *)0;
3115         }
3116         service = rxi_FindService(socket, serviceId);
3117         if (!service || (securityIndex >= service->nSecurityObjects)
3118             || (service->securityObjects[securityIndex] == 0)) {
3119             MUTEX_EXIT(&rx_connHashTable_lock);
3120             *unknownService = 1;
3121             return (struct rx_connection *)0;
3122         }
3123         conn = rxi_AllocConnection();   /* This bzero's the connection */
3124         MUTEX_INIT(&conn->conn_call_lock, "conn call lock", MUTEX_DEFAULT, 0);
3125         MUTEX_INIT(&conn->conn_data_lock, "conn data lock", MUTEX_DEFAULT, 0);
3126         CV_INIT(&conn->conn_call_cv, "conn call cv", CV_DEFAULT, 0);
3127         conn->next = rx_connHashTable[hashindex];
3128         rx_connHashTable[hashindex] = conn;
3129         conn->peer = rxi_FindPeer(host, port, 1);
3130         conn->type = RX_SERVER_CONNECTION;
3131         conn->lastSendTime = clock_Sec();       /* don't GC immediately */
3132         conn->epoch = epoch;
3133         conn->cid = cid & RX_CIDMASK;
3134         conn->ackRate = RX_FAST_ACK_RATE;
3135         conn->service = service;
3136         conn->serviceId = serviceId;
3137         conn->securityIndex = securityIndex;
3138         conn->securityObject = service->securityObjects[securityIndex];
3139         conn->nSpecific = 0;
3140         conn->specific = NULL;
3141         rx_SetConnDeadTime(conn, service->connDeadTime);
3142         rx_SetConnIdleDeadTime(conn, service->idleDeadTime);
3143         for (i = 0; i < RX_MAXCALLS; i++) {
3144             conn->twind[i] = rx_initSendWindow;
3145             conn->rwind[i] = rx_initReceiveWindow;
3146         }
3147         /* Notify security object of the new connection */
3148         RXS_NewConnection(conn->securityObject, conn);
3149         /* XXXX Connection timeout? */
3150         if (service->newConnProc)
3151             (*service->newConnProc) (conn);
3152         if (rx_stats_active)
3153             rx_atomic_inc(&rx_stats.nServerConns);
3154     }
3155
3156     MUTEX_ENTER(&rx_refcnt_mutex);
3157     conn->refCount++;
3158     MUTEX_EXIT(&rx_refcnt_mutex);
3159
3160     rxLastConn = conn;          /* store this connection as the last conn used */
3161     MUTEX_EXIT(&rx_connHashTable_lock);
3162     return conn;
3163 }
3164
3165 /*!
3166  * Abort the call if the server is over the busy threshold. This
3167  * can be used without requiring a call structure be initialised,
3168  * or connected to a particular channel
3169  */
3170 static_inline int
3171 rxi_AbortIfServerBusy(osi_socket socket, struct rx_connection *conn,
3172                       struct rx_packet *np)
3173 {
3174     if ((rx_BusyThreshold > 0) &&
3175         (rx_atomic_read(&rx_nWaiting) > rx_BusyThreshold)) {
3176         rxi_SendRawAbort(socket, conn->peer->host, conn->peer->port,
3177                          rx_BusyError, np, 0);
3178         if (rx_stats_active)
3179             rx_atomic_inc(&rx_stats.nBusies);
3180         return 1;
3181     }
3182
3183     return 0;
3184 }
3185
3186 static_inline struct rx_call *
3187 rxi_ReceiveClientCall(struct rx_packet *np, struct rx_connection *conn)
3188 {
3189     int channel;
3190     struct rx_call *call;
3191
3192     channel = np->header.cid & RX_CHANNELMASK;
3193     MUTEX_ENTER(&conn->conn_call_lock);
3194     call = conn->call[channel];
3195     if (np->header.type == RX_PACKET_TYPE_BUSY) {
3196         conn->lastBusy[channel] = clock_Sec();
3197     }
3198     if (!call || conn->callNumber[channel] != np->header.callNumber) {
3199         MUTEX_EXIT(&conn->conn_call_lock);
3200         if (rx_stats_active)
3201             rx_atomic_inc(&rx_stats.spuriousPacketsRead);
3202         return NULL;
3203     }
3204
3205     MUTEX_ENTER(&call->lock);
3206     MUTEX_EXIT(&conn->conn_call_lock);
3207
3208     if ((call->state == RX_STATE_DALLY)
3209         && np->header.type == RX_PACKET_TYPE_ACK) {
3210         if (rx_stats_active)
3211             rx_atomic_inc(&rx_stats.ignorePacketDally);
3212         MUTEX_EXIT(&call->lock);
3213         return NULL;
3214     }
3215
3216     return call;
3217 }
3218
3219 static_inline struct rx_call *
3220 rxi_ReceiveServerCall(osi_socket socket, struct rx_packet *np,
3221                       struct rx_connection *conn)
3222 {
3223     int channel;
3224     struct rx_call *call;
3225
3226     channel = np->header.cid & RX_CHANNELMASK;
3227     MUTEX_ENTER(&conn->conn_call_lock);
3228     call = conn->call[channel];
3229
3230     if (!call) {
3231         if (rxi_AbortIfServerBusy(socket, conn, np)) {
3232             MUTEX_EXIT(&conn->conn_call_lock);
3233             return NULL;
3234         }
3235
3236         call = rxi_NewCall(conn, channel);  /* returns locked call */
3237         *call->callNumber = np->header.callNumber;
3238         MUTEX_EXIT(&conn->conn_call_lock);
3239
3240         call->state = RX_STATE_PRECALL;
3241         clock_GetTime(&call->queueTime);
3242         call->app.bytesSent = 0;
3243         call->app.bytesRcvd = 0;
3244         rxi_KeepAliveOn(call);
3245
3246         return call;
3247     }
3248
3249     if (np->header.callNumber == conn->callNumber[channel]) {
3250         MUTEX_ENTER(&call->lock);
3251         MUTEX_EXIT(&conn->conn_call_lock);
3252         return call;
3253     }
3254
3255     if (np->header.callNumber < conn->callNumber[channel]) {
3256         MUTEX_EXIT(&conn->conn_call_lock);
3257         if (rx_stats_active)
3258             rx_atomic_inc(&rx_stats.spuriousPacketsRead);
3259         return NULL;
3260     }
3261
3262     MUTEX_ENTER(&call->lock);
3263     MUTEX_EXIT(&conn->conn_call_lock);
3264
3265     /* Wait until the transmit queue is idle before deciding
3266      * whether to reset the current call. Chances are that the
3267      * call will be in ether DALLY or HOLD state once the TQ_BUSY
3268      * flag is cleared.
3269      */
3270 #ifdef RX_ENABLE_LOCKS
3271     if (call->state == RX_STATE_ACTIVE && !call->error) {
3272         rxi_WaitforTQBusy(call);
3273         /* If we entered error state while waiting,
3274          * must call rxi_CallError to permit rxi_ResetCall
3275          * to processed when the tqWaiter count hits zero.
3276          */
3277         if (call->error) {
3278             rxi_CallError(call, call->error);
3279             MUTEX_EXIT(&call->lock);
3280             return NULL;
3281         }
3282     }
3283 #endif /* RX_ENABLE_LOCKS */
3284     /* If the new call cannot be taken right now send a busy and set
3285      * the error condition in this call, so that it terminates as
3286      * quickly as possible */
3287     if (call->state == RX_STATE_ACTIVE) {
3288         rxi_CallError(call, RX_CALL_DEAD);
3289         rxi_SendSpecial(call, conn, NULL, RX_PACKET_TYPE_BUSY,
3290                         NULL, 0, 1);
3291         MUTEX_EXIT(&call->lock);
3292         return NULL;
3293     }
3294
3295     if (rxi_AbortIfServerBusy(socket, conn, np)) {
3296         MUTEX_EXIT(&call->lock);
3297         return NULL;
3298     }
3299
3300     rxi_ResetCall(call, 0);
3301     /* The conn_call_lock is not held but no one else should be
3302      * using this call channel while we are processing this incoming
3303      * packet.  This assignment should be safe.
3304      */
3305     *call->callNumber = np->header.callNumber;
3306     call->state = RX_STATE_PRECALL;
3307     clock_GetTime(&call->queueTime);
3308     call->app.bytesSent = 0;
3309     call->app.bytesRcvd = 0;
3310     rxi_KeepAliveOn(call);
3311
3312     return call;
3313 }
3314
3315
3316 /* There are two packet tracing routines available for testing and monitoring
3317  * Rx.  One is called just after every packet is received and the other is
3318  * called just before every packet is sent.  Received packets, have had their
3319  * headers decoded, and packets to be sent have not yet had their headers
3320  * encoded.  Both take two parameters: a pointer to the packet and a sockaddr
3321  * containing the network address.  Both can be modified.  The return value, if
3322  * non-zero, indicates that the packet should be dropped.  */
3323
3324 int (*rx_justReceived) (struct rx_packet *, struct sockaddr_in *) = 0;
3325 int (*rx_almostSent) (struct rx_packet *, struct sockaddr_in *) = 0;
3326
3327 /* A packet has been received off the interface.  Np is the packet, socket is
3328  * the socket number it was received from (useful in determining which service
3329  * this packet corresponds to), and (host, port) reflect the host,port of the
3330  * sender.  This call returns the packet to the caller if it is finished with
3331  * it, rather than de-allocating it, just as a small performance hack */
3332
3333 struct rx_packet *
3334 rxi_ReceivePacket(struct rx_packet *np, osi_socket socket,
3335                   afs_uint32 host, u_short port, int *tnop,
3336                   struct rx_call **newcallp)
3337 {
3338     struct rx_call *call;
3339     struct rx_connection *conn;
3340     int type;
3341     int unknownService = 0;
3342 #ifdef RXDEBUG
3343     char *packetType;
3344 #endif
3345     struct rx_packet *tnp;
3346
3347 #ifdef RXDEBUG
3348 /* We don't print out the packet until now because (1) the time may not be
3349  * accurate enough until now in the lwp implementation (rx_Listener only gets
3350  * the time after the packet is read) and (2) from a protocol point of view,
3351  * this is the first time the packet has been seen */
3352     packetType = (np->header.type > 0 && np->header.type < RX_N_PACKET_TYPES)
3353         ? rx_packetTypes[np->header.type - 1] : "*UNKNOWN*";
3354     dpf(("R %d %s: %x.%d.%d.%d.%d.%d.%d flags %d, packet %"AFS_PTR_FMT"\n",
3355          np->header.serial, packetType, ntohl(host), ntohs(port), np->header.serviceId,
3356          np->header.epoch, np->header.cid, np->header.callNumber,
3357          np->header.seq, np->header.flags, np));
3358 #endif
3359
3360     /* Account for connectionless packets */
3361     if (rx_stats_active &&
3362         ((np->header.type == RX_PACKET_TYPE_VERSION) ||
3363          (np->header.type == RX_PACKET_TYPE_DEBUG))) {
3364         struct rx_peer *peer;
3365
3366         /* Try to look up the peer structure, but don't create one */
3367         peer = rxi_FindPeer(host, port, 0);
3368
3369         /* Since this may not be associated with a connection, it may have
3370          * no refCount, meaning we could race with ReapConnections
3371          */
3372
3373         if (peer && (peer->refCount > 0)) {
3374 #ifdef AFS_RXERRQ_ENV
3375             if (rx_atomic_read(&peer->neterrs)) {
3376                 rx_atomic_set(&peer->neterrs, 0);
3377             }
3378 #endif
3379             MUTEX_ENTER(&peer->peer_lock);
3380             peer->bytesReceived += np->length;
3381             MUTEX_EXIT(&peer->peer_lock);
3382         }
3383     }
3384
3385     if (np->header.type == RX_PACKET_TYPE_VERSION) {
3386         return rxi_ReceiveVersionPacket(np, socket, host, port, 1);
3387     }
3388
3389     if (np->header.type == RX_PACKET_TYPE_DEBUG) {
3390         return rxi_ReceiveDebugPacket(np, socket, host, port, 1);
3391     }
3392 #ifdef RXDEBUG
3393     /* If an input tracer function is defined, call it with the packet and
3394      * network address.  Note this function may modify its arguments. */
3395     if (rx_justReceived) {
3396         struct sockaddr_in addr;
3397         int drop;
3398         addr.sin_family = AF_INET;
3399         addr.sin_port = port;
3400         addr.sin_addr.s_addr = host;
3401         memset(&addr.sin_zero, 0, sizeof(addr.sin_zero));
3402 #ifdef STRUCT_SOCKADDR_HAS_SA_LEN
3403         addr.sin_len = sizeof(addr);
3404 #endif /* AFS_OSF_ENV */
3405         drop = (*rx_justReceived) (np, &addr);
3406         /* drop packet if return value is non-zero */
3407         if (drop)
3408             return np;
3409         port = addr.sin_port;   /* in case fcn changed addr */
3410         host = addr.sin_addr.s_addr;
3411     }
3412 #endif
3413
3414     /* If packet was not sent by the client, then *we* must be the client */
3415     type = ((np->header.flags & RX_CLIENT_INITIATED) != RX_CLIENT_INITIATED)
3416         ? RX_CLIENT_CONNECTION : RX_SERVER_CONNECTION;
3417
3418     /* Find the connection (or fabricate one, if we're the server & if
3419      * necessary) associated with this packet */
3420     conn =
3421         rxi_FindConnection(socket, host, port, np->header.serviceId,
3422                            np->header.cid, np->header.epoch, type,
3423                            np->header.securityIndex, &unknownService);
3424
3425     /* To avoid having 2 connections just abort at each other,
3426        don't abort an abort. */
3427     if (!conn) {
3428         if (unknownService && (np->header.type != RX_PACKET_TYPE_ABORT))
3429             rxi_SendRawAbort(socket, host, port, RX_INVALID_OPERATION,
3430                              np, 0);
3431         return np;
3432     }
3433
3434 #ifdef AFS_RXERRQ_ENV
3435     if (rx_atomic_read(&conn->peer->neterrs)) {
3436         rx_atomic_set(&conn->peer->neterrs, 0);
3437     }
3438 #endif
3439
3440     /* If we're doing statistics, then account for the incoming packet */
3441     if (rx_stats_active) {
3442         MUTEX_ENTER(&conn->peer->peer_lock);
3443         conn->peer->bytesReceived += np->length;
3444         MUTEX_EXIT(&conn->peer->peer_lock);
3445     }
3446
3447     /* If the connection is in an error state, send an abort packet and ignore
3448      * the incoming packet */
3449     if (conn->error) {
3450         /* Don't respond to an abort packet--we don't want loops! */
3451         MUTEX_ENTER(&conn->conn_data_lock);
3452         if (np->header.type != RX_PACKET_TYPE_ABORT)
3453             np = rxi_SendConnectionAbort(conn, np, 1, 0);
3454         putConnection(conn);
3455         MUTEX_EXIT(&conn->conn_data_lock);
3456         return np;
3457     }
3458
3459     /* Check for connection-only requests (i.e. not call specific). */
3460     if (np->header.callNumber == 0) {
3461         switch (np->header.type) {
3462         case RX_PACKET_TYPE_ABORT: {
3463             /* What if the supplied error is zero? */
3464             afs_int32 errcode = ntohl(rx_GetInt32(np, 0));
3465             dpf(("rxi_ReceivePacket ABORT rx_GetInt32 = %d\n", errcode));
3466             rxi_ConnectionError(conn, errcode);
3467             putConnection(conn);
3468             return np;
3469         }
3470         case RX_PACKET_TYPE_CHALLENGE:
3471             tnp = rxi_ReceiveChallengePacket(conn, np, 1);
3472             putConnection(conn);
3473             return tnp;
3474         case RX_PACKET_TYPE_RESPONSE:
3475             tnp = rxi_ReceiveResponsePacket(conn, np, 1);
3476             putConnection(conn);
3477             return tnp;
3478         case RX_PACKET_TYPE_PARAMS:
3479         case RX_PACKET_TYPE_PARAMS + 1:
3480         case RX_PACKET_TYPE_PARAMS + 2:
3481             /* ignore these packet types for now */
3482             putConnection(conn);
3483             return np;
3484
3485         default:
3486             /* Should not reach here, unless the peer is broken: send an
3487              * abort packet */
3488             rxi_ConnectionError(conn, RX_PROTOCOL_ERROR);
3489             MUTEX_ENTER(&conn->conn_data_lock);
3490             tnp = rxi_SendConnectionAbort(conn, np, 1, 0);
3491             putConnection(conn);
3492             MUTEX_EXIT(&conn->conn_data_lock);
3493             return tnp;
3494         }
3495     }
3496
3497     if (type == RX_SERVER_CONNECTION)
3498         call = rxi_ReceiveServerCall(socket, np, conn);
3499     else
3500         call = rxi_ReceiveClientCall(np, conn);
3501
3502     if (call == NULL) {
3503         putConnection(conn);
3504         return np;
3505     }
3506
3507     MUTEX_ASSERT(&call->lock);
3508     /* Set remote user defined status from packet */
3509     call->remoteStatus = np->header.userStatus;
3510
3511     /* Now do packet type-specific processing */
3512     switch (np->header.type) {
3513     case RX_PACKET_TYPE_DATA:
3514         /* If we're a client, and receiving a response, then all the packets
3515          * we transmitted packets are implicitly acknowledged. */
3516         if (type == RX_CLIENT_CONNECTION && !opr_queue_IsEmpty(&call->tq))
3517             rxi_AckAllInTransmitQueue(call);
3518
3519         np = rxi_ReceiveDataPacket(call, np, 1, socket, host, port, tnop,
3520                                    newcallp);
3521         break;
3522     case RX_PACKET_TYPE_ACK:
3523         /* Respond immediately to ack packets requesting acknowledgement
3524          * (ping packets) */
3525         if (np->header.flags & RX_REQUEST_ACK) {
3526             if (call->error)
3527                 (void)rxi_SendCallAbort(call, 0, 1, 0);
3528             else
3529                 (void)rxi_SendAck(call, 0, np->header.serial,
3530                                   RX_ACK_PING_RESPONSE, 1);
3531         }
3532         np = rxi_ReceiveAckPacket(call, np, 1);
3533         break;
3534     case RX_PACKET_TYPE_ABORT: {
3535         /* An abort packet: reset the call, passing the error up to the user. */
3536         /* What if error is zero? */
3537         /* What if the error is -1? the application will treat it as a timeout. */
3538         afs_int32 errdata = ntohl(*(afs_int32 *) rx_DataOf(np));
3539         dpf(("rxi_ReceivePacket ABORT rx_DataOf = %d\n", errdata));
3540         rxi_CallError(call, errdata);
3541         MUTEX_EXIT(&call->lock);
3542         putConnection(conn);
3543         return np;              /* xmitting; drop packet */
3544     }
3545     case RX_PACKET_TYPE_BUSY:
3546         /* Mostly ignore BUSY packets. We will update lastReceiveTime below,
3547          * so we don't think the endpoint is completely dead, but otherwise
3548          * just act as if we never saw anything. If all we get are BUSY packets
3549          * back, then we will eventually error out with RX_CALL_TIMEOUT if the
3550          * connection is configured with idle/hard timeouts. */
3551         break;
3552
3553     case RX_PACKET_TYPE_ACKALL:
3554         /* All packets acknowledged, so we can drop all packets previously
3555          * readied for sending */
3556         rxi_AckAllInTransmitQueue(call);
3557         break;
3558     default:
3559         /* Should not reach here, unless the peer is broken: send an abort
3560          * packet */
3561         rxi_CallError(call, RX_PROTOCOL_ERROR);
3562         np = rxi_SendCallAbort(call, np, 1, 0);
3563         break;
3564     };
3565     /* Note when this last legitimate packet was received, for keep-alive
3566      * processing.  Note, we delay getting the time until now in the hope that
3567      * the packet will be delivered to the user before any get time is required
3568      * (if not, then the time won't actually be re-evaluated here). */
3569     call->lastReceiveTime = clock_Sec();
3570     MUTEX_EXIT(&call->lock);
3571     putConnection(conn);
3572     return np;
3573 }
3574
3575 /* return true if this is an "interesting" connection from the point of view
3576     of someone trying to debug the system */
3577 int
3578 rxi_IsConnInteresting(struct rx_connection *aconn)
3579 {
3580     int i;
3581     struct rx_call *tcall;
3582
3583     if (aconn->flags & (RX_CONN_MAKECALL_WAITING | RX_CONN_DESTROY_ME))
3584         return 1;
3585
3586     for (i = 0; i < RX_MAXCALLS; i++) {
3587         tcall = aconn->call[i];
3588         if (tcall) {
3589             if ((tcall->state == RX_STATE_PRECALL)
3590                 || (tcall->state == RX_STATE_ACTIVE))
3591                 return 1;
3592             if ((tcall->app.mode == RX_MODE_SENDING)
3593                 || (tcall->app.mode == RX_MODE_RECEIVING))
3594                 return 1;
3595         }
3596     }
3597     return 0;
3598 }
3599
3600 #ifdef KERNEL
3601 /* if this is one of the last few packets AND it wouldn't be used by the
3602    receiving call to immediately satisfy a read request, then drop it on
3603    the floor, since accepting it might prevent a lock-holding thread from
3604    making progress in its reading. If a call has been cleared while in
3605    the precall state then ignore all subsequent packets until the call
3606    is assigned to a thread. */
3607
3608 static int
3609 TooLow(struct rx_packet *ap, struct rx_call *acall)
3610 {
3611     int rc = 0;
3612
3613     MUTEX_ENTER(&rx_quota_mutex);
3614     if (((ap->header.seq != 1) && (acall->flags & RX_CALL_CLEARED)
3615          && (acall->state == RX_STATE_PRECALL))
3616         || ((rx_nFreePackets < rxi_dataQuota + 2)
3617             && !((ap->header.seq < acall->rnext + rx_initSendWindow)
3618                  && (acall->flags & RX_CALL_READER_WAIT)))) {
3619         rc = 1;
3620     }
3621     MUTEX_EXIT(&rx_quota_mutex);
3622     return rc;
3623 }
3624 #endif /* KERNEL */
3625
3626 /*!
3627  * Clear the attach wait flag on a connection and proceed.
3628  *
3629  * Any processing waiting for a connection to be attached should be
3630  * unblocked. We clear the flag and do any other needed tasks.
3631  *
3632  * @param[in] conn
3633  *      the conn to unmark waiting for attach
3634  *
3635  * @pre conn's conn_data_lock must be locked before calling this function
3636  *
3637  */
3638 static void
3639 rxi_ConnClearAttachWait(struct rx_connection *conn)
3640 {
3641     /* Indicate that rxi_CheckReachEvent is no longer running by
3642      * clearing the flag.  Must be atomic under conn_data_lock to
3643      * avoid a new call slipping by: rxi_CheckConnReach holds
3644      * conn_data_lock while checking RX_CONN_ATTACHWAIT.
3645      */
3646     conn->flags &= ~RX_CONN_ATTACHWAIT;
3647     if (conn->flags & RX_CONN_NAT_PING) {
3648         conn->flags &= ~RX_CONN_NAT_PING;
3649         rxi_ScheduleNatKeepAliveEvent(conn);
3650     }
3651 }
3652
3653 /*
3654  * Event handler function for connection-specific events for checking
3655  * reachability.  Also called directly from main code with |event| == NULL
3656  * in order to trigger the initial reachability check.
3657  *
3658  * When |event| == NULL, must be called with the connection data lock held,
3659  * but returns with the lock unlocked.
3660  */
3661 static void
3662 rxi_CheckReachEvent(struct rxevent *event, void *arg1, void *arg2, int dummy)
3663 {
3664     struct rx_connection *conn = arg1;
3665     struct rx_call *acall = arg2;
3666     struct rx_call *call = acall;
3667     struct clock when, now;
3668     int i, waiting;
3669
3670     if (event != NULL)
3671         MUTEX_ENTER(&conn->conn_data_lock);
3672     else
3673         MUTEX_ASSERT(&conn->conn_data_lock);
3674
3675     if (event != NULL && event == conn->checkReachEvent)
3676         rxevent_Put(&conn->checkReachEvent);
3677     waiting = conn->flags & RX_CONN_ATTACHWAIT;
3678     MUTEX_EXIT(&conn->conn_data_lock);
3679
3680     if (waiting) {
3681         if (!call) {
3682             MUTEX_ENTER(&conn->conn_call_lock);
3683             MUTEX_ENTER(&conn->conn_data_lock);
3684             for (i = 0; i < RX_MAXCALLS; i++) {
3685                 struct rx_call *tc = conn->call[i];
3686                 if (tc && tc->state == RX_STATE_PRECALL) {
3687                     call = tc;
3688                     break;
3689                 }
3690             }
3691             if (!call)
3692                 rxi_ConnClearAttachWait(conn);
3693             MUTEX_EXIT(&conn->conn_data_lock);
3694             MUTEX_EXIT(&conn->conn_call_lock);
3695         }
3696
3697         if (call) {
3698             if (call != acall)
3699                 MUTEX_ENTER(&call->lock);
3700             rxi_SendAck(call, NULL, 0, RX_ACK_PING, 0);
3701             if (call != acall)
3702                 MUTEX_EXIT(&call->lock);
3703
3704             clock_GetTime(&now);
3705             when = now;
3706             when.sec += RX_CHECKREACH_TIMEOUT;
3707             MUTEX_ENTER(&conn->conn_data_lock);
3708             if (!conn->checkReachEvent) {
3709                 rx_GetConnection(conn);
3710                 conn->checkReachEvent = rxevent_Post(&when, &now,
3711                                                      rxi_CheckReachEvent, conn,
3712                                                      NULL, 0);
3713             }
3714             MUTEX_EXIT(&conn->conn_data_lock);
3715         }
3716     }
3717     /* If fired as an event handler, drop our refcount on the connection. */
3718     if (event != NULL)
3719         putConnection(conn);
3720 }
3721
3722 static int
3723 rxi_CheckConnReach(struct rx_connection *conn, struct rx_call *call)
3724 {
3725     struct rx_service *service = conn->service;
3726     struct rx_peer *peer = conn->peer;
3727     afs_uint32 now, lastReach;
3728
3729     if (service->checkReach == 0)
3730         return 0;
3731
3732     now = clock_Sec();
3733     MUTEX_ENTER(&peer->peer_lock);
3734     lastReach = peer->lastReachTime;
3735     MUTEX_EXIT(&peer->peer_lock);
3736     if (now - lastReach < RX_CHECKREACH_TTL)
3737         return 0;
3738
3739     MUTEX_ENTER(&conn->conn_data_lock);
3740     if (conn->flags & RX_CONN_ATTACHWAIT) {
3741         MUTEX_EXIT(&conn->conn_data_lock);
3742         return 1;
3743     }
3744     conn->flags |= RX_CONN_ATTACHWAIT;
3745     if (conn->checkReachEvent == NULL) {
3746         /* rxi_CheckReachEvent(NULL, ...) will drop the lock. */
3747         rxi_CheckReachEvent(NULL, conn, call, 0);
3748     } else {
3749         MUTEX_EXIT(&conn->conn_data_lock);
3750     }
3751
3752     return 1;
3753 }
3754
3755 /* try to attach call, if authentication is complete */
3756 static void
3757 TryAttach(struct rx_call *acall, osi_socket socket,
3758           int *tnop, struct rx_call **newcallp,
3759           int reachOverride)
3760 {
3761     struct rx_connection *conn = acall->conn;
3762
3763     if (conn->type == RX_SERVER_CONNECTION
3764         && acall->state == RX_STATE_PRECALL) {
3765         /* Don't attach until we have any req'd. authentication. */
3766         if (RXS_CheckAuthentication(conn->securityObject, conn) == 0) {
3767             if (reachOverride || rxi_CheckConnReach(conn, acall) == 0)
3768                 rxi_AttachServerProc(acall, socket, tnop, newcallp);
3769             /* Note:  this does not necessarily succeed; there
3770              * may not any proc available
3771              */
3772         } else {
3773             rxi_ChallengeOn(acall->conn);
3774         }
3775     }
3776 }
3777
3778 /* A data packet has been received off the interface.  This packet is
3779  * appropriate to the call (the call is in the right state, etc.).  This
3780  * routine can return a packet to the caller, for re-use */
3781
3782 static struct rx_packet *
3783 rxi_ReceiveDataPacket(struct rx_call *call,
3784                       struct rx_packet *np, int istack,
3785                       osi_socket socket, afs_uint32 host, u_short port,
3786                       int *tnop, struct rx_call **newcallp)
3787 {
3788     int ackNeeded = 0;          /* 0 means no, otherwise ack_reason */
3789     int newPackets = 0;
3790     int didHardAck = 0;
3791     int haveLast = 0;
3792     afs_uint32 seq;
3793     afs_uint32 serial=0, flags=0;
3794     int isFirst;
3795     struct rx_packet *tnp;
3796     if (rx_stats_active)
3797         rx_atomic_inc(&rx_stats.dataPacketsRead);
3798
3799 #ifdef KERNEL
3800     /* If there are no packet buffers, drop this new packet, unless we can find
3801      * packet buffers from inactive calls */
3802     if (!call->error
3803         && (rxi_OverQuota(RX_PACKET_CLASS_RECEIVE) || TooLow(np, call))) {
3804         MUTEX_ENTER(&rx_freePktQ_lock);
3805         rxi_NeedMorePackets = TRUE;
3806         MUTEX_EXIT(&rx_freePktQ_lock);
3807         if (rx_stats_active)
3808             rx_atomic_inc(&rx_stats.noPacketBuffersOnRead);
3809         rxi_calltrace(RX_TRACE_DROP, call);
3810         dpf(("packet %"AFS_PTR_FMT" dropped on receipt - quota problems\n", np));
3811         /* We used to clear the receive queue here, in an attempt to free
3812          * packets. However this is unsafe if the queue has received a
3813          * soft ACK for the final packet */
3814         rxi_PostDelayedAckEvent(call, &rx_softAckDelay);
3815         return np;
3816     }
3817 #endif /* KERNEL */
3818
3819     /*
3820      * New in AFS 3.5, if the RX_JUMBO_PACKET flag is set then this
3821      * packet is one of several packets transmitted as a single
3822      * datagram. Do not send any soft or hard acks until all packets
3823      * in a jumbogram have been processed. Send negative acks right away.
3824      */
3825     for (isFirst = 1, tnp = NULL; isFirst || tnp; isFirst = 0) {
3826         /* tnp is non-null when there are more packets in the
3827          * current jumbo gram */
3828         if (tnp) {
3829             if (np)
3830                 rxi_FreePacket(np);
3831             np = tnp;
3832         }
3833
3834         seq = np->header.seq;
3835         serial = np->header.serial;
3836         flags = np->header.flags;
3837
3838         /* If the call is in an error state, send an abort message */
3839         if (call->error)
3840             return rxi_SendCallAbort(call, np, istack, 0);
3841
3842         /* The RX_JUMBO_PACKET is set in all but the last packet in each
3843          * AFS 3.5 jumbogram. */
3844         if (flags & RX_JUMBO_PACKET) {
3845             tnp = rxi_SplitJumboPacket(np, host, port, isFirst);
3846         } else {
3847             tnp = NULL;
3848         }
3849
3850         if (np->header.spare != 0) {
3851             MUTEX_ENTER(&call->conn->conn_data_lock);
3852             call->conn->flags |= RX_CONN_USING_PACKET_CKSUM;
3853             MUTEX_EXIT(&call->conn->conn_data_lock);
3854         }
3855
3856         /* The usual case is that this is the expected next packet */
3857         if (seq == call->rnext) {
3858
3859             /* Check to make sure it is not a duplicate of one already queued */
3860             if (!opr_queue_IsEmpty(&call->rq)
3861                 && opr_queue_First(&call->rq, struct rx_packet, entry)->header.seq == seq) {
3862                 if (rx_stats_active)
3863                     rx_atomic_inc(&rx_stats.dupPacketsRead);
3864                 dpf(("packet %"AFS_PTR_FMT" dropped on receipt - duplicate\n", np));
3865                 rxi_CancelDelayedAckEvent(call);
3866                 np = rxi_SendAck(call, np, serial, RX_ACK_DUPLICATE, istack);
3867                 ackNeeded = 0;
3868                 call->rprev = seq;
3869                 continue;
3870             }
3871
3872             /* It's the next packet. Stick it on the receive queue
3873              * for this call. Set newPackets to make sure we wake
3874              * the reader once all packets have been processed */
3875 #ifdef RX_TRACK_PACKETS
3876             np->flags |= RX_PKTFLAG_RQ;
3877 #endif
3878             opr_queue_Prepend(&call->rq, &np->entry);
3879 #ifdef RXDEBUG_PACKET
3880             call->rqc++;
3881 #endif /* RXDEBUG_PACKET */
3882             call->nSoftAcks++;
3883             np = NULL;          /* We can't use this anymore */
3884             newPackets = 1;
3885
3886             /* If an ack is requested then set a flag to make sure we
3887              * send an acknowledgement for this packet */
3888             if (flags & RX_REQUEST_ACK) {
3889                 ackNeeded = RX_ACK_REQUESTED;
3890             }
3891
3892             /* Keep track of whether we have received the last packet */
3893             if (flags & RX_LAST_PACKET) {
3894                 call->flags |= RX_CALL_HAVE_LAST;
3895                 haveLast = 1;
3896             }
3897
3898             /* Check whether we have all of the packets for this call */
3899             if (call->flags & RX_CALL_HAVE_LAST) {
3900                 afs_uint32 tseq;        /* temporary sequence number */
3901                 struct opr_queue *cursor;
3902
3903                 for (tseq = seq, opr_queue_Scan(&call->rq, cursor)) {
3904                     struct rx_packet *tp;
3905                     
3906                     tp = opr_queue_Entry(cursor, struct rx_packet, entry);
3907                     if (tseq != tp->header.seq)
3908                         break;
3909                     if (tp->header.flags & RX_LAST_PACKET) {
3910                         call->flags |= RX_CALL_RECEIVE_DONE;
3911                         break;
3912                     }
3913                     tseq++;
3914                 }
3915             }
3916
3917             /* Provide asynchronous notification for those who want it
3918              * (e.g. multi rx) */
3919             if (call->arrivalProc) {
3920                 (*call->arrivalProc) (call, call->arrivalProcHandle,
3921                                       call->arrivalProcArg);
3922                 call->arrivalProc = (void (*)())0;
3923             }
3924
3925             /* Update last packet received */
3926             call->rprev = seq;
3927
3928             /* If there is no server process serving this call, grab
3929              * one, if available. We only need to do this once. If a
3930              * server thread is available, this thread becomes a server
3931              * thread and the server thread becomes a listener thread. */
3932             if (isFirst) {
3933                 TryAttach(call, socket, tnop, newcallp, 0);
3934             }
3935         }
3936         /* This is not the expected next packet. */
3937         else {
3938             /* Determine whether this is a new or old packet, and if it's
3939              * a new one, whether it fits into the current receive window.
3940              * Also figure out whether the packet was delivered in sequence.
3941              * We use the prev variable to determine whether the new packet
3942              * is the successor of its immediate predecessor in the
3943              * receive queue, and the missing flag to determine whether
3944              * any of this packets predecessors are missing.  */
3945
3946             afs_uint32 prev;    /* "Previous packet" sequence number */
3947             struct opr_queue *cursor;
3948             int missing;        /* Are any predecessors missing? */
3949
3950             /* If the new packet's sequence number has been sent to the
3951              * application already, then this is a duplicate */
3952             if (seq < call->rnext) {
3953                 if (rx_stats_active)
3954                     rx_atomic_inc(&rx_stats.dupPacketsRead);
3955                 rxi_CancelDelayedAckEvent(call);
3956                 np = rxi_SendAck(call, np, serial, RX_ACK_DUPLICATE, istack);
3957                 ackNeeded = 0;
3958                 call->rprev = seq;
3959                 continue;
3960             }
3961
3962             /* If the sequence number is greater than what can be
3963              * accomodated by the current window, then send a negative
3964              * acknowledge and drop the packet */
3965             if ((call->rnext + call->rwind) <= seq) {
3966                 rxi_CancelDelayedAckEvent(call);
3967                 np = rxi_SendAck(call, np, serial, RX_ACK_EXCEEDS_WINDOW,
3968                                  istack);
3969                 ackNeeded = 0;
3970                 call->rprev = seq;
3971                 continue;
3972             }
3973
3974             /* Look for the packet in the queue of old received packets */
3975             prev = call->rnext - 1;
3976             missing = 0;
3977             for (opr_queue_Scan(&call->rq, cursor)) {
3978                 struct rx_packet *tp
3979                     = opr_queue_Entry(cursor, struct rx_packet, entry);
3980
3981                 /*Check for duplicate packet */
3982                 if (seq == tp->header.seq) {
3983                     if (rx_stats_active)
3984                         rx_atomic_inc(&rx_stats.dupPacketsRead);
3985                     rxi_CancelDelayedAckEvent(call);
3986                     np = rxi_SendAck(call, np, serial, RX_ACK_DUPLICATE,
3987                                      istack);
3988                     ackNeeded = 0;
3989                     call->rprev = seq;
3990                     goto nextloop;
3991                 }
3992                 /* If we find a higher sequence packet, break out and
3993                  * insert the new packet here. */
3994                 if (seq < tp->header.seq)
3995                     break;
3996                 /* Check for missing packet */
3997                 if (tp->header.seq != prev + 1) {
3998                     missing = 1;
3999                 }
4000
4001                 prev = tp->header.seq;
4002             }
4003
4004             /* Keep track of whether we have received the last packet. */
4005             if (flags & RX_LAST_PACKET) {
4006                 call->flags |= RX_CALL_HAVE_LAST;
4007             }
4008
4009             /* It's within the window: add it to the the receive queue.
4010              * tp is left by the previous loop either pointing at the
4011              * packet before which to insert the new packet, or at the
4012              * queue head if the queue is empty or the packet should be
4013              * appended. */
4014 #ifdef RX_TRACK_PACKETS
4015             np->flags |= RX_PKTFLAG_RQ;
4016 #endif
4017 #ifdef RXDEBUG_PACKET
4018             call->rqc++;
4019 #endif /* RXDEBUG_PACKET */
4020             opr_queue_InsertBefore(cursor, &np->entry);
4021             call->nSoftAcks++;
4022             np = NULL;
4023
4024             /* Check whether we have all of the packets for this call */
4025             if ((call->flags & RX_CALL_HAVE_LAST)
4026                 && !(call->flags & RX_CALL_RECEIVE_DONE)) {
4027                 afs_uint32 tseq;        /* temporary sequence number */
4028
4029                 tseq = call->rnext;
4030                 for (opr_queue_Scan(&call->rq, cursor)) {
4031                     struct rx_packet *tp
4032                          = opr_queue_Entry(cursor, struct rx_packet, entry);
4033                     if (tseq != tp->header.seq)
4034                         break;
4035                     if (tp->header.flags & RX_LAST_PACKET) {
4036                         call->flags |= RX_CALL_RECEIVE_DONE;
4037                         break;
4038                     }
4039                     tseq++;
4040                 }
4041             }
4042
4043             /* We need to send an ack of the packet is out of sequence,
4044              * or if an ack was requested by the peer. */
4045             if (seq != prev + 1 || missing) {
4046                 ackNeeded = RX_ACK_OUT_OF_SEQUENCE;
4047             } else if (flags & RX_REQUEST_ACK) {
4048                 ackNeeded = RX_ACK_REQUESTED;
4049             }
4050
4051             /* Acknowledge the last packet for each call */
4052             if (flags & RX_LAST_PACKET) {
4053                 haveLast = 1;
4054             }
4055
4056             call->rprev = seq;
4057         }
4058       nextloop:;
4059     }
4060
4061     if (newPackets) {
4062         /*
4063          * If the receiver is waiting for an iovec, fill the iovec
4064          * using the data from the receive queue */
4065         if (call->flags & RX_CALL_IOVEC_WAIT) {
4066             didHardAck = rxi_FillReadVec(call, serial);
4067             /* the call may have been aborted */
4068             if (call->error) {
4069                 return NULL;
4070             }
4071             if (didHardAck) {
4072                 ackNeeded = 0;
4073             }
4074         }
4075
4076         /* Wakeup the reader if any */
4077         if ((call->flags & RX_CALL_READER_WAIT)
4078             && (!(call->flags & RX_CALL_IOVEC_WAIT) || !(call->iovNBytes)
4079                 || (call->iovNext >= call->iovMax)
4080                 || (call->flags & RX_CALL_RECEIVE_DONE))) {
4081             call->flags &= ~RX_CALL_READER_WAIT;
4082 #ifdef  RX_ENABLE_LOCKS
4083             CV_BROADCAST(&call->cv_rq);
4084 #else
4085             osi_rxWakeup(&call->rq);
4086 #endif
4087         }
4088     }
4089
4090     /*
4091      * Send an ack when requested by the peer, or once every
4092      * rxi_SoftAckRate packets until the last packet has been
4093      * received. Always send a soft ack for the last packet in
4094      * the server's reply. */
4095     if (ackNeeded) {
4096         rxi_CancelDelayedAckEvent(call);
4097         np = rxi_SendAck(call, np, serial, ackNeeded, istack);
4098     } else if (call->nSoftAcks > (u_short) rxi_SoftAckRate) {
4099         rxi_CancelDelayedAckEvent(call);
4100         np = rxi_SendAck(call, np, serial, RX_ACK_IDLE, istack);
4101     } else if (call->nSoftAcks) {
4102         if (haveLast && !(flags & RX_CLIENT_INITIATED))
4103             rxi_PostDelayedAckEvent(call, &rx_lastAckDelay);
4104         else
4105             rxi_PostDelayedAckEvent(call, &rx_softAckDelay);
4106     } else if (call->flags & RX_CALL_RECEIVE_DONE) {
4107         rxi_CancelDelayedAckEvent(call);
4108     }
4109
4110     return np;
4111 }
4112
4113 static void
4114 rxi_UpdatePeerReach(struct rx_connection *conn, struct rx_call *acall)
4115 {
4116     struct rx_peer *peer = conn->peer;
4117
4118     MUTEX_ENTER(&peer->peer_lock);
4119     peer->lastReachTime = clock_Sec();
4120     MUTEX_EXIT(&peer->peer_lock);
4121
4122     MUTEX_ENTER(&conn->conn_data_lock);
4123     if (conn->flags & RX_CONN_ATTACHWAIT) {
4124         int i;
4125
4126         rxi_ConnClearAttachWait(conn);
4127         MUTEX_EXIT(&conn->conn_data_lock);
4128
4129         for (i = 0; i < RX_MAXCALLS; i++) {
4130             struct rx_call *call = conn->call[i];
4131             if (call) {
4132                 if (call != acall)
4133                     MUTEX_ENTER(&call->lock);
4134                 /* tnop can be null if newcallp is null */
4135                 TryAttach(call, (osi_socket) - 1, NULL, NULL, 1);
4136                 if (call != acall)
4137                     MUTEX_EXIT(&call->lock);
4138             }
4139         }
4140     } else
4141         MUTEX_EXIT(&conn->conn_data_lock);
4142 }
4143
4144 #if defined(RXDEBUG) && defined(AFS_NT40_ENV)
4145 static const char *
4146 rx_ack_reason(int reason)
4147 {
4148     switch (reason) {
4149     case RX_ACK_REQUESTED:
4150         return "requested";
4151     case RX_ACK_DUPLICATE:
4152         return "duplicate";
4153     case RX_ACK_OUT_OF_SEQUENCE:
4154         return "sequence";
4155     case RX_ACK_EXCEEDS_WINDOW:
4156         return "window";
4157     case RX_ACK_NOSPACE:
4158         return "nospace";
4159     case RX_ACK_PING:
4160         return "ping";
4161     case RX_ACK_PING_RESPONSE:
4162         return "response";
4163     case RX_ACK_DELAY:
4164         return "delay";
4165     case RX_ACK_IDLE:
4166         return "idle";
4167     default:
4168         return "unknown!!";
4169     }
4170 }
4171 #endif
4172
4173
4174 /* The real smarts of the whole thing.  */
4175 static struct rx_packet *
4176 rxi_ReceiveAckPacket(struct rx_call *call, struct rx_packet *np,
4177                      int istack)
4178 {
4179     struct rx_ackPacket *ap;
4180     int nAcks;
4181     struct rx_packet *tp;
4182     struct rx_connection *conn = call->conn;
4183     struct rx_peer *peer = conn->peer;
4184     struct opr_queue *cursor;
4185     struct clock now;           /* Current time, for RTT calculations */
4186     afs_uint32 first;
4187     afs_uint32 prev;
4188     afs_uint32 serial;
4189     int nbytes;
4190     int missing;
4191     int acked;
4192     int nNacked = 0;
4193     int newAckCount = 0;
4194     int maxDgramPackets = 0;    /* Set if peer supports AFS 3.5 jumbo datagrams */
4195     int pktsize = 0;            /* Set if we need to update the peer mtu */
4196     int conn_data_locked = 0;
4197
4198     if (rx_stats_active)
4199         rx_atomic_inc(&rx_stats.ackPacketsRead);
4200     ap = (struct rx_ackPacket *)rx_DataOf(np);
4201     nbytes = rx_Contiguous(np) - (int)((ap->acks) - (u_char *) ap);
4202     if (nbytes < 0)
4203         return np;              /* truncated ack packet */
4204
4205     /* depends on ack packet struct */
4206     nAcks = MIN((unsigned)nbytes, (unsigned)ap->nAcks);
4207     first = ntohl(ap->firstPacket);
4208     prev = ntohl(ap->previousPacket);
4209     serial = ntohl(ap->serial);
4210
4211     /*
4212      * Ignore ack packets received out of order while protecting
4213      * against peers that set the previousPacket field to a packet
4214      * serial number instead of a sequence number.
4215      */
4216     if (first < call->tfirst ||
4217         (first == call->tfirst && prev < call->tprev && prev < call->tfirst
4218          + call->twind)) {
4219         return np;
4220     }
4221
4222     call->tprev = prev;
4223
4224     if (np->header.flags & RX_SLOW_START_OK) {
4225         call->flags |= RX_CALL_SLOW_START_OK;
4226     }
4227
4228     if (ap->reason == RX_ACK_PING_RESPONSE)
4229         rxi_UpdatePeerReach(conn, call);
4230
4231     if (conn->lastPacketSizeSeq) {
4232         MUTEX_ENTER(&conn->conn_data_lock);
4233         conn_data_locked = 1;
4234         if ((first > conn->lastPacketSizeSeq) && (conn->lastPacketSize)) {
4235             pktsize = conn->lastPacketSize;
4236             conn->lastPacketSize = conn->lastPacketSizeSeq = 0;
4237         }
4238     }
4239     if ((ap->reason == RX_ACK_PING_RESPONSE) && (conn->lastPingSizeSer)) {
4240         if (!conn_data_locked) {
4241             MUTEX_ENTER(&conn->conn_data_lock);
4242             conn_data_locked = 1;
4243         }
4244         if ((conn->lastPingSizeSer == serial) && (conn->lastPingSize)) {
4245             /* process mtu ping ack */
4246             pktsize = conn->lastPingSize;
4247             conn->lastPingSizeSer = conn->lastPingSize = 0;
4248         }
4249     }
4250
4251     if (conn_data_locked) {
4252         MUTEX_EXIT(&conn->conn_data_lock);
4253         conn_data_locked = 0;
4254     }
4255 #ifdef RXDEBUG
4256 #ifdef AFS_NT40_ENV
4257     if (rxdebug_active) {
4258         char msg[512];
4259         size_t len;
4260
4261         len = _snprintf(msg, sizeof(msg),
4262                         "tid[%d] RACK: reason %s serial %u previous %u seq %u first %u acks %u space %u ",
4263                          GetCurrentThreadId(), rx_ack_reason(ap->reason),
4264                          ntohl(ap->serial), ntohl(ap->previousPacket),
4265                          (unsigned int)np->header.seq, ntohl(ap->firstPacket),
4266                          ap->nAcks, ntohs(ap->bufferSpace) );
4267         if (nAcks) {
4268             int offset;
4269
4270             for (offset = 0; offset < nAcks && len < sizeof(msg); offset++)
4271                 msg[len++] = (ap->acks[offset] == RX_ACK_TYPE_NACK ? '-' : '*');
4272         }
4273         msg[len++]='\n';
4274         msg[len] = '\0';
4275         OutputDebugString(msg);
4276     }
4277 #else /* AFS_NT40_ENV */
4278     if (rx_Log) {
4279         fprintf(rx_Log,
4280                 "RACK: reason %x previous %u seq %u serial %u first %u",
4281                 ap->reason, ntohl(ap->previousPacket),
4282                 (unsigned int)np->header.seq, (unsigned int)serial,
4283                 ntohl(ap->firstPacket));
4284         if (nAcks) {
4285             int offset;
4286             for (offset = 0; offset < nAcks; offset++)
4287                 putc(ap->acks[offset] == RX_ACK_TYPE_NACK ? '-' : '*',
4288                      rx_Log);
4289         }
4290         putc('\n', rx_Log);
4291     }
4292 #endif /* AFS_NT40_ENV */
4293 #endif
4294
4295     MUTEX_ENTER(&peer->peer_lock);
4296     if (pktsize) {
4297         /*
4298          * Start somewhere. Can't assume we can send what we can receive,
4299          * but we are clearly receiving.
4300          */
4301         if (!peer->maxPacketSize)
4302             peer->maxPacketSize = RX_MIN_PACKET_SIZE - RX_HEADER_SIZE;
4303
4304         if (pktsize > peer->maxPacketSize) {
4305             peer->maxPacketSize = pktsize;
4306             if ((pktsize + RX_HEADER_SIZE > peer->ifMTU)) {
4307                 peer->ifMTU = pktsize + RX_HEADER_SIZE;
4308                 peer->natMTU = rxi_AdjustIfMTU(peer->ifMTU);
4309                 rxi_ScheduleGrowMTUEvent(call, 1);
4310             }
4311         }
4312     }
4313
4314     clock_GetTime(&now);
4315
4316     /* The transmit queue splits into 4 sections.
4317      *
4318      * The first section is packets which have now been acknowledged
4319      * by a window size change in the ack. These have reached the
4320      * application layer, and may be discarded. These are packets
4321      * with sequence numbers < ap->firstPacket.
4322      *
4323      * The second section is packets which have sequence numbers in
4324      * the range ap->firstPacket to ap->firstPacket + ap->nAcks. The
4325      * contents of the packet's ack array determines whether these
4326      * packets are acknowledged or not.
4327      *
4328      * The third section is packets which fall above the range
4329      * addressed in the ack packet. These have not yet been received
4330      * by the peer.
4331      *
4332      * The four section is packets which have not yet been transmitted.
4333      * These packets will have a header.serial of 0.
4334      */
4335
4336     /* First section - implicitly acknowledged packets that can be
4337      * disposed of
4338      */
4339
4340     tp = opr_queue_First(&call->tq, struct rx_packet, entry);
4341     while(!opr_queue_IsEnd(&call->tq, &tp->entry) && tp->header.seq < first) {
4342         struct rx_packet *next;
4343
4344         next = opr_queue_Next(&tp->entry, struct rx_packet, entry);
4345         call->tfirst = tp->header.seq + 1;
4346
4347         if (!(tp->flags & RX_PKTFLAG_ACKED)) {
4348             newAckCount++;
4349             rxi_ComputeRoundTripTime(tp, ap, call, peer, &now);
4350         }
4351
4352 #ifdef RX_ENABLE_LOCKS
4353         /* XXX Hack. Because we have to release the global call lock when sending
4354          * packets (osi_NetSend) we drop all acks while we're traversing the tq
4355          * in rxi_Start sending packets out because packets may move to the
4356          * freePacketQueue as result of being here! So we drop these packets until
4357          * we're safely out of the traversing. Really ugly!
4358          * To make it even uglier, if we're using fine grain locking, we can
4359          * set the ack bits in the packets and have rxi_Start remove the packets
4360          * when it's done transmitting.
4361          */
4362         if (call->flags & RX_CALL_TQ_BUSY) {
4363             tp->flags |= RX_PKTFLAG_ACKED;
4364             call->flags |= RX_CALL_TQ_SOME_ACKED;
4365         } else
4366 #endif /* RX_ENABLE_LOCKS */
4367         {
4368             opr_queue_Remove(&tp->entry);
4369 #ifdef RX_TRACK_PACKETS
4370             tp->flags &= ~RX_PKTFLAG_TQ;
4371 #endif
4372 #ifdef RXDEBUG_PACKET
4373             call->tqc--;
4374 #endif /* RXDEBUG_PACKET */
4375             rxi_FreePacket(tp); /* rxi_FreePacket mustn't wake up anyone, preemptively. */
4376         }
4377         tp = next;
4378     }
4379
4380     /* N.B. we don't turn off any timers here.  They'll go away by themselves, anyway */
4381
4382     /* Second section of the queue - packets for which we are receiving
4383      * soft ACKs
4384      *
4385      * Go through the explicit acks/nacks and record the results in
4386      * the waiting packets.  These are packets that can't be released
4387      * yet, even with a positive acknowledge.  This positive
4388      * acknowledge only means the packet has been received by the
4389      * peer, not that it will be retained long enough to be sent to
4390      * the peer's upper level.  In addition, reset the transmit timers
4391      * of any missing packets (those packets that must be missing
4392      * because this packet was out of sequence) */
4393
4394     call->nSoftAcked = 0;
4395     missing = 0;
4396     while (!opr_queue_IsEnd(&call->tq, &tp->entry) 
4397            && tp->header.seq < first + nAcks) {
4398         /* Set the acknowledge flag per packet based on the
4399          * information in the ack packet. An acknowlegded packet can
4400          * be downgraded when the server has discarded a packet it
4401          * soacked previously, or when an ack packet is received
4402          * out of sequence. */
4403         if (ap->acks[tp->header.seq - first] == RX_ACK_TYPE_ACK) {
4404             if (!(tp->flags & RX_PKTFLAG_ACKED)) {
4405                 newAckCount++;
4406                 tp->flags |= RX_PKTFLAG_ACKED;
4407                 rxi_ComputeRoundTripTime(tp, ap, call, peer, &now);
4408             }
4409             if (missing) {
4410                 nNacked++;
4411             } else {
4412                 call->nSoftAcked++;
4413             }
4414         } else /* RX_ACK_TYPE_NACK */ {
4415             tp->flags &= ~RX_PKTFLAG_ACKED;
4416             missing = 1;
4417         }
4418
4419         tp = opr_queue_Next(&tp->entry, struct rx_packet, entry);
4420     }
4421
4422     /* We don't need to take any action with the 3rd or 4th section in the
4423      * queue - they're not addressed by the contents of this ACK packet.
4424      */
4425
4426     /* if the ack packet has a receivelen field hanging off it,
4427      * update our state */
4428     if (np->length >= rx_AckDataSize(ap->nAcks) + 2 * sizeof(afs_int32)) {
4429         afs_uint32 tSize;
4430
4431         /* If the ack packet has a "recommended" size that is less than
4432          * what I am using now, reduce my size to match */
4433         rx_packetread(np, rx_AckDataSize(ap->nAcks) + (int)sizeof(afs_int32),
4434                       (int)sizeof(afs_int32), &tSize);
4435         tSize = (afs_uint32) ntohl(tSize);
4436         peer->natMTU = rxi_AdjustIfMTU(MIN(tSize, peer->ifMTU));
4437
4438         /* Get the maximum packet size to send to this peer */
4439         rx_packetread(np, rx_AckDataSize(ap->nAcks), (int)sizeof(afs_int32),
4440                       &tSize);
4441         tSize = (afs_uint32) ntohl(tSize);
4442         tSize = (afs_uint32) MIN(tSize, rx_MyMaxSendSize);
4443         tSize = rxi_AdjustMaxMTU(peer->natMTU, tSize);
4444
4445         /* sanity check - peer might have restarted with different params.
4446          * If peer says "send less", dammit, send less...  Peer should never
4447          * be unable to accept packets of the size that prior AFS versions would
4448          * send without asking.  */
4449         if (peer->maxMTU != tSize) {
4450             if (peer->maxMTU > tSize) /* possible cong., maxMTU decreased */
4451                 peer->congestSeq++;
4452             peer->maxMTU = tSize;
4453             peer->MTU = MIN(tSize, peer->MTU);
4454             call->MTU = MIN(call->MTU, tSize);
4455         }
4456
4457         if (np->length == rx_AckDataSize(ap->nAcks) + 3 * sizeof(afs_int32)) {
4458             /* AFS 3.4a */
4459             rx_packetread(np,
4460                           rx_AckDataSize(ap->nAcks) + 2 * (int)sizeof(afs_int32),
4461                           (int)sizeof(afs_int32), &tSize);
4462             tSize = (afs_uint32) ntohl(tSize);  /* peer's receive window, if it's */
4463             if (tSize < call->twind) {  /* smaller than our send */
4464                 call->twind = tSize;    /* window, we must send less... */
4465                 call->ssthresh = MIN(call->twind, call->ssthresh);
4466                 call->conn->twind[call->channel] = call->twind;
4467             }
4468
4469             /* Only send jumbograms to 3.4a fileservers. 3.3a RX gets the
4470              * network MTU confused with the loopback MTU. Calculate the
4471              * maximum MTU here for use in the slow start code below.
4472              */
4473             /* Did peer restart with older RX version? */
4474             if (peer->maxDgramPackets > 1) {
4475                 peer->maxDgramPackets = 1;
4476             }
4477         } else if (np->length >=
4478                    rx_AckDataSize(ap->nAcks) + 4 * sizeof(afs_int32)) {
4479             /* AFS 3.5 */
4480             rx_packetread(np,
4481                           rx_AckDataSize(ap->nAcks) + 2 * (int)sizeof(afs_int32),
4482                           sizeof(afs_int32), &tSize);
4483             tSize = (afs_uint32) ntohl(tSize);
4484             /*
4485              * As of AFS 3.5 we set the send window to match the receive window.
4486              */
4487             if (tSize < call->twind) {
4488                 call->twind = tSize;
4489                 call->conn->twind[call->channel] = call->twind;
4490                 call->ssthresh = MIN(call->twind, call->ssthresh);
4491             } else if (tSize > call->twind) {
4492                 call->twind = tSize;
4493                 call->conn->twind[call->channel] = call->twind;
4494             }
4495
4496             /*
4497              * As of AFS 3.5, a jumbogram is more than one fixed size
4498              * packet transmitted in a single UDP datagram. If the remote
4499              * MTU is smaller than our local MTU then never send a datagram
4500              * larger than the natural MTU.
4501              */
4502             rx_packetread(np,
4503                           rx_AckDataSize(ap->nAcks) + 3 * (int)sizeof(afs_int32),
4504                           (int)sizeof(afs_int32), &tSize);
4505             maxDgramPackets = (afs_uint32) ntohl(tSize);
4506             maxDgramPackets = MIN(maxDgramPackets, rxi_nDgramPackets);
4507             maxDgramPackets =
4508                 MIN(maxDgramPackets, (int)(peer->ifDgramPackets));
4509             if (maxDgramPackets > 1) {
4510                 peer->maxDgramPackets = maxDgramPackets;
4511                 call->MTU = RX_JUMBOBUFFERSIZE + RX_HEADER_SIZE;
4512             } else {
4513                 peer->maxDgramPackets = 1;
4514                 call->MTU = peer->natMTU;
4515             }
4516         } else if (peer->maxDgramPackets > 1) {
4517             /* Restarted with lower version of RX */
4518             peer->maxDgramPackets = 1;
4519         }
4520     } else if (peer->maxDgramPackets > 1
4521                || peer->maxMTU != OLD_MAX_PACKET_SIZE) {
4522         /* Restarted with lower version of RX */
4523         peer->maxMTU = OLD_MAX_PACKET_SIZE;
4524         peer->natMTU = OLD_MAX_PACKET_SIZE;
4525         peer->MTU = OLD_MAX_PACKET_SIZE;
4526         peer->maxDgramPackets = 1;
4527         peer->nDgramPackets = 1;
4528         peer->congestSeq++;
4529         call->MTU = OLD_MAX_PACKET_SIZE;
4530     }
4531
4532     /* If the window has been extended by this acknowledge packet,
4533      * then wakeup a sender waiting in alloc for window space, or try
4534      * sending packets now, if he's been sitting on packets due to
4535      * lack of window space */
4536     if (call->tnext < (call->tfirst + call->twind)) {
4537 #ifdef  RX_ENABLE_LOCKS
4538         CV_SIGNAL(&call->cv_twind);
4539 #else
4540         if (call->flags & RX_CALL_WAIT_WINDOW_ALLOC) {
4541             call->flags &= ~RX_CALL_WAIT_WINDOW_ALLOC;
4542             osi_rxWakeup(&call->twind);
4543         }
4544 #endif
4545         if (call->flags & RX_CALL_WAIT_WINDOW_SEND) {
4546             call->flags &= ~RX_CALL_WAIT_WINDOW_SEND;
4547         }
4548     }
4549
4550     if (nNacked) {
4551         /*
4552          * Calculate how many datagrams were successfully received after
4553          * the first missing packet and adjust the negative ack counter
4554          * accordingly.
4555          */
4556         call->nAcks = 0;
4557         call->nNacks++;
4558         nNacked = (nNacked + call->nDgramPackets - 1) / call->nDgramPackets;
4559         if (call->nNacks < nNacked) {
4560             call->nNacks = nNacked;
4561         }
4562     } else {
4563         call->nAcks += newAckCount;
4564         call->nNacks = 0;
4565     }
4566
4567     /* If the packet contained new acknowledgements, rather than just
4568      * being a duplicate of one we have previously seen, then we can restart
4569      * the RTT timer
4570      */
4571     if (newAckCount > 0)
4572         rxi_rto_packet_acked(call, istack);
4573
4574     if (call->flags & RX_CALL_FAST_RECOVER) {
4575         if (newAckCount == 0) {
4576             call->cwind = MIN((int)(call->cwind + 1), rx_maxSendWindow);
4577         } else {
4578             call->flags &= ~RX_CALL_FAST_RECOVER;
4579             call->cwind = call->nextCwind;
4580             call->nextCwind = 0;
4581             call->nAcks = 0;
4582         }
4583         call->nCwindAcks = 0;
4584     } else if (nNacked && call->nNacks >= (u_short) rx_nackThreshold) {
4585         /* Three negative acks in a row trigger congestion recovery */
4586         call->flags |= RX_CALL_FAST_RECOVER;
4587         call->ssthresh = MAX(4, MIN((int)call->cwind, (int)call->twind)) >> 1;
4588         call->cwind =
4589             MIN((int)(call->ssthresh + rx_nackThreshold), rx_maxSendWindow);
4590         call->nDgramPackets = MAX(2, (int)call->nDgramPackets) >> 1;
4591         call->nextCwind = call->ssthresh;
4592         call->nAcks = 0;
4593         call->nNacks = 0;
4594         peer->MTU = call->MTU;
4595         peer->cwind = call->nextCwind;
4596         peer->nDgramPackets = call->nDgramPackets;
4597         peer->congestSeq++;
4598         call->congestSeq = peer->congestSeq;
4599
4600         /* Reset the resend times on the packets that were nacked
4601          * so we will retransmit as soon as the window permits
4602          */
4603
4604         acked = 0;
4605         for (opr_queue_ScanBackwards(&call->tq, cursor)) {
4606             struct rx_packet *tp =
4607                 opr_queue_Entry(cursor, struct rx_packet, entry);
4608             if (acked) {
4609                 if (!(tp->flags & RX_PKTFLAG_ACKED)) {
4610                     tp->flags &= ~RX_PKTFLAG_SENT;
4611                 }
4612             } else if (tp->flags & RX_PKTFLAG_ACKED) {
4613                 acked = 1;
4614             }
4615         }
4616     } else {
4617         /* If cwind is smaller than ssthresh, then increase
4618          * the window one packet for each ack we receive (exponential
4619          * growth).
4620          * If cwind is greater than or equal to ssthresh then increase
4621          * the congestion window by one packet for each cwind acks we
4622          * receive (linear growth).  */
4623         if (call->cwind < call->ssthresh) {
4624             call->cwind =
4625                 MIN((int)call->ssthresh, (int)(call->cwind + newAckCount));
4626             call->nCwindAcks = 0;
4627         } else {
4628             call->nCwindAcks += newAckCount;
4629             if (call->nCwindAcks >= call->cwind) {
4630                 call->nCwindAcks = 0;
4631                 call->cwind = MIN((int)(call->cwind + 1), rx_maxSendWindow);
4632             }
4633         }
4634         /*
4635          * If we have received several acknowledgements in a row then
4636          * it is time to increase the size of our datagrams
4637          */
4638         if ((int)call->nAcks > rx_nDgramThreshold) {
4639             if (peer->maxDgramPackets > 1) {
4640                 if (call->nDgramPackets < peer->maxDgramPackets) {
4641                     call->nDgramPackets++;
4642                 }
4643                 call->MTU = RX_HEADER_SIZE + RX_JUMBOBUFFERSIZE;
4644             } else if (call->MTU < peer->maxMTU) {
4645                 /* don't upgrade if we can't handle it */
4646                 if ((call->nDgramPackets == 1) && (call->MTU >= peer->ifMTU))
4647                     call->MTU = peer->ifMTU;
4648                 else {
4649                     call->MTU += peer->natMTU;
4650                     call->MTU = MIN(call->MTU, peer->maxMTU);
4651                 }
4652             }
4653             call->nAcks = 0;
4654         }
4655     }
4656
4657     MUTEX_EXIT(&peer->peer_lock);       /* rxi_Start will lock peer. */
4658
4659     /* Servers need to hold the call until all response packets have
4660      * been acknowledged. Soft acks are good enough since clients
4661      * are not allowed to clear their receive queues. */
4662     if (call->state == RX_STATE_HOLD
4663         && call->tfirst + call->nSoftAcked >= call->tnext) {
4664         call->state = RX_STATE_DALLY;
4665         rxi_ClearTransmitQueue(call, 0);
4666         rxi_CancelKeepAliveEvent(call);
4667     } else if (!opr_queue_IsEmpty(&call->tq)) {
4668         rxi_Start(call, istack);
4669     }
4670     return np;
4671 }
4672
4673 /**
4674  * Schedule a connection abort to be sent after some delay.
4675  *
4676  * @param[in] conn The connection to send the abort on.
4677  * @param[in] msec The number of milliseconds to wait before sending.
4678  *
4679  * @pre conn_data_lock must be held
4680  */
4681 static void
4682 rxi_SendConnectionAbortLater(struct rx_connection *conn, int msec)
4683 {
4684     struct clock when, now;
4685
4686     MUTEX_ASSERT(&conn->conn_data_lock);
4687     if (!conn->error) {
4688         return;
4689     }
4690     if (!conn->delayedAbortEvent) {
4691         clock_GetTime(&now);
4692         when = now;
4693         clock_Addmsec(&when, msec);
4694         rx_GetConnection(conn);
4695         conn->delayedAbortEvent =
4696             rxevent_Post(&when, &now, rxi_SendDelayedConnAbort, conn, NULL, 0);
4697     }
4698 }
4699
4700 /* Received a response to a challenge packet */
4701 static struct rx_packet *
4702 rxi_ReceiveResponsePacket(struct rx_connection *conn,
4703                           struct rx_packet *np, int istack)
4704 {
4705     int error;
4706
4707     /* Ignore the packet if we're the client */
4708     if (conn->type == RX_CLIENT_CONNECTION)
4709         return np;
4710
4711     /* If already authenticated, ignore the packet (it's probably a retry) */
4712     if (RXS_CheckAuthentication(conn->securityObject, conn) == 0)
4713         return np;
4714
4715     if (!conn->securityChallengeSent) {
4716         /* We've never sent out a challenge for this connection, so this
4717          * response cannot possibly be correct; ignore it. This can happen
4718          * if we sent a challenge to the client, then we were restarted, and
4719          * then the client sent us a response. If we ignore the response, the
4720          * client will eventually resend a data packet, causing us to send a
4721          * new challenge and the client to send a new response. */
4722         return np;
4723     }
4724
4725     /* Otherwise, have the security object evaluate the response packet */
4726     error = RXS_CheckResponse(conn->securityObject, conn, np);
4727     if (error) {
4728         /* If the response is invalid, reset the connection, sending
4729          * an abort to the peer. Send the abort with a 1 second delay,
4730          * to avoid a peer hammering us by constantly recreating a
4731          * connection with bad credentials. */
4732         rxi_ConnectionError(conn, error);
4733         MUTEX_ENTER(&conn->conn_data_lock);
4734         rxi_SendConnectionAbortLater(conn, 1000);
4735         MUTEX_EXIT(&conn->conn_data_lock);
4736         return np;
4737     } else {
4738         /* If the response is valid, any calls waiting to attach
4739          * servers can now do so */
4740         int i;
4741
4742         for (i = 0; i < RX_MAXCALLS; i++) {
4743             struct rx_call *call = conn->call[i];
4744             if (call) {
4745                 MUTEX_ENTER(&call->lock);
4746                 if (call->state == RX_STATE_PRECALL)
4747                     rxi_AttachServerProc(call, (osi_socket) - 1, NULL, NULL);
4748                 /* tnop can be null if newcallp is null */
4749                 MUTEX_EXIT(&call->lock);
4750             }
4751         }
4752
4753         /* Update the peer reachability information, just in case
4754          * some calls went into attach-wait while we were waiting
4755          * for authentication..
4756          */
4757         rxi_UpdatePeerReach(conn, NULL);
4758     }
4759     return np;
4760 }
4761
4762 /* A client has received an authentication challenge: the security
4763  * object is asked to cough up a respectable response packet to send
4764  * back to the server.  The server is responsible for retrying the
4765  * challenge if it fails to get a response. */
4766
4767 static struct rx_packet *
4768 rxi_ReceiveChallengePacket(struct rx_connection *conn,
4769                            struct rx_packet *np, int istack)
4770 {
4771     int error;
4772
4773     /* Ignore the challenge if we're the server */
4774     if (conn->type == RX_SERVER_CONNECTION)
4775         return np;
4776
4777     /* Ignore the challenge if the connection is otherwise idle; someone's
4778      * trying to use us as an oracle. */
4779     if (!rxi_HasActiveCalls(conn))
4780         return np;
4781
4782     /* Send the security object the challenge packet.  It is expected to fill
4783      * in the response. */
4784     error = RXS_GetResponse(conn->securityObject, conn, np);
4785
4786     /* If the security object is unable to return a valid response, reset the
4787      * connection and send an abort to the peer.  Otherwise send the response
4788      * packet to the peer connection. */
4789     if (error) {
4790         rxi_ConnectionError(conn, error);
4791         MUTEX_ENTER(&conn->conn_data_lock);
4792         np = rxi_SendConnectionAbort(conn, np, istack, 0);
4793         MUTEX_EXIT(&conn->conn_data_lock);
4794     } else {
4795         np = rxi_SendSpecial((struct rx_call *)0, conn, np,
4796                              RX_PACKET_TYPE_RESPONSE, NULL, -1, istack);
4797     }
4798     return np;
4799 }
4800
4801
4802 /* Find an available server process to service the current request in
4803  * the given call structure.  If one isn't available, queue up this
4804  * call so it eventually gets one */
4805 static void
4806 rxi_AttachServerProc(struct rx_call *call,
4807                      osi_socket socket, int *tnop,
4808                      struct rx_call **newcallp)
4809 {
4810     struct rx_serverQueueEntry *sq;
4811     struct rx_service *service = call->conn->service;
4812     int haveQuota = 0;
4813
4814     /* May already be attached */
4815     if (call->state == RX_STATE_ACTIVE)
4816         return;
4817
4818     MUTEX_ENTER(&rx_serverPool_lock);
4819
4820     haveQuota = QuotaOK(service);
4821     if ((!haveQuota) || opr_queue_IsEmpty(&rx_idleServerQueue)) {
4822         /* If there are no processes available to service this call,
4823          * put the call on the incoming call queue (unless it's
4824          * already on the queue).
4825          */
4826 #ifdef RX_ENABLE_LOCKS
4827         if (haveQuota)
4828             ReturnToServerPool(service);
4829 #endif /* RX_ENABLE_LOCKS */
4830
4831         if (!(call->flags & RX_CALL_WAIT_PROC)) {
4832             call->flags |= RX_CALL_WAIT_PROC;
4833             rx_atomic_inc(&rx_nWaiting);
4834             rx_atomic_inc(&rx_nWaited);
4835             rxi_calltrace(RX_CALL_ARRIVAL, call);
4836             SET_CALL_QUEUE_LOCK(call, &rx_serverPool_lock);
4837             opr_queue_Append(&rx_incomingCallQueue, &call->entry);
4838         }
4839     } else {
4840         sq = opr_queue_Last(&rx_idleServerQueue,
4841                             struct rx_serverQueueEntry, entry);
4842
4843         /* If hot threads are enabled, and both newcallp and sq->socketp
4844          * are non-null, then this thread will process the call, and the
4845          * idle server thread will start listening on this threads socket.
4846          */
4847         opr_queue_Remove(&sq->entry);
4848
4849         if (rx_enable_hot_thread && newcallp && sq->socketp) {
4850             *newcallp = call;
4851             *tnop = sq->tno;
4852             *sq->socketp = socket;
4853             clock_GetTime(&call->startTime);
4854             CALL_HOLD(call, RX_CALL_REFCOUNT_BEGIN);
4855         } else {
4856             sq->newcall = call;
4857         }
4858         if (call->flags & RX_CALL_WAIT_PROC) {
4859             /* Conservative:  I don't think this should happen */
4860             call->flags &= ~RX_CALL_WAIT_PROC;
4861             rx_atomic_dec(&rx_nWaiting);
4862             if (opr_queue_IsOnQueue(&call->entry)) {
4863                 opr_queue_Remove(&call->entry);
4864             }
4865         }
4866         call->state = RX_STATE_ACTIVE;
4867         call->app.mode = RX_MODE_RECEIVING;
4868 #ifdef RX_KERNEL_TRACE
4869         {
4870             int glockOwner = ISAFS_GLOCK();
4871             if (!glockOwner)
4872                 AFS_GLOCK();
4873             afs_Trace3(afs_iclSetp, CM_TRACE_WASHERE, ICL_TYPE_STRING,
4874                        __FILE__, ICL_TYPE_INT32, __LINE__, ICL_TYPE_POINTER,
4875                        call);
4876             if (!glockOwner)
4877                 AFS_GUNLOCK();
4878         }
4879 #endif
4880         if (call->flags & RX_CALL_CLEARED) {
4881             /* send an ack now to start the packet flow up again */
4882             call->flags &= ~RX_CALL_CLEARED;
4883             rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
4884         }
4885 #ifdef  RX_ENABLE_LOCKS
4886         CV_SIGNAL(&sq->cv);
4887 #else
4888         service->nRequestsRunning++;
4889         MUTEX_ENTER(&rx_quota_mutex);
4890         if (service->nRequestsRunning <= service->minProcs)
4891             rxi_minDeficit--;
4892         rxi_availProcs--;
4893         MUTEX_EXIT(&rx_quota_mutex);
4894         osi_rxWakeup(sq);
4895 #endif
4896     }
4897     MUTEX_EXIT(&rx_serverPool_lock);
4898 }
4899
4900 /* Delay the sending of an acknowledge event for a short while, while
4901  * a new call is being prepared (in the case of a client) or a reply
4902  * is being prepared (in the case of a server).  Rather than sending
4903  * an ack packet, an ACKALL packet is sent. */
4904 static void
4905 rxi_AckAll(struct rx_call *call)
4906 {
4907     rxi_SendSpecial(call, call->conn, NULL, RX_PACKET_TYPE_ACKALL, 
4908                     NULL, 0, 0);
4909     call->flags |= RX_CALL_ACKALL_SENT;
4910 }
4911
4912 /*
4913  * Event handler for per-call delayed acks.
4914  * Also called synchronously, with |event| == NULL, to send a "delayed" ack
4915  * immediately.
4916  */
4917 static void
4918 rxi_SendDelayedAck(struct rxevent *event, void *arg1, void *unused1,
4919                    int unused2)
4920 {
4921     struct rx_call *call = arg1;
4922 #ifdef RX_ENABLE_LOCKS
4923     if (event) {
4924         MUTEX_ENTER(&call->lock);
4925         if (event == call->delayedAckEvent)
4926             rxevent_Put(&call->delayedAckEvent);
4927     }
4928     (void)rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
4929     if (event)
4930         MUTEX_EXIT(&call->lock);
4931 #else /* RX_ENABLE_LOCKS */
4932     if (event)
4933         rxevent_Put(&call->delayedAckEvent);
4934     (void)rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
4935 #endif /* RX_ENABLE_LOCKS */
4936     /* Release the call reference for the event that fired. */
4937     if (event)
4938         CALL_RELE(call, RX_CALL_REFCOUNT_DELAY);
4939 }
4940
4941 #ifdef RX_ENABLE_LOCKS
4942 /* Set ack in all packets in transmit queue. rxi_Start will deal with
4943  * clearing them out.
4944  */
4945 static void
4946 rxi_SetAcksInTransmitQueue(struct rx_call *call)
4947 {
4948     struct opr_queue *cursor;
4949     int someAcked = 0;
4950
4951     for (opr_queue_Scan(&call->tq, cursor)) {
4952         struct rx_packet *p 
4953                 = opr_queue_Entry(cursor, struct rx_packet, entry);
4954
4955         p->flags |= RX_PKTFLAG_ACKED;
4956         someAcked = 1;
4957     }
4958
4959     if (someAcked) {
4960         call->flags |= RX_CALL_TQ_CLEARME;
4961         call->flags |= RX_CALL_TQ_SOME_ACKED;
4962     }
4963
4964     rxi_rto_cancel(call);
4965
4966     call->tfirst = call->tnext;
4967     call->nSoftAcked = 0;
4968
4969     if (call->flags & RX_CALL_FAST_RECOVER) {
4970         call->flags &= ~RX_CALL_FAST_RECOVER;
4971         call->cwind = call->nextCwind;
4972         call->nextCwind = 0;
4973     }
4974
4975     CV_SIGNAL(&call->cv_twind);
4976 }
4977 #endif /* RX_ENABLE_LOCKS */
4978
4979 /*!
4980  * Acknowledge the whole transmit queue.
4981  *
4982  * If we're running without locks, or the transmit queue isn't busy, then
4983  * we can just clear the queue now. Otherwise, we have to mark all of the
4984  * packets as acknowledged, and let rxi_Start clear it later on
4985  */
4986 static void
4987 rxi_AckAllInTransmitQueue(struct rx_call *call)
4988 {
4989 #ifdef RX_ENABLE_LOCKS
4990     if (call->flags & RX_CALL_TQ_BUSY) {
4991         rxi_SetAcksInTransmitQueue(call);
4992         return;
4993     }
4994 #endif
4995     rxi_ClearTransmitQueue(call, 0);
4996 }
4997 /* Clear out the transmit queue for the current call (all packets have
4998  * been received by peer) */
4999 static void
5000 rxi_ClearTransmitQueue(struct rx_call *call, int force)
5001 {
5002 #ifdef  RX_ENABLE_LOCKS
5003     struct opr_queue *cursor;
5004     if (!force && (call->flags & RX_CALL_TQ_BUSY)) {
5005         int someAcked = 0;
5006         for (opr_queue_Scan(&call->tq, cursor)) {
5007             struct rx_packet *p 
5008                 = opr_queue_Entry(cursor, struct rx_packet, entry);
5009
5010             p->flags |= RX_PKTFLAG_ACKED;
5011             someAcked = 1;
5012         }
5013         if (someAcked) {
5014             call->flags |= RX_CALL_TQ_CLEARME;
5015             call->flags |= RX_CALL_TQ_SOME_ACKED;
5016         }
5017     } else {
5018 #endif /* RX_ENABLE_LOCKS */
5019 #ifdef RXDEBUG_PACKET
5020         call->tqc -=
5021 #endif /* RXDEBUG_PACKET */
5022             rxi_FreePackets(0, &call->tq);
5023         rxi_WakeUpTransmitQueue(call);
5024 #ifdef RX_ENABLE_LOCKS
5025         call->flags &= ~RX_CALL_TQ_CLEARME;
5026     }
5027 #endif
5028
5029     rxi_rto_cancel(call);
5030     call->tfirst = call->tnext; /* implicitly acknowledge all data already sent */
5031     call->nSoftAcked = 0;
5032
5033     if (call->flags & RX_CALL_FAST_RECOVER) {
5034         call->flags &= ~RX_CALL_FAST_RECOVER;
5035         call->cwind = call->nextCwind;
5036     }
5037 #ifdef  RX_ENABLE_LOCKS
5038     CV_SIGNAL(&call->cv_twind);
5039 #else
5040     osi_rxWakeup(&call->twind);
5041 #endif
5042 }
5043
5044 static void
5045 rxi_ClearReceiveQueue(struct rx_call *call)
5046 {
5047     if (!opr_queue_IsEmpty(&call->rq)) {
5048         u_short count;
5049
5050         count = rxi_FreePackets(0, &call->rq);
5051         rx_packetReclaims += count;
5052 #ifdef RXDEBUG_PACKET
5053         call->rqc -= count;
5054         if ( call->rqc != 0 )
5055             dpf(("rxi_ClearReceiveQueue call %"AFS_PTR_FMT" rqc %u != 0\n", call, call->rqc));
5056 #endif
5057         call->flags &= ~(RX_CALL_RECEIVE_DONE | RX_CALL_HAVE_LAST);
5058     }
5059     if (call->state == RX_STATE_PRECALL) {
5060         call->flags |= RX_CALL_CLEARED;
5061     }
5062 }
5063
5064 /* Send an abort packet for the specified call */
5065 static struct rx_packet *
5066 rxi_SendCallAbort(struct rx_call *call, struct rx_packet *packet,
5067                   int istack, int force)
5068 {
5069     afs_int32 error;
5070     struct clock when, now;
5071
5072     if (!call->error)
5073         return packet;
5074
5075     /* Clients should never delay abort messages */
5076     if (rx_IsClientConn(call->conn))
5077         force = 1;
5078
5079     if (call->abortCode != call->error) {
5080         call->abortCode = call->error;
5081         call->abortCount = 0;
5082     }
5083
5084     if (force || rxi_callAbortThreshhold == 0
5085         || call->abortCount < rxi_callAbortThreshhold) {
5086         rxi_CancelDelayedAbortEvent(call);
5087         error = htonl(call->error);
5088         call->abortCount++;
5089         packet =
5090             rxi_SendSpecial(call, call->conn, packet, RX_PACKET_TYPE_ABORT,
5091                             (char *)&error, sizeof(error), istack);
5092     } else if (!call->delayedAbortEvent) {
5093         clock_GetTime(&now);
5094         when = now;
5095         clock_Addmsec(&when, rxi_callAbortDelay);
5096         CALL_HOLD(call, RX_CALL_REFCOUNT_ABORT);
5097         call->delayedAbortEvent =
5098             rxevent_Post(&when, &now, rxi_SendDelayedCallAbort, call, 0, 0);
5099     }
5100     return packet;
5101 }
5102
5103 static void
5104 rxi_CancelDelayedAbortEvent(struct rx_call *call)
5105 {
5106     MUTEX_ASSERT(&call->lock);
5107     if (rxevent_Cancel(&call->delayedAbortEvent))
5108         CALL_RELE(call, RX_CALL_REFCOUNT_ABORT);
5109 }
5110
5111 /* Send an abort packet for the specified connection.  Packet is an
5112  * optional pointer to a packet that can be used to send the abort.
5113  * Once the number of abort messages reaches the threshhold, an
5114  * event is scheduled to send the abort. Setting the force flag
5115  * overrides sending delayed abort messages.
5116  *
5117  * NOTE: Called with conn_data_lock held. conn_data_lock is dropped
5118  *       to send the abort packet.
5119  */
5120 struct rx_packet *
5121 rxi_SendConnectionAbort(struct rx_connection *conn,
5122                         struct rx_packet *packet, int istack, int force)
5123 {
5124     afs_int32 error;
5125
5126     if (!conn->error)
5127         return packet;
5128
5129     /* Clients should never delay abort messages */
5130     if (rx_IsClientConn(conn))
5131         force = 1;
5132
5133     if (force || rxi_connAbortThreshhold == 0
5134         || conn->abortCount < rxi_connAbortThreshhold) {
5135
5136         if (rxevent_Cancel(&conn->delayedAbortEvent))
5137             putConnection(conn);
5138         error = htonl(conn->error);
5139         conn->abortCount++;
5140         MUTEX_EXIT(&conn->conn_data_lock);
5141         packet =
5142             rxi_SendSpecial((struct rx_call *)0, conn, packet,
5143                             RX_PACKET_TYPE_ABORT, (char *)&error,
5144                             sizeof(error), istack);
5145         MUTEX_ENTER(&conn->conn_data_lock);
5146     } else {
5147         rxi_SendConnectionAbortLater(conn, rxi_connAbortDelay);
5148     }
5149     return packet;
5150 }
5151
5152 /* Associate an error all of the calls owned by a connection.  Called
5153  * with error non-zero.  This is only for really fatal things, like
5154  * bad authentication responses.  The connection itself is set in
5155  * error at this point, so that future packets received will be
5156  * rejected. */
5157 void
5158 rxi_ConnectionError(struct rx_connection *conn,
5159                     afs_int32 error)
5160 {
5161     if (error) {
5162         int i;
5163
5164         dpf(("rxi_ConnectionError conn %"AFS_PTR_FMT" error %d\n", conn, error));
5165
5166         MUTEX_ENTER(&conn->conn_data_lock);
5167         if (rxevent_Cancel(&conn->challengeEvent))
5168             putConnection(conn);
5169         if (rxevent_Cancel(&conn->natKeepAliveEvent))
5170             putConnection(conn);
5171         if (rxevent_Cancel(&conn->checkReachEvent)) {
5172             conn->flags &= ~(RX_CONN_ATTACHWAIT|RX_CONN_NAT_PING);
5173             putConnection(conn);
5174         }
5175         MUTEX_EXIT(&conn->conn_data_lock);
5176         for (i = 0; i < RX_MAXCALLS; i++) {
5177             struct rx_call *call = conn->call[i];
5178             if (call) {
5179                 MUTEX_ENTER(&call->lock);
5180                 rxi_CallError(call, error);
5181                 MUTEX_EXIT(&call->lock);
5182             }
5183         }
5184         conn->error = error;
5185         if (rx_stats_active)
5186             rx_atomic_inc(&rx_stats.fatalErrors);
5187     }
5188 }
5189
5190 /**
5191  * Interrupt an in-progress call with the specified error and wakeup waiters.
5192  *
5193  * @param[in] call  The call to interrupt
5194  * @param[in] error  The error code to send to the peer
5195  */
5196 void
5197 rx_InterruptCall(struct rx_call *call, afs_int32 error)
5198 {
5199     MUTEX_ENTER(&call->lock);
5200     rxi_CallError(call, error);
5201     rxi_SendCallAbort(call, NULL, 0, 1);
5202     MUTEX_EXIT(&call->lock);
5203 }
5204
5205 void
5206 rxi_CallError(struct rx_call *call, afs_int32 error)
5207 {
5208     MUTEX_ASSERT(&call->lock);
5209     dpf(("rxi_CallError call %"AFS_PTR_FMT" error %d call->error %d\n", call, error, call->error));
5210     if (call->error)
5211         error = call->error;
5212
5213 #ifdef RX_ENABLE_LOCKS
5214     if (!((call->flags & RX_CALL_TQ_BUSY) || (call->tqWaiters > 0))) {
5215         rxi_ResetCall(call, 0);
5216     }
5217 #else
5218     rxi_ResetCall(call, 0);
5219 #endif
5220     call->error = error;
5221 }
5222
5223 /* Reset various fields in a call structure, and wakeup waiting
5224  * processes.  Some fields aren't changed: state & mode are not
5225  * touched (these must be set by the caller), and bufptr, nLeft, and
5226  * nFree are not reset, since these fields are manipulated by
5227  * unprotected macros, and may only be reset by non-interrupting code.
5228  */
5229
5230 static void
5231 rxi_ResetCall(struct rx_call *call, int newcall)
5232 {
5233     int flags;
5234     struct rx_peer *peer;
5235     struct rx_packet *packet;
5236
5237     MUTEX_ASSERT(&call->lock);
5238     dpf(("rxi_ResetCall(call %"AFS_PTR_FMT", newcall %d)\n", call, newcall));
5239
5240     /* Notify anyone who is waiting for asynchronous packet arrival */
5241     if (call->arrivalProc) {
5242         (*call->arrivalProc) (call, call->arrivalProcHandle,
5243                               call->arrivalProcArg);
5244         call->arrivalProc = (void (*)())0;
5245     }
5246
5247
5248     rxi_CancelGrowMTUEvent(call);
5249
5250     if (call->delayedAbortEvent) {
5251         rxi_CancelDelayedAbortEvent(call);
5252         packet = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL);
5253         if (packet) {
5254             rxi_SendCallAbort(call, packet, 0, 1);
5255             rxi_FreePacket(packet);
5256         }
5257     }
5258
5259     /*
5260      * Update the peer with the congestion information in this call
5261      * so other calls on this connection can pick up where this call
5262      * left off. If the congestion sequence numbers don't match then
5263      * another call experienced a retransmission.
5264      */
5265     peer = call->conn->peer;
5266     MUTEX_ENTER(&peer->peer_lock);
5267     if (!newcall) {
5268         if (call->congestSeq == peer->congestSeq) {
5269             peer->cwind = MAX(peer->cwind, call->cwind);
5270             peer->MTU = MAX(peer->MTU, call->MTU);
5271             peer->nDgramPackets =
5272                 MAX(peer->nDgramPackets, call->nDgramPackets);
5273         }
5274     } else {
5275         call->abortCode = 0;
5276         call->abortCount = 0;
5277     }
5278     if (peer->maxDgramPackets > 1) {
5279         call->MTU = RX_HEADER_SIZE + RX_JUMBOBUFFERSIZE;
5280     } else {
5281         call->MTU = peer->MTU;
5282     }
5283     call->cwind = MIN((int)peer->cwind, (int)peer->nDgramPackets);
5284     call->ssthresh = rx_maxSendWindow;
5285     call->nDgramPackets = peer->nDgramPackets;
5286     call->congestSeq = peer->congestSeq;
5287     call->rtt = peer->rtt;
5288     call->rtt_dev = peer->rtt_dev;
5289     clock_Zero(&call->rto);
5290     clock_Addmsec(&call->rto,
5291                   MAX(((call->rtt >> 3) + call->rtt_dev), rx_minPeerTimeout) + 200);
5292     MUTEX_EXIT(&peer->peer_lock);
5293
5294     flags = call->flags;
5295     rxi_WaitforTQBusy(call);
5296
5297     rxi_ClearTransmitQueue(call, 1);
5298     if (call->tqWaiters || (flags & RX_CALL_TQ_WAIT)) {
5299         dpf(("rcall %"AFS_PTR_FMT" has %d waiters and flags %d\n", call, call->tqWaiters, call->flags));
5300     }
5301     call->flags = 0;
5302
5303     rxi_ClearReceiveQueue(call);
5304     /* why init the queue if you just emptied it? queue_Init(&call->rq); */
5305
5306
5307     call->error = 0;
5308     call->twind = call->conn->twind[call->channel];
5309     call->rwind = call->conn->rwind[call->channel];
5310     call->nSoftAcked = 0;
5311     call->nextCwind = 0;
5312     call->nAcks = 0;
5313     call->nNacks = 0;
5314     call->nCwindAcks = 0;
5315     call->nSoftAcks = 0;
5316     call->nHardAcks = 0;
5317
5318     call->tfirst = call->rnext = call->tnext = 1;
5319     call->tprev = 0;
5320     call->rprev = 0;
5321     call->lastAcked = 0;
5322     call->localStatus = call->remoteStatus = 0;
5323
5324     if (flags & RX_CALL_READER_WAIT) {
5325 #ifdef  RX_ENABLE_LOCKS
5326         CV_BROADCAST(&call->cv_rq);
5327 #else
5328         osi_rxWakeup(&call->rq);
5329 #endif
5330     }
5331     if (flags & RX_CALL_WAIT_PACKETS) {
5332         MUTEX_ENTER(&rx_freePktQ_lock);
5333         rxi_PacketsUnWait();    /* XXX */
5334         MUTEX_EXIT(&rx_freePktQ_lock);
5335     }
5336 #ifdef  RX_ENABLE_LOCKS
5337     CV_SIGNAL(&call->cv_twind);
5338 #else
5339     if (flags & RX_CALL_WAIT_WINDOW_ALLOC)
5340         osi_rxWakeup(&call->twind);
5341 #endif
5342
5343     if (flags & RX_CALL_WAIT_PROC) {
5344         rx_atomic_dec(&rx_nWaiting);
5345     }
5346 #ifdef RX_ENABLE_LOCKS
5347     /* The following ensures that we don't mess with any queue while some
5348      * other thread might also be doing so. The call_queue_lock field is
5349      * is only modified under the call lock. If the call is in the process
5350      * of being removed from a queue, the call is not locked until the
5351      * the queue lock is dropped and only then is the call_queue_lock field
5352      * zero'd out. So it's safe to lock the queue if call_queue_lock is set.
5353      * Note that any other routine which removes a call from a queue has to
5354      * obtain the queue lock before examing the queue and removing the call.
5355      */
5356     if (call->call_queue_lock) {
5357         MUTEX_ENTER(call->call_queue_lock);
5358         if (opr_queue_IsOnQueue(&call->entry)) {
5359             opr_queue_Remove(&call->entry);
5360         }
5361         MUTEX_EXIT(call->call_queue_lock);
5362         CLEAR_CALL_QUEUE_LOCK(call);
5363     }
5364 #else /* RX_ENABLE_LOCKS */
5365     if (opr_queue_IsOnQueue(&call->entry)) {
5366         opr_queue_Remove(&call->entry);
5367     }
5368 #endif /* RX_ENABLE_LOCKS */
5369
5370     rxi_CancelKeepAliveEvent(call);
5371     rxi_CancelDelayedAckEvent(call);
5372 }
5373
5374 /* Send an acknowledge for the indicated packet (seq,serial) of the
5375  * indicated call, for the indicated reason (reason).  This
5376  * acknowledge will specifically acknowledge receiving the packet, and
5377  * will also specify which other packets for this call have been
5378  * received.  This routine returns the packet that was used to the
5379  * caller.  The caller is responsible for freeing it or re-using it.
5380  * This acknowledgement also returns the highest sequence number
5381  * actually read out by the higher level to the sender; the sender
5382  * promises to keep around packets that have not been read by the
5383  * higher level yet (unless, of course, the sender decides to abort
5384  * the call altogether).  Any of p, seq, serial, pflags, or reason may
5385  * be set to zero without ill effect.  That is, if they are zero, they
5386  * will not convey any information.
5387  * NOW there is a trailer field, after the ack where it will safely be
5388  * ignored by mundanes, which indicates the maximum size packet this
5389  * host can swallow.  */
5390 /*
5391     struct rx_packet *optionalPacket;  use to send ack (or null)
5392     int seq;                     Sequence number of the packet we are acking
5393     int serial;                  Serial number of the packet
5394     int pflags;                  Flags field from packet header
5395     int reason;                  Reason an acknowledge was prompted
5396 */
5397
5398 #define RX_ZEROS 1024
5399 static char rx_zeros[RX_ZEROS];
5400
5401 struct rx_packet *
5402 rxi_SendAck(struct rx_call *call,
5403             struct rx_packet *optionalPacket, int serial, int reason,
5404             int istack)
5405 {
5406     struct rx_ackPacket *ap;
5407     struct rx_packet *p;
5408     struct opr_queue *cursor;
5409     u_char offset = 0;
5410     afs_int32 templ;
5411     afs_uint32 padbytes = 0;
5412 #ifdef RX_ENABLE_TSFPQ
5413     struct rx_ts_info_t * rx_ts_info;
5414 #endif
5415
5416     /*
5417      * Open the receive window once a thread starts reading packets
5418      */
5419     if (call->rnext > 1) {
5420         call->conn->rwind[call->channel] = call->rwind = rx_maxReceiveWindow;
5421     }
5422
5423     /* Don't attempt to grow MTU if this is a critical ping */
5424     if (reason == RX_ACK_MTU) {
5425         /* keep track of per-call attempts, if we're over max, do in small
5426          * otherwise in larger? set a size to increment by, decrease
5427          * on failure, here?
5428          */
5429         if (call->conn->peer->maxPacketSize &&
5430             (call->conn->peer->maxPacketSize < OLD_MAX_PACKET_SIZE
5431              - RX_HEADER_SIZE))
5432             padbytes = call->conn->peer->maxPacketSize+16;
5433         else
5434             padbytes = call->conn->peer->maxMTU + 128;
5435
5436         /* do always try a minimum size ping */
5437         padbytes = MAX(padbytes, RX_MIN_PACKET_SIZE+RX_IPUDP_SIZE+4);
5438
5439         /* subtract the ack payload */
5440         padbytes -= (rx_AckDataSize(call->rwind) + 4 * sizeof(afs_int32));
5441         reason = RX_ACK_PING;
5442     }
5443
5444     call->nHardAcks = 0;
5445     call->nSoftAcks = 0;
5446     if (call->rnext > call->lastAcked)
5447         call->lastAcked = call->rnext;
5448     p = optionalPacket;
5449
5450     if (p) {
5451         rx_computelen(p, p->length);    /* reset length, you never know */
5452     } /* where that's been...         */
5453 #ifdef RX_ENABLE_TSFPQ
5454     else {
5455         RX_TS_INFO_GET(rx_ts_info);
5456         if ((p = rx_ts_info->local_special_packet)) {
5457             rx_computelen(p, p->length);
5458         } else if ((p = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL))) {
5459             rx_ts_info->local_special_packet = p;
5460         } else { /* We won't send the ack, but don't panic. */
5461             return optionalPacket;
5462         }
5463     }
5464 #else
5465     else if (!(p = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL))) {
5466         /* We won't send the ack, but don't panic. */
5467         return optionalPacket;
5468     }
5469 #endif
5470
5471     templ = padbytes +
5472         rx_AckDataSize(call->rwind) + 4 * sizeof(afs_int32) -
5473         rx_GetDataSize(p);
5474     if (templ > 0) {
5475         if (rxi_AllocDataBuf(p, templ, RX_PACKET_CLASS_SPECIAL) > 0) {
5476 #ifndef RX_ENABLE_TSFPQ
5477             if (!optionalPacket)
5478                 rxi_FreePacket(p);
5479 #endif
5480             return optionalPacket;
5481         }
5482         templ = rx_AckDataSize(call->rwind) + 2 * sizeof(afs_int32);
5483         if (rx_Contiguous(p) < templ) {
5484 #ifndef RX_ENABLE_TSFPQ
5485             if (!optionalPacket)
5486                 rxi_FreePacket(p);
5487 #endif
5488             return optionalPacket;
5489         }
5490     }
5491
5492
5493     /* MTUXXX failing to send an ack is very serious.  We should */
5494     /* try as hard as possible to send even a partial ack; it's */
5495     /* better than nothing. */
5496     ap = (struct rx_ackPacket *)rx_DataOf(p);
5497     ap->bufferSpace = htonl(0); /* Something should go here, sometime */
5498     ap->reason = reason;
5499
5500     /* The skew computation used to be bogus, I think it's better now. */
5501     /* We should start paying attention to skew.    XXX  */
5502     ap->serial = htonl(serial);
5503     ap->maxSkew = 0;            /* used to be peer->inPacketSkew */
5504
5505     /*
5506      * First packet not yet forwarded to reader. When ACKALL has been
5507      * sent the peer has been told that all received packets will be
5508      * delivered to the reader.  The value 'rnext' is used internally
5509      * to refer to the next packet in the receive queue that must be
5510      * delivered to the reader.  From the perspective of the peer it
5511      * already has so report the last sequence number plus one if there
5512      * are packets in the receive queue awaiting processing.
5513      */
5514     if ((call->flags & RX_CALL_ACKALL_SENT) &&
5515         !opr_queue_IsEmpty(&call->rq)) {
5516         ap->firstPacket = htonl(opr_queue_Last(&call->rq, struct rx_packet, entry)->header.seq + 1);
5517     } else {
5518         ap->firstPacket = htonl(call->rnext);
5519
5520         ap->previousPacket = htonl(call->rprev);        /* Previous packet received */
5521
5522         /* No fear of running out of ack packet here because there can only 
5523          * be at most one window full of unacknowledged packets.  The window
5524          * size must be constrained to be less than the maximum ack size, 
5525          * of course.  Also, an ack should always fit into a single packet 
5526          * -- it should not ever be fragmented.  */
5527         offset = 0;
5528         for (opr_queue_Scan(&call->rq, cursor)) {
5529             struct rx_packet *rqp
5530                 = opr_queue_Entry(cursor, struct rx_packet, entry);
5531
5532             if (!rqp || !call->rq.next
5533                 || (rqp->header.seq > (call->rnext + call->rwind))) {
5534 #ifndef RX_ENABLE_TSFPQ
5535                 if (!optionalPacket)
5536                     rxi_FreePacket(p);
5537 #endif
5538                 rxi_CallError(call, RX_CALL_DEAD);
5539                 return optionalPacket;
5540             }
5541
5542             while (rqp->header.seq > call->rnext + offset)
5543                 ap->acks[offset++] = RX_ACK_TYPE_NACK;
5544             ap->acks[offset++] = RX_ACK_TYPE_ACK;
5545
5546             if ((offset > (u_char) rx_maxReceiveWindow) || (offset > call->rwind)) {
5547 #ifndef RX_ENABLE_TSFPQ
5548                 if (!optionalPacket)
5549                     rxi_FreePacket(p);
5550 #endif
5551                 rxi_CallError(call, RX_CALL_DEAD);
5552                 return optionalPacket;
5553             }
5554         }
5555     }
5556
5557     ap->nAcks = offset;
5558     p->length = rx_AckDataSize(offset) + 4 * sizeof(afs_int32);
5559
5560     /* Must zero the 3 octets that rx_AckDataSize skips at the end of the
5561      * ACK list.
5562      */
5563     rx_packetwrite(p, rx_AckDataSize(offset) - 3, 3, rx_zeros);
5564
5565     /* these are new for AFS 3.3 */
5566     templ = rxi_AdjustMaxMTU(call->conn->peer->ifMTU, rx_maxReceiveSize);
5567     templ = htonl(templ);
5568     rx_packetwrite(p, rx_AckDataSize(offset), sizeof(afs_int32), &templ);
5569     templ = htonl(call->conn->peer->ifMTU);
5570     rx_packetwrite(p, rx_AckDataSize(offset) + sizeof(afs_int32),
5571                    sizeof(afs_int32), &templ);
5572
5573     /* new for AFS 3.4 */
5574     templ = htonl(call->rwind);
5575     rx_packetwrite(p, rx_AckDataSize(offset) + 2 * sizeof(afs_int32),
5576                    sizeof(afs_int32), &templ);
5577
5578     /* new for AFS 3.5 */
5579     templ = htonl(call->conn->peer->ifDgramPackets);
5580     rx_packetwrite(p, rx_AckDataSize(offset) + 3 * sizeof(afs_int32),
5581                    sizeof(afs_int32), &templ);
5582
5583     p->length = rx_AckDataSize(offset) + 4 * sizeof(afs_int32);
5584
5585     p->header.serviceId = call->conn->serviceId;
5586     p->header.cid = (call->conn->cid | call->channel);
5587     p->header.callNumber = *call->callNumber;
5588     p->header.seq = 0;
5589     p->header.securityIndex = call->conn->securityIndex;
5590     p->header.epoch = call->conn->epoch;
5591     p->header.type = RX_PACKET_TYPE_ACK;
5592     p->header.flags = RX_SLOW_START_OK;
5593     if (reason == RX_ACK_PING)
5594         p->header.flags |= RX_REQUEST_ACK;
5595
5596     while (padbytes > 0) {
5597         if (padbytes > RX_ZEROS) {
5598             rx_packetwrite(p, p->length, RX_ZEROS, rx_zeros);
5599             p->length += RX_ZEROS;
5600             padbytes -= RX_ZEROS;
5601         } else {
5602             rx_packetwrite(p, p->length, padbytes, rx_zeros);
5603             p->length += padbytes;
5604             padbytes = 0;
5605         }
5606     }
5607
5608     if (call->conn->type == RX_CLIENT_CONNECTION)
5609         p->header.flags |= RX_CLIENT_INITIATED;
5610
5611 #ifdef RXDEBUG
5612 #ifdef AFS_NT40_ENV
5613     if (rxdebug_active) {
5614         char msg[512];
5615         size_t len;
5616
5617         len = _snprintf(msg, sizeof(msg),
5618                         "tid[%d] SACK: reason %s serial %u previous %u seq %u first %u acks %u space %u ",
5619                          GetCurrentThreadId(), rx_ack_reason(ap->reason),
5620                          ntohl(ap->serial), ntohl(ap->previousPacket),
5621                          (unsigned int)p->header.seq, ntohl(ap->firstPacket),
5622                          ap->nAcks, ntohs(ap->bufferSpace) );
5623         if (ap->nAcks) {
5624             int offset;
5625
5626             for (offset = 0; offset < ap->nAcks && len < sizeof(msg); offset++)
5627                 msg[len++] = (ap->acks[offset] == RX_ACK_TYPE_NACK ? '-' : '*');
5628         }
5629         msg[len++]='\n';
5630         msg[len] = '\0';
5631         OutputDebugString(msg);
5632     }
5633 #else /* AFS_NT40_ENV */
5634     if (rx_Log) {
5635         fprintf(rx_Log, "SACK: reason %x previous %u seq %u first %u ",
5636                 ap->reason, ntohl(ap->previousPacket),
5637                 (unsigned int)p->header.seq, ntohl(ap->firstPacket));
5638         if (ap->nAcks) {
5639             for (offset = 0; offset < ap->nAcks; offset++)
5640                 putc(ap->acks[offset] == RX_ACK_TYPE_NACK ? '-' : '*',
5641                      rx_Log);
5642         }
5643         putc('\n', rx_Log);
5644     }
5645 #endif /* AFS_NT40_ENV */
5646 #endif
5647     {
5648         int i, nbytes = p->length;
5649
5650         for (i = 1; i < p->niovecs; i++) {      /* vec 0 is ALWAYS header */
5651             if (nbytes <= p->wirevec[i].iov_len) {
5652                 int savelen, saven;
5653
5654                 savelen = p->wirevec[i].iov_len;
5655                 saven = p->niovecs;
5656                 p->wirevec[i].iov_len = nbytes;
5657                 p->niovecs = i + 1;
5658                 rxi_Send(call, p, istack);
5659                 p->wirevec[i].iov_len = savelen;
5660                 p->niovecs = saven;
5661                 break;
5662             } else
5663                 nbytes -= p->wirevec[i].iov_len;
5664         }
5665     }
5666     if (rx_stats_active)
5667         rx_atomic_inc(&rx_stats.ackPacketsSent);
5668 #ifndef RX_ENABLE_TSFPQ
5669     if (!optionalPacket)
5670         rxi_FreePacket(p);
5671 #endif
5672     return optionalPacket;      /* Return packet for re-use by caller */
5673 }
5674
5675 struct xmitlist {
5676    struct rx_packet **list;
5677    int len;
5678    int resending;
5679 };
5680
5681 /* Send all of the packets in the list in single datagram */
5682 static void
5683 rxi_SendList(struct rx_call *call, struct xmitlist *xmit,
5684              int istack, int moreFlag)
5685 {
5686     int i;
5687     int requestAck = 0;
5688     int lastPacket = 0;
5689     struct clock now;
5690     struct rx_connection *conn = call->conn;
5691     struct rx_peer *peer = conn->peer;
5692
5693     MUTEX_ENTER(&peer->peer_lock);
5694     peer->nSent += xmit->len;
5695     if (xmit->resending)
5696         peer->reSends += xmit->len;
5697     MUTEX_EXIT(&peer->peer_lock);
5698
5699     if (rx_stats_active) {
5700         if (xmit->resending)
5701             rx_atomic_add(&rx_stats.dataPacketsReSent, xmit->len);
5702         else
5703             rx_atomic_add(&rx_stats.dataPacketsSent, xmit->len);
5704     }
5705
5706     clock_GetTime(&now);
5707
5708     if (xmit->list[xmit->len - 1]->header.flags & RX_LAST_PACKET) {
5709         lastPacket = 1;
5710     }
5711
5712     /* Set the packet flags and schedule the resend events */
5713     /* Only request an ack for the last packet in the list */
5714     for (i = 0; i < xmit->len; i++) {
5715         struct rx_packet *packet = xmit->list[i];
5716
5717         /* Record the time sent */
5718         packet->timeSent = now;
5719         packet->flags |= RX_PKTFLAG_SENT;
5720
5721         /* Ask for an ack on retransmitted packets,  on every other packet
5722          * if the peer doesn't support slow start. Ask for an ack on every
5723          * packet until the congestion window reaches the ack rate. */
5724         if (packet->header.serial) {
5725             requestAck = 1;
5726         } else {
5727             packet->firstSent = now;
5728             if (!lastPacket && (call->cwind <= (u_short) (conn->ackRate + 1)
5729                                 || (!(call->flags & RX_CALL_SLOW_START_OK)
5730                                     && (packet->header.seq & 1)))) {
5731                 requestAck = 1;
5732             }
5733         }
5734
5735         /* Tag this packet as not being the last in this group,
5736          * for the receiver's benefit */
5737         if (i < xmit->len - 1 || moreFlag) {
5738             packet->header.flags |= RX_MORE_PACKETS;
5739         }
5740     }
5741
5742     if (requestAck) {
5743         xmit->list[xmit->len - 1]->header.flags |= RX_REQUEST_ACK;
5744     }
5745
5746     /* Since we're about to send a data packet to the peer, it's
5747      * safe to nuke any scheduled end-of-packets ack */
5748     rxi_CancelDelayedAckEvent(call);
5749
5750     MUTEX_EXIT(&call->lock);
5751     CALL_HOLD(call, RX_CALL_REFCOUNT_SEND);
5752     if (xmit->len > 1) {
5753         rxi_SendPacketList(call, conn, xmit->list, xmit->len, istack);
5754     } else {
5755         rxi_SendPacket(call, conn, xmit->list[0], istack);
5756     }
5757     MUTEX_ENTER(&call->lock);
5758     CALL_RELE(call, RX_CALL_REFCOUNT_SEND);
5759
5760     /* Tell the RTO calculation engine that we have sent a packet, and
5761      * if it was the last one */
5762     rxi_rto_packet_sent(call, lastPacket, istack);
5763
5764     /* Update last send time for this call (for keep-alive
5765      * processing), and for the connection (so that we can discover
5766      * idle connections) */
5767     conn->lastSendTime = call->lastSendTime = clock_Sec();
5768 }
5769
5770 /* When sending packets we need to follow these rules:
5771  * 1. Never send more than maxDgramPackets in a jumbogram.
5772  * 2. Never send a packet with more than two iovecs in a jumbogram.
5773  * 3. Never send a retransmitted packet in a jumbogram.
5774  * 4. Never send more than cwind/4 packets in a jumbogram
5775  * We always keep the last list we should have sent so we
5776  * can set the RX_MORE_PACKETS flags correctly.
5777  */
5778
5779 static void
5780 rxi_SendXmitList(struct rx_call *call, struct rx_packet **list, int len,
5781                  int istack)
5782 {
5783     int i;
5784     int recovery;
5785     struct xmitlist working;
5786     struct xmitlist last;
5787
5788     struct rx_peer *peer = call->conn->peer;
5789     int morePackets = 0;
5790
5791     memset(&last, 0, sizeof(struct xmitlist));
5792     working.list = &list[0];
5793     working.len = 0;
5794     working.resending = 0;
5795
5796     recovery = call->flags & RX_CALL_FAST_RECOVER;
5797
5798     for (i = 0; i < len; i++) {
5799         /* Does the current packet force us to flush the current list? */
5800         if (working.len > 0
5801             && (list[i]->header.serial || (list[i]->flags & RX_PKTFLAG_ACKED)
5802                 || list[i]->length > RX_JUMBOBUFFERSIZE)) {
5803
5804             /* This sends the 'last' list and then rolls the current working
5805              * set into the 'last' one, and resets the working set */
5806
5807             if (last.len > 0) {
5808                 rxi_SendList(call, &last, istack, 1);
5809                 /* If the call enters an error state stop sending, or if
5810                  * we entered congestion recovery mode, stop sending */
5811                 if (call->error
5812                     || (!recovery && (call->flags & RX_CALL_FAST_RECOVER)))
5813                     return;
5814             }
5815             last = working;
5816             working.len = 0;
5817             working.resending = 0;
5818             working.list = &list[i];
5819         }
5820         /* Add the current packet to the list if it hasn't been acked.
5821          * Otherwise adjust the list pointer to skip the current packet.  */
5822         if (!(list[i]->flags & RX_PKTFLAG_ACKED)) {
5823             working.len++;
5824
5825             if (list[i]->header.serial)
5826                 working.resending = 1;
5827
5828             /* Do we need to flush the list? */
5829             if (working.len >= (int)peer->maxDgramPackets
5830                 || working.len >= (int)call->nDgramPackets 
5831                 || working.len >= (int)call->cwind
5832                 || list[i]->header.serial
5833                 || list[i]->length != RX_JUMBOBUFFERSIZE) {
5834                 if (last.len > 0) {
5835                     rxi_SendList(call, &last, istack, 1);
5836                     /* If the call enters an error state stop sending, or if
5837                      * we entered congestion recovery mode, stop sending */
5838                     if (call->error
5839                         || (!recovery && (call->flags & RX_CALL_FAST_RECOVER)))
5840                         return;
5841                 }
5842                 last = working;
5843                 working.len = 0;
5844                 working.resending = 0;
5845                 working.list = &list[i + 1];
5846             }
5847         } else {
5848             if (working.len != 0) {
5849                 osi_Panic("rxi_SendList error");
5850             }
5851             working.list = &list[i + 1];
5852         }
5853     }
5854
5855     /* Send the whole list when the call is in receive mode, when
5856      * the call is in eof mode, when we are in fast recovery mode,
5857      * and when we have the last packet */
5858     /* XXX - The accesses to app.mode aren't safe, as this may be called by
5859      * the listener or event threads
5860      */
5861     if ((list[len - 1]->header.flags & RX_LAST_PACKET)
5862         || (call->flags & RX_CALL_FLUSH)
5863         || (call->flags & RX_CALL_FAST_RECOVER)) {
5864         /* Check for the case where the current list contains
5865          * an acked packet. Since we always send retransmissions
5866          * in a separate packet, we only need to check the first
5867          * packet in the list */
5868         if (working.len > 0 && !(working.list[0]->flags & RX_PKTFLAG_ACKED)) {
5869             morePackets = 1;
5870         }
5871         if (last.len > 0) {
5872             rxi_SendList(call, &last, istack, morePackets);
5873             /* If the call enters an error state stop sending, or if
5874              * we entered congestion recovery mode, stop sending */
5875             if (call->error
5876                 || (!recovery && (call->flags & RX_CALL_FAST_RECOVER)))
5877                 return;
5878         }
5879         if (morePackets) {
5880             rxi_SendList(call, &working, istack, 0);
5881         }
5882     } else if (last.len > 0) {
5883         rxi_SendList(call, &last, istack, 0);
5884         /* Packets which are in 'working' are not sent by this call */
5885     }
5886 }
5887
5888 /**
5889  * Check if the peer for the given call is known to be dead
5890  *
5891  * If the call's peer appears dead (it has encountered fatal network errors
5892  * since the call started) the call is killed with RX_CALL_DEAD if the call
5893  * is active. Otherwise, we do nothing.
5894  *
5895  * @param[in] call  The call to check
5896  *
5897  * @return status
5898  *  @retval 0 The call is fine, and we haven't done anything to the call
5899  *  @retval nonzero The call's peer appears dead, and the call has been
5900  *                  terminated if it was active
5901  *
5902  * @pre call->lock must be locked
5903  */
5904 static int
5905 rxi_CheckPeerDead(struct rx_call *call)
5906 {
5907 #ifdef AFS_RXERRQ_ENV
5908     int peererrs;
5909
5910     if (call->state == RX_STATE_DALLY) {
5911         return 0;
5912     }
5913
5914     peererrs = rx_atomic_read(&call->conn->peer->neterrs);
5915     if (call->neterr_gen < peererrs) {
5916         /* we have received network errors since this call started; kill
5917          * the call */
5918         if (call->state == RX_STATE_ACTIVE) {
5919             rxi_CallError(call, RX_CALL_DEAD);
5920         }
5921         return -1;
5922     }
5923     if (call->neterr_gen > peererrs) {
5924         /* someone has reset the number of peer errors; set the call error gen
5925          * so we can detect if more errors are encountered */
5926         call->neterr_gen = peererrs;
5927     }
5928 #endif
5929     return 0;
5930 }
5931
5932 static void
5933 rxi_Resend(struct rxevent *event, void *arg0, void *arg1, int istack)
5934 {
5935     struct rx_call *call = arg0;
5936     struct rx_peer *peer;
5937     struct opr_queue *cursor;
5938     struct clock maxTimeout = { 60, 0 };
5939
5940     MUTEX_ENTER(&call->lock);
5941
5942     peer = call->conn->peer;
5943
5944     /* Make sure that the event pointer is removed from the call
5945      * structure, since there is no longer a per-call retransmission
5946      * event pending. */
5947     if (event == call->resendEvent)
5948         rxevent_Put(&call->resendEvent);
5949
5950     rxi_CheckPeerDead(call);
5951
5952     if (opr_queue_IsEmpty(&call->tq)) {
5953         /* Nothing to do. This means that we've been raced, and that an
5954          * ACK has come in between when we were triggered, and when we
5955          * actually got to run. */
5956         goto out;
5957     }
5958
5959     /* We're in loss recovery */
5960     call->flags |= RX_CALL_FAST_RECOVER;
5961
5962     /* Mark all of the pending packets in the queue as being lost */
5963     for (opr_queue_Scan(&call->tq, cursor)) {
5964         struct rx_packet *p = opr_queue_Entry(cursor, struct rx_packet, entry);
5965         if (!(p->flags & RX_PKTFLAG_ACKED))
5966             p->flags &= ~RX_PKTFLAG_SENT;
5967     }
5968
5969     /* We're resending, so we double the timeout of the call. This will be
5970      * dropped back down by the first successful ACK that we receive.
5971      *
5972      * We apply a maximum value here of 60 seconds
5973      */
5974     clock_Add(&call->rto, &call->rto);
5975     if (clock_Gt(&call->rto, &maxTimeout))
5976         call->rto = maxTimeout;
5977
5978     /* Packet loss is most likely due to congestion, so drop our window size
5979      * and start again from the beginning */
5980     if (peer->maxDgramPackets >1) {
5981         call->MTU = RX_JUMBOBUFFERSIZE + RX_HEADER_SIZE;
5982         call->MTU = MIN(peer->natMTU, peer->maxMTU);
5983     }
5984     call->ssthresh = MAX(4, MIN((int)call->cwind, (int)call->twind)) >> 1;
5985     call->nDgramPackets = 1;
5986     call->cwind = 1;
5987     call->nextCwind = 1;
5988     call->nAcks = 0;
5989     call->nNacks = 0;
5990     MUTEX_ENTER(&peer->peer_lock);
5991     peer->MTU = call->MTU;
5992     peer->cwind = call->cwind;
5993     peer->nDgramPackets = 1;
5994     peer->congestSeq++;
5995     call->congestSeq = peer->congestSeq;
5996     MUTEX_EXIT(&peer->peer_lock);
5997
5998     rxi_Start(call, istack);
5999
6000 out:
6001     CALL_RELE(call, RX_CALL_REFCOUNT_RESEND);
6002     MUTEX_EXIT(&call->lock);
6003 }
6004
6005 /* This routine is called when new packets are readied for
6006  * transmission and when retransmission may be necessary, or when the
6007  * transmission window or burst count are favourable.  This should be
6008  * better optimized for new packets, the usual case, now that we've
6009  * got rid of queues of send packets. XXXXXXXXXXX */
6010 void
6011 rxi_Start(struct rx_call *call, int istack)
6012 {
6013     struct opr_queue *cursor;
6014 #ifdef RX_ENABLE_LOCKS
6015     struct opr_queue *store;
6016 #endif
6017     int nXmitPackets;
6018     int maxXmitPackets;
6019
6020     if (call->error) {
6021 #ifdef RX_ENABLE_LOCKS
6022         if (rx_stats_active)
6023             rx_atomic_inc(&rx_tq_debug.rxi_start_in_error);
6024 #endif
6025         return;
6026     }
6027
6028     if (!opr_queue_IsEmpty(&call->tq)) {        /* If we have anything to send */
6029         /* Send (or resend) any packets that need it, subject to
6030          * window restrictions and congestion burst control
6031          * restrictions.  Ask for an ack on the last packet sent in
6032          * this burst.  For now, we're relying upon the window being
6033          * considerably bigger than the largest number of packets that
6034          * are typically sent at once by one initial call to
6035          * rxi_Start.  This is probably bogus (perhaps we should ask
6036          * for an ack when we're half way through the current
6037          * window?).  Also, for non file transfer applications, this
6038          * may end up asking for an ack for every packet.  Bogus. XXXX
6039          */
6040         /*
6041          * But check whether we're here recursively, and let the other guy
6042          * do the work.
6043          */
6044 #ifdef RX_ENABLE_LOCKS
6045         if (!(call->flags & RX_CALL_TQ_BUSY)) {
6046             call->flags |= RX_CALL_TQ_BUSY;
6047             do {
6048 #endif /* RX_ENABLE_LOCKS */
6049             restart:
6050 #ifdef RX_ENABLE_LOCKS
6051                 call->flags &= ~RX_CALL_NEED_START;
6052 #endif /* RX_ENABLE_LOCKS */
6053                 nXmitPackets = 0;
6054                 maxXmitPackets = MIN(call->twind, call->cwind);
6055                 for (opr_queue_Scan(&call->tq, cursor)) {
6056                     struct rx_packet *p
6057                         = opr_queue_Entry(cursor, struct rx_packet, entry);
6058
6059                     if (p->flags & RX_PKTFLAG_ACKED) {
6060                         /* Since we may block, don't trust this */
6061                         if (rx_stats_active)
6062                             rx_atomic_inc(&rx_stats.ignoreAckedPacket);
6063                         continue;       /* Ignore this packet if it has been acknowledged */
6064                     }
6065
6066                     /* Turn off all flags except these ones, which are the same
6067                      * on each transmission */
6068                     p->header.flags &= RX_PRESET_FLAGS;
6069
6070                     if (p->header.seq >=
6071                         call->tfirst + MIN((int)call->twind,
6072                                            (int)(call->nSoftAcked +
6073                                                  call->cwind))) {
6074                         call->flags |= RX_CALL_WAIT_WINDOW_SEND;        /* Wait for transmit window */
6075                         /* Note: if we're waiting for more window space, we can
6076                          * still send retransmits; hence we don't return here, but
6077                          * break out to schedule a retransmit event */
6078                         dpf(("call %d waiting for window (seq %d, twind %d, nSoftAcked %d, cwind %d)\n",
6079                              *(call->callNumber), p->header.seq, call->twind, call->nSoftAcked,
6080                              call->cwind));
6081                         break;
6082                     }
6083
6084                     /* Transmit the packet if it needs to be sent. */
6085                     if (!(p->flags & RX_PKTFLAG_SENT)) {
6086                         if (nXmitPackets == maxXmitPackets) {
6087                             rxi_SendXmitList(call, call->xmitList,
6088                                              nXmitPackets, istack);
6089                             goto restart;
6090                         }
6091                         dpf(("call %d xmit packet %"AFS_PTR_FMT"\n",
6092                               *(call->callNumber), p));
6093                         call->xmitList[nXmitPackets++] = p;
6094                     }
6095                 } /* end of the queue_Scan */
6096
6097                 /* xmitList now hold pointers to all of the packets that are
6098                  * ready to send. Now we loop to send the packets */
6099                 if (nXmitPackets > 0) {
6100                     rxi_SendXmitList(call, call->xmitList, nXmitPackets,
6101                                      istack);
6102                 }
6103
6104 #ifdef RX_ENABLE_LOCKS
6105                 if (call->error) {
6106                     /* We went into the error state while sending packets. Now is
6107                      * the time to reset the call. This will also inform the using
6108                      * process that the call is in an error state.
6109                      */
6110                     if (rx_stats_active)
6111                         rx_atomic_inc(&rx_tq_debug.rxi_start_aborted);
6112                     call->flags &= ~RX_CALL_TQ_BUSY;
6113                     rxi_WakeUpTransmitQueue(call);
6114                     rxi_CallError(call, call->error);
6115                     return;
6116                 }
6117
6118                 if (call->flags & RX_CALL_TQ_SOME_ACKED) {
6119                     int missing;
6120                     call->flags &= ~RX_CALL_TQ_SOME_ACKED;
6121                     /* Some packets have received acks. If they all have, we can clear
6122                      * the transmit queue.
6123                      */
6124                     missing = 0;
6125                     for (opr_queue_ScanSafe(&call->tq, cursor, store)) {
6126                         struct rx_packet *p
6127                             = opr_queue_Entry(cursor, struct rx_packet, entry);
6128
6129                         if (p->header.seq < call->tfirst
6130                             && (p->flags & RX_PKTFLAG_ACKED)) {
6131                             opr_queue_Remove(&p->entry);
6132 #ifdef RX_TRACK_PACKETS
6133                             p->flags &= ~RX_PKTFLAG_TQ;
6134 #endif
6135 #ifdef RXDEBUG_PACKET
6136                             call->tqc--;
6137 #endif
6138                             rxi_FreePacket(p);
6139                         } else
6140                             missing = 1;
6141                     }
6142                     if (!missing)
6143                         call->flags |= RX_CALL_TQ_CLEARME;
6144                 }
6145                 if (call->flags & RX_CALL_TQ_CLEARME)
6146                     rxi_ClearTransmitQueue(call, 1);
6147             } while (call->flags & RX_CALL_NEED_START);
6148             /*
6149              * TQ references no longer protected by this flag; they must remain
6150              * protected by the call lock.
6151              */
6152             call->flags &= ~RX_CALL_TQ_BUSY;
6153             rxi_WakeUpTransmitQueue(call);
6154         } else {
6155             call->flags |= RX_CALL_NEED_START;
6156         }
6157 #endif /* RX_ENABLE_LOCKS */
6158     } else {
6159         rxi_rto_cancel(call);
6160     }
6161 }
6162
6163 /* Also adjusts the keep alive parameters for the call, to reflect
6164  * that we have just sent a packet (so keep alives aren't sent
6165  * immediately) */
6166 void
6167 rxi_Send(struct rx_call *call, struct rx_packet *p,
6168          int istack)
6169 {
6170     struct rx_connection *conn = call->conn;
6171
6172     /* Stamp each packet with the user supplied status */
6173     p->header.userStatus = call->localStatus;
6174
6175     /* Allow the security object controlling this call's security to
6176      * make any last-minute changes to the packet */
6177     RXS_SendPacket(conn->securityObject, call, p);
6178
6179     /* Since we're about to send SOME sort of packet to the peer, it's
6180      * safe to nuke any scheduled end-of-packets ack */
6181     rxi_CancelDelayedAckEvent(call);
6182
6183     /* Actually send the packet, filling in more connection-specific fields */
6184     MUTEX_EXIT(&call->lock);
6185     CALL_HOLD(call, RX_CALL_REFCOUNT_SEND);
6186     rxi_SendPacket(call, conn, p, istack);
6187     CALL_RELE(call, RX_CALL_REFCOUNT_SEND);
6188     MUTEX_ENTER(&call->lock);
6189
6190     /* Update last send time for this call (for keep-alive
6191      * processing), and for the connection (so that we can discover
6192      * idle connections) */
6193     if ((p->header.type != RX_PACKET_TYPE_ACK) ||
6194         (((struct rx_ackPacket *)rx_DataOf(p))->reason == RX_ACK_PING) ||
6195         (p->length <= (rx_AckDataSize(call->rwind) + 4 * sizeof(afs_int32))))
6196     {
6197         conn->lastSendTime = call->lastSendTime = clock_Sec();
6198     }
6199 }
6200
6201 /* Check if a call needs to be destroyed.  Called by keep-alive code to ensure
6202  * that things are fine.  Also called periodically to guarantee that nothing
6203  * falls through the cracks (e.g. (error + dally) connections have keepalive
6204  * turned off.  Returns 0 if conn is well, -1 otherwise.  If otherwise, call
6205  *  may be freed!
6206  * haveCTLock Set if calling from rxi_ReapConnections
6207  */
6208 static int
6209 rxi_CheckCall(struct rx_call *call, int haveCTLock)
6210 {
6211     struct rx_connection *conn = call->conn;
6212     afs_uint32 now;
6213     afs_uint32 deadTime, idleDeadTime = 0, hardDeadTime = 0;
6214     afs_uint32 fudgeFactor;
6215     int cerror = 0;
6216     int newmtu = 0;
6217     int idle_timeout = 0;
6218     afs_int32  clock_diff = 0;
6219
6220     if (rxi_CheckPeerDead(call)) {
6221         return -1;
6222     }
6223
6224     now = clock_Sec();
6225
6226     /* Large swings in the clock can have a significant impact on
6227      * the performance of RX call processing.  Forward clock shifts
6228      * will result in premature event triggering or timeouts.
6229      * Backward shifts can result in calls not completing until
6230      * the clock catches up with the original start clock value.
6231      *
6232      * If a backward clock shift of more than five minutes is noticed,
6233      * just fail the call.
6234      */
6235     if (now < call->lastSendTime)
6236         clock_diff = call->lastSendTime - now;
6237     if (now < call->startWait)
6238         clock_diff = MAX(clock_diff, call->startWait - now);
6239     if (now < call->lastReceiveTime)
6240         clock_diff = MAX(clock_diff, call->lastReceiveTime - now);
6241     if (clock_diff > 5 * 60)
6242     {
6243         if (call->state == RX_STATE_ACTIVE)
6244             rxi_CallError(call, RX_CALL_TIMEOUT);
6245         return -1;
6246     }
6247
6248 #ifdef RX_ENABLE_LOCKS
6249     if (call->flags & RX_CALL_TQ_BUSY) {
6250         /* Call is active and will be reset by rxi_Start if it's
6251          * in an error state.
6252          */
6253         return 0;
6254     }
6255 #endif
6256     /* RTT + 8*MDEV, rounded up to the next second. */
6257     fudgeFactor = (((afs_uint32) call->rtt >> 3) +
6258                    ((afs_uint32) call->rtt_dev << 1) + 1023) >> 10;
6259
6260     deadTime = conn->secondsUntilDead + fudgeFactor;
6261     /* These are computed to the second (+- 1 second).  But that's
6262      * good enough for these values, which should be a significant
6263      * number of seconds. */
6264     if (now > (call->lastReceiveTime + deadTime)) {
6265         if (call->state == RX_STATE_ACTIVE) {
6266             cerror = RX_CALL_DEAD;
6267             goto mtuout;
6268         } else {
6269 #ifdef RX_ENABLE_LOCKS
6270             /* Cancel pending events */
6271             rxi_CancelDelayedAckEvent(call);
6272             rxi_rto_cancel(call);
6273             rxi_CancelKeepAliveEvent(call);
6274             rxi_CancelGrowMTUEvent(call);
6275             MUTEX_ENTER(&rx_refcnt_mutex);
6276             /* if rxi_FreeCall returns 1 it has freed the call */
6277             if (call->refCount == 0 &&
6278                 rxi_FreeCall(call, haveCTLock))
6279             {
6280                 MUTEX_EXIT(&rx_refcnt_mutex);
6281                 return -2;
6282             }
6283             MUTEX_EXIT(&rx_refcnt_mutex);
6284             return -1;
6285 #else /* RX_ENABLE_LOCKS */
6286             rxi_FreeCall(call, 0);
6287             return -2;
6288 #endif /* RX_ENABLE_LOCKS */
6289         }
6290         /* Non-active calls are destroyed if they are not responding
6291          * to pings; active calls are simply flagged in error, so the
6292          * attached process can die reasonably gracefully. */
6293     }
6294
6295     if (conn->idleDeadTime) {
6296         idleDeadTime = conn->idleDeadTime + fudgeFactor;
6297     }
6298
6299     if (idleDeadTime) {
6300         /* see if we have a non-activity timeout */
6301         if (call->startWait && ((call->startWait + idleDeadTime) < now)) {
6302             if (call->state == RX_STATE_ACTIVE) {
6303                 cerror = RX_CALL_TIMEOUT;
6304                 goto mtuout;
6305             }
6306         }
6307     }
6308
6309     if (conn->hardDeadTime) {
6310         hardDeadTime = conn->hardDeadTime + fudgeFactor;
6311     }
6312
6313     /* see if we have a hard timeout */
6314     if (hardDeadTime
6315         && (now > (hardDeadTime + call->startTime.sec))) {
6316         if (call->state == RX_STATE_ACTIVE)
6317             rxi_CallError(call, RX_CALL_TIMEOUT);
6318         return -1;
6319     }
6320     return 0;
6321 mtuout:
6322     if (conn->msgsizeRetryErr && cerror != RX_CALL_TIMEOUT && !idle_timeout &&
6323         call->lastReceiveTime) {
6324         int oldMTU = conn->peer->ifMTU;
6325
6326         /* If we thought we could send more, perhaps things got worse.
6327          * Shrink by 128 bytes and try again. */
6328         if (conn->peer->maxPacketSize < conn->lastPacketSize)
6329             /* maxPacketSize will be cleared in rxi_SetPeerMtu */
6330             newmtu = MAX(conn->peer->maxPacketSize + RX_HEADER_SIZE,
6331                          conn->lastPacketSize - 128 + RX_HEADER_SIZE);
6332         else
6333             newmtu = conn->lastPacketSize - 128 + RX_HEADER_SIZE;
6334
6335         /* minimum capped in SetPeerMtu */
6336         rxi_SetPeerMtu(conn->peer, 0, 0, newmtu);
6337
6338         /* clean up */
6339         conn->lastPacketSize = conn->lastPacketSizeSeq = 0;
6340
6341         /* needed so ResetCall doesn't clobber us. */
6342         call->MTU = conn->peer->ifMTU;
6343
6344         /* if we never succeeded, let the error pass out as-is */
6345         if (conn->peer->maxPacketSize && oldMTU != conn->peer->ifMTU)
6346             cerror = conn->msgsizeRetryErr;
6347
6348     }
6349     rxi_CallError(call, cerror);
6350     return -1;
6351 }
6352
6353 void
6354 rxi_NatKeepAliveEvent(struct rxevent *event, void *arg1,
6355                       void *dummy, int dummy2)
6356 {
6357     struct rx_connection *conn = arg1;
6358     struct rx_header theader;
6359     char tbuffer[1 + sizeof(struct rx_header)];
6360     struct sockaddr_in taddr;
6361     char *tp;
6362     char a[1] = { 0 };
6363     int resched = 0;
6364     struct iovec tmpiov[2];
6365     osi_socket socket =
6366         (conn->type ==
6367          RX_CLIENT_CONNECTION ? rx_socket : conn->service->socket);
6368
6369
6370     tp = &tbuffer[sizeof(struct rx_header)];
6371     taddr.sin_family = AF_INET;
6372     taddr.sin_port = rx_PortOf(rx_PeerOf(conn));
6373     taddr.sin_addr.s_addr = rx_HostOf(rx_PeerOf(conn));
6374     memset(&taddr.sin_zero, 0, sizeof(taddr.sin_zero));
6375 #ifdef STRUCT_SOCKADDR_HAS_SA_LEN
6376     taddr.sin_len = sizeof(struct sockaddr_in);
6377 #endif
6378     memset(&theader, 0, sizeof(theader));
6379     theader.epoch = htonl(999);
6380     theader.cid = 0;
6381     theader.callNumber = 0;
6382     theader.seq = 0;
6383     theader.serial = 0;
6384     theader.type = RX_PACKET_TYPE_VERSION;
6385     theader.flags = RX_LAST_PACKET;
6386     theader.serviceId = 0;
6387
6388     memcpy(tbuffer, &theader, sizeof(theader));
6389     memcpy(tp, &a, sizeof(a));
6390     tmpiov[0].iov_base = tbuffer;
6391     tmpiov[0].iov_len = 1 + sizeof(struct rx_header);
6392
6393     osi_NetSend(socket, &taddr, tmpiov, 1, 1 + sizeof(struct rx_header), 1);
6394
6395     MUTEX_ENTER(&conn->conn_data_lock);
6396     /* We ran, so the handle is no longer needed to try to cancel ourselves. */
6397     if (event == conn->natKeepAliveEvent)
6398         rxevent_Put(&conn->natKeepAliveEvent);
6399     MUTEX_ENTER(&rx_refcnt_mutex);
6400     /* Only reschedule ourselves if the connection would not be destroyed */
6401     if (conn->refCount > 1)
6402         resched = 1;
6403     if (conn->refCount <= 0) {
6404 #ifdef RX_REFCOUNT_CHECK
6405         osi_Assert(conn->refCount == 0);
6406 #endif
6407         if (rx_stats_active) {
6408             MUTEX_ENTER(&rx_stats_mutex);
6409             rxi_lowConnRefCount++;
6410             MUTEX_EXIT(&rx_stats_mutex);
6411         }
6412     }
6413     MUTEX_EXIT(&rx_refcnt_mutex);
6414     if (resched)
6415         rxi_ScheduleNatKeepAliveEvent(conn);
6416     MUTEX_EXIT(&conn->conn_data_lock);
6417     putConnection(conn);
6418 }
6419
6420 static void
6421 rxi_ScheduleNatKeepAliveEvent(struct rx_connection *conn)
6422 {
6423     MUTEX_ASSERT(&conn->conn_data_lock);
6424     if (!conn->natKeepAliveEvent && conn->secondsUntilNatPing) {
6425         struct clock when, now;
6426         clock_GetTime(&now);
6427         when = now;
6428         when.sec += conn->secondsUntilNatPing;
6429         rx_GetConnection(conn);
6430         conn->natKeepAliveEvent =
6431             rxevent_Post(&when, &now, rxi_NatKeepAliveEvent, conn, NULL, 0);
6432     }
6433 }
6434
6435 void
6436 rx_SetConnSecondsUntilNatPing(struct rx_connection *conn, afs_int32 seconds)
6437 {
6438     MUTEX_ENTER(&conn->conn_data_lock);
6439     conn->secondsUntilNatPing = seconds;
6440     if (seconds != 0) {
6441         if (!(conn->flags & RX_CONN_ATTACHWAIT))
6442             rxi_ScheduleNatKeepAliveEvent(conn);
6443         else
6444             conn->flags |= RX_CONN_NAT_PING;
6445     }
6446     MUTEX_EXIT(&conn->conn_data_lock);
6447 }
6448
6449 /* When a call is in progress, this routine is called occasionally to
6450  * make sure that some traffic has arrived (or been sent to) the peer.
6451  * If nothing has arrived in a reasonable amount of time, the call is
6452  * declared dead; if nothing has been sent for a while, we send a
6453  * keep-alive packet (if we're actually trying to keep the call alive)
6454  */
6455 void
6456 rxi_KeepAliveEvent(struct rxevent *event, void *arg1, void *dummy,
6457                    int dummy2)
6458 {
6459     struct rx_call *call = arg1;
6460     struct rx_connection *conn;
6461     afs_uint32 now;
6462
6463     MUTEX_ENTER(&call->lock);
6464
6465     if (event == call->keepAliveEvent)
6466         rxevent_Put(&call->keepAliveEvent);
6467
6468     now = clock_Sec();
6469
6470     if (rxi_CheckCall(call, 0)) {
6471         MUTEX_EXIT(&call->lock);
6472         return;
6473     }
6474
6475     /* Don't try to keep alive dallying calls */
6476     if (call->state == RX_STATE_DALLY) {
6477         MUTEX_EXIT(&call->lock);
6478         CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
6479         return;
6480     }
6481
6482     conn = call->conn;
6483     if ((now - call->lastSendTime) > conn->secondsUntilPing) {
6484         /* Don't try to send keepalives if there is unacknowledged data */
6485         /* the rexmit code should be good enough, this little hack
6486          * doesn't quite work XXX */
6487         (void)rxi_SendAck(call, NULL, 0, RX_ACK_PING, 0);
6488     }
6489     rxi_ScheduleKeepAliveEvent(call);
6490     MUTEX_EXIT(&call->lock);
6491     CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
6492 }
6493
6494 /* Does what's on the nameplate. */
6495 void
6496 rxi_GrowMTUEvent(struct rxevent *event, void *arg1, void *dummy, int dummy2)
6497 {
6498     struct rx_call *call = arg1;
6499     struct rx_connection *conn;
6500
6501     MUTEX_ENTER(&call->lock);
6502
6503     if (event == call->growMTUEvent)
6504         rxevent_Put(&call->growMTUEvent);
6505
6506     if (rxi_CheckCall(call, 0))
6507         goto out;
6508
6509     /* Don't bother with dallying calls */
6510     if (call->state == RX_STATE_DALLY)
6511         goto out;
6512
6513     conn = call->conn;
6514
6515     /*
6516      * keep being scheduled, just don't do anything if we're at peak,
6517      * or we're not set up to be properly handled (idle timeout required)
6518      */
6519     if ((conn->peer->maxPacketSize != 0) &&
6520         (conn->peer->natMTU < RX_MAX_PACKET_SIZE) &&
6521         conn->idleDeadTime)
6522         (void)rxi_SendAck(call, NULL, 0, RX_ACK_MTU, 0);
6523     rxi_ScheduleGrowMTUEvent(call, 0);
6524 out:
6525     MUTEX_EXIT(&call->lock);
6526     CALL_RELE(call, RX_CALL_REFCOUNT_MTU);
6527 }
6528
6529 static void
6530 rxi_ScheduleKeepAliveEvent(struct rx_call *call)
6531 {
6532     MUTEX_ASSERT(&call->lock);
6533     if (!call->keepAliveEvent) {
6534         struct clock when, now;
6535         clock_GetTime(&now);
6536         when = now;
6537         when.sec += call->conn->secondsUntilPing;
6538         CALL_HOLD(call, RX_CALL_REFCOUNT_ALIVE);
6539         call->keepAliveEvent =
6540             rxevent_Post(&when, &now, rxi_KeepAliveEvent, call, NULL, 0);
6541     }
6542 }
6543
6544 static void
6545 rxi_CancelKeepAliveEvent(struct rx_call *call) {
6546     MUTEX_ASSERT(&call->lock);
6547     if (rxevent_Cancel(&call->keepAliveEvent))
6548         CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
6549 }
6550
6551 static void
6552 rxi_ScheduleGrowMTUEvent(struct rx_call *call, int secs)
6553 {
6554     MUTEX_ASSERT(&call->lock);
6555     if (!call->growMTUEvent) {
6556         struct clock when, now;
6557
6558         clock_GetTime(&now);
6559         when = now;
6560         if (!secs) {
6561             if (call->conn->secondsUntilPing)
6562                 secs = (6*call->conn->secondsUntilPing)-1;
6563
6564             if (call->conn->secondsUntilDead)
6565                 secs = MIN(secs, (call->conn->secondsUntilDead-1));
6566         }
6567
6568         when.sec += secs;
6569         CALL_HOLD(call, RX_CALL_REFCOUNT_MTU);
6570         call->growMTUEvent =
6571             rxevent_Post(&when, &now, rxi_GrowMTUEvent, call, NULL, 0);
6572     }
6573 }
6574
6575 static void
6576 rxi_CancelGrowMTUEvent(struct rx_call *call)
6577 {
6578     MUTEX_ASSERT(&call->lock);
6579     if (rxevent_Cancel(&call->growMTUEvent))
6580         CALL_RELE(call, RX_CALL_REFCOUNT_MTU);
6581 }
6582
6583 /*
6584  * Increment the counter for the next connection ID, handling overflow.
6585  */
6586 static void
6587 update_nextCid(void)
6588 {
6589     /* Overflow is technically undefined behavior; avoid it. */
6590     if (rx_nextCid > MAX_AFS_INT32 - (1 << RX_CIDSHIFT))
6591         rx_nextCid = -1 * ((MAX_AFS_INT32 / RX_CIDSHIFT) * RX_CIDSHIFT);
6592     else
6593         rx_nextCid += 1 << RX_CIDSHIFT;
6594 }
6595
6596 static void
6597 rxi_KeepAliveOn(struct rx_call *call)
6598 {
6599     /* Pretend last packet received was received now--i.e. if another
6600      * packet isn't received within the keep alive time, then the call
6601      * will die; Initialize last send time to the current time--even
6602      * if a packet hasn't been sent yet.  This will guarantee that a
6603      * keep-alive is sent within the ping time */
6604     call->lastReceiveTime = call->lastSendTime = clock_Sec();
6605     rxi_ScheduleKeepAliveEvent(call);
6606 }
6607
6608 static void
6609 rxi_GrowMTUOn(struct rx_call *call)
6610 {
6611     struct rx_connection *conn = call->conn;
6612     MUTEX_ENTER(&conn->conn_data_lock);
6613     conn->lastPingSizeSer = conn->lastPingSize = 0;
6614     MUTEX_EXIT(&conn->conn_data_lock);
6615     rxi_ScheduleGrowMTUEvent(call, 1);
6616 }
6617
6618 /* This routine is called to send connection abort messages
6619  * that have been delayed to throttle looping clients. */
6620 static void
6621 rxi_SendDelayedConnAbort(struct rxevent *event, void *arg1, void *unused,
6622                          int unused2)
6623 {
6624     struct rx_connection *conn = arg1;
6625
6626     afs_int32 error;
6627     struct rx_packet *packet;
6628
6629     MUTEX_ENTER(&conn->conn_data_lock);
6630     if (event == conn->delayedAbortEvent)
6631         rxevent_Put(&conn->delayedAbortEvent);
6632     error = htonl(conn->error);
6633     conn->abortCount++;
6634     MUTEX_EXIT(&conn->conn_data_lock);
6635     packet = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL);
6636     if (packet) {
6637         packet =
6638             rxi_SendSpecial((struct rx_call *)0, conn, packet,
6639                             RX_PACKET_TYPE_ABORT, (char *)&error,
6640                             sizeof(error), 0);
6641         rxi_FreePacket(packet);
6642     }
6643     putConnection(conn);
6644 }
6645
6646 /* This routine is called to send call abort messages
6647  * that have been delayed to throttle looping clients. */
6648 static void
6649 rxi_SendDelayedCallAbort(struct rxevent *event, void *arg1, void *dummy,
6650                          int dummy2)
6651 {
6652     struct rx_call *call = arg1;
6653
6654     afs_int32 error;
6655     struct rx_packet *packet;
6656
6657     MUTEX_ENTER(&call->lock);
6658     if (event == call->delayedAbortEvent)
6659         rxevent_Put(&call->delayedAbortEvent);
6660     error = htonl(call->error);
6661     call->abortCount++;
6662     packet = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL);
6663     if (packet) {
6664         packet =
6665             rxi_SendSpecial(call, call->conn, packet, RX_PACKET_TYPE_ABORT,
6666                             (char *)&error, sizeof(error), 0);
6667         rxi_FreePacket(packet);
6668     }
6669     MUTEX_EXIT(&call->lock);
6670     CALL_RELE(call, RX_CALL_REFCOUNT_ABORT);
6671 }
6672
6673 /*
6674  * This routine is called periodically (every RX_AUTH_REQUEST_TIMEOUT
6675  * seconds) to ask the client to authenticate itself.  The routine
6676  * issues a challenge to the client, which is obtained from the
6677  * security object associated with the connection
6678  *
6679  * This routine is both an event handler and a function called directly;
6680  * when called directly the passed |event| is NULL and the
6681  * conn->conn->data>lock must must not be held.
6682  */
6683 static void
6684 rxi_ChallengeEvent(struct rxevent *event,
6685                    void *arg0, void *arg1, int tries)
6686 {
6687     struct rx_connection *conn = arg0;
6688
6689     MUTEX_ENTER(&conn->conn_data_lock);
6690     if (event != NULL && event == conn->challengeEvent)
6691         rxevent_Put(&conn->challengeEvent);
6692     MUTEX_EXIT(&conn->conn_data_lock);
6693
6694     /* If there are no active calls it is not worth re-issuing the
6695      * challenge.  If the client issues another call on this connection
6696      * the challenge can be requested at that time.
6697      */
6698     if (!rxi_HasActiveCalls(conn)) {
6699         putConnection(conn);
6700         return;
6701     }
6702
6703     if (RXS_CheckAuthentication(conn->securityObject, conn) != 0) {
6704         struct rx_packet *packet;
6705         struct clock when, now;
6706
6707         if (tries <= 0) {
6708             /* We've failed to authenticate for too long.
6709              * Reset any calls waiting for authentication;
6710              * they are all in RX_STATE_PRECALL.
6711              */
6712             int i;
6713
6714             MUTEX_ENTER(&conn->conn_call_lock);
6715             for (i = 0; i < RX_MAXCALLS; i++) {
6716                 struct rx_call *call = conn->call[i];
6717                 if (call) {
6718                     MUTEX_ENTER(&call->lock);
6719                     if (call->state == RX_STATE_PRECALL) {
6720                         rxi_CallError(call, RX_CALL_DEAD);
6721                         rxi_SendCallAbort(call, NULL, 0, 0);
6722                     }
6723                     MUTEX_EXIT(&call->lock);
6724                 }
6725             }
6726             MUTEX_EXIT(&conn->conn_call_lock);
6727             putConnection(conn);
6728             return;
6729         }
6730
6731         packet = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL);
6732         if (packet) {
6733             /* If there's no packet available, do this later. */
6734             RXS_GetChallenge(conn->securityObject, conn, packet);
6735             rxi_SendSpecial((struct rx_call *)0, conn, packet,
6736                             RX_PACKET_TYPE_CHALLENGE, NULL, -1, 0);
6737             rxi_FreePacket(packet);
6738             conn->securityChallengeSent = 1;
6739         }
6740         clock_GetTime(&now);
6741         when = now;
6742         when.sec += RX_CHALLENGE_TIMEOUT;
6743         MUTEX_ENTER(&conn->conn_data_lock);
6744         /* Only reschedule ourselves if not already pending. */
6745         if (conn->challengeEvent == NULL) {
6746             rx_GetConnection(conn);
6747             conn->challengeEvent =
6748                 rxevent_Post(&when, &now, rxi_ChallengeEvent, conn, 0,
6749                              (tries - 1));
6750         }
6751         MUTEX_EXIT(&conn->conn_data_lock);
6752     }
6753     putConnection(conn);
6754 }
6755
6756 /* Call this routine to start requesting the client to authenticate
6757  * itself.  This will continue until authentication is established,
6758  * the call times out, or an invalid response is returned.  The
6759  * security object associated with the connection is asked to create
6760  * the challenge at this time. */
6761 static void
6762 rxi_ChallengeOn(struct rx_connection *conn)
6763 {
6764     int start = 0;
6765     MUTEX_ENTER(&conn->conn_data_lock);
6766     if (!conn->challengeEvent)
6767         start = 1;
6768     MUTEX_EXIT(&conn->conn_data_lock);
6769     if (start) {
6770         RXS_CreateChallenge(conn->securityObject, conn);
6771         rxi_ChallengeEvent(NULL, conn, 0, RX_CHALLENGE_MAXTRIES);
6772     };
6773 }
6774
6775
6776 /* rxi_ComputeRoundTripTime is called with peer locked. */
6777 /* peer may be null */
6778 static void
6779 rxi_ComputeRoundTripTime(struct rx_packet *p,
6780                          struct rx_ackPacket *ack,
6781                          struct rx_call *call,
6782                          struct rx_peer *peer,
6783                          struct clock *now)
6784 {
6785     struct clock thisRtt, *sentp;
6786     int rtt_timeout;
6787     int serial;
6788
6789     /* If the ACK is delayed, then do nothing */
6790     if (ack->reason == RX_ACK_DELAY)
6791         return;
6792
6793     /* On the wire, jumbograms are a single UDP packet. We shouldn't count
6794      * their RTT multiple times, so only include the RTT of the last packet
6795      * in a jumbogram */
6796     if (p->flags & RX_JUMBO_PACKET)
6797         return;
6798
6799     /* Use the serial number to determine which transmission the ACK is for,
6800      * and set the sent time to match this. If we have no serial number, then
6801      * only use the ACK for RTT calculations if the packet has not been
6802      * retransmitted
6803      */
6804
6805     serial = ntohl(ack->serial);
6806     if (serial) {
6807         if (serial == p->header.serial) {
6808             sentp = &p->timeSent;
6809         } else if (serial == p->firstSerial) {
6810             sentp = &p->firstSent;
6811         } else if (clock_Eq(&p->timeSent, &p->firstSent)) {
6812             sentp = &p->firstSent;
6813         } else
6814             return;
6815     } else {
6816         if (clock_Eq(&p->timeSent, &p->firstSent)) {
6817             sentp = &p->firstSent;
6818         } else
6819             return;
6820     }
6821
6822     thisRtt = *now;
6823
6824     if (clock_Lt(&thisRtt, sentp))
6825         return;                 /* somebody set the clock back, don't count this time. */
6826
6827     clock_Sub(&thisRtt, sentp);
6828     dpf(("rxi_ComputeRoundTripTime(call=%d packet=%"AFS_PTR_FMT" rttp=%d.%06d sec)\n",
6829           p->header.callNumber, p, thisRtt.sec, thisRtt.usec));
6830
6831     if (clock_IsZero(&thisRtt)) {
6832         /*
6833          * The actual round trip time is shorter than the
6834          * clock_GetTime resolution.  It is most likely 1ms or 100ns.
6835          * Since we can't tell which at the moment we will assume 1ms.
6836          */
6837         thisRtt.usec = 1000;
6838     }
6839
6840     if (rx_stats_active) {
6841         MUTEX_ENTER(&rx_stats_mutex);
6842         if (clock_Lt(&thisRtt, &rx_stats.minRtt))
6843             rx_stats.minRtt = thisRtt;
6844         if (clock_Gt(&thisRtt, &rx_stats.maxRtt)) {
6845             if (thisRtt.sec > 60) {
6846                 MUTEX_EXIT(&rx_stats_mutex);
6847                 return;         /* somebody set the clock ahead */
6848             }
6849             rx_stats.maxRtt = thisRtt;
6850         }
6851         clock_Add(&rx_stats.totalRtt, &thisRtt);
6852         rx_atomic_inc(&rx_stats.nRttSamples);
6853         MUTEX_EXIT(&rx_stats_mutex);
6854     }
6855
6856     /* better rtt calculation courtesy of UMich crew (dave,larry,peter,?) */
6857
6858     /* Apply VanJacobson round-trip estimations */
6859     if (call->rtt) {
6860         int delta;
6861
6862         /*
6863          * srtt (call->rtt) is in units of one-eighth-milliseconds.
6864          * srtt is stored as fixed point with 3 bits after the binary
6865          * point (i.e., scaled by 8). The following magic is
6866          * equivalent to the smoothing algorithm in rfc793 with an
6867          * alpha of .875 (srtt' = rtt/8 + srtt*7/8 in fixed point).
6868          * srtt'*8 = rtt + srtt*7
6869          * srtt'*8 = srtt*8 + rtt - srtt
6870          * srtt' = srtt + rtt/8 - srtt/8
6871          * srtt' = srtt + (rtt - srtt)/8
6872          */
6873
6874         delta = _8THMSEC(&thisRtt) - call->rtt;
6875         call->rtt += (delta >> 3);
6876
6877         /*
6878          * We accumulate a smoothed rtt variance (actually, a smoothed
6879          * mean difference), then set the retransmit timer to smoothed
6880          * rtt + 4 times the smoothed variance (was 2x in van's original
6881          * paper, but 4x works better for me, and apparently for him as
6882          * well).
6883          * rttvar is stored as
6884          * fixed point with 2 bits after the binary point (scaled by
6885          * 4).  The following is equivalent to rfc793 smoothing with
6886          * an alpha of .75 (rttvar' = rttvar*3/4 + |delta| / 4).
6887          *   rttvar'*4 = rttvar*3 + |delta|
6888          *   rttvar'*4 = rttvar*4 + |delta| - rttvar
6889          *   rttvar' = rttvar + |delta|/4 - rttvar/4
6890          *   rttvar' = rttvar + (|delta| - rttvar)/4
6891          * This replaces rfc793's wired-in beta.
6892          * dev*4 = dev*4 + (|actual - expected| - dev)
6893          */
6894
6895         if (delta < 0)
6896             delta = -delta;
6897
6898         delta -= (call->rtt_dev << 1);
6899         call->rtt_dev += (delta >> 3);
6900     } else {
6901         /* I don't have a stored RTT so I start with this value.  Since I'm
6902          * probably just starting a call, and will be pushing more data down
6903          * this, I expect congestion to increase rapidly.  So I fudge a
6904          * little, and I set deviance to half the rtt.  In practice,
6905          * deviance tends to approach something a little less than
6906          * half the smoothed rtt. */
6907         call->rtt = _8THMSEC(&thisRtt) + 8;
6908         call->rtt_dev = call->rtt >> 2; /* rtt/2: they're scaled differently */
6909     }
6910     /* the smoothed RTT time is RTT + 4*MDEV
6911      *
6912      * We allow a user specified minimum to be set for this, to allow clamping
6913      * at a minimum value in the same way as TCP. In addition, we have to allow
6914      * for the possibility that this packet is answered by a delayed ACK, so we
6915      * add on a fixed 200ms to account for that timer expiring.
6916      */
6917
6918     rtt_timeout = MAX(((call->rtt >> 3) + call->rtt_dev),
6919                       rx_minPeerTimeout) + 200;
6920     clock_Zero(&call->rto);
6921     clock_Addmsec(&call->rto, rtt_timeout);
6922
6923     /* Update the peer, so any new calls start with our values */
6924     peer->rtt_dev = call->rtt_dev;
6925     peer->rtt = call->rtt;
6926
6927     dpf(("rxi_ComputeRoundTripTime(call=%d packet=%"AFS_PTR_FMT" rtt=%d ms, srtt=%d ms, rtt_dev=%d ms, timeout=%d.%06d sec)\n",
6928           p->header.callNumber, p, MSEC(&thisRtt), call->rtt >> 3, call->rtt_dev >> 2, (call->rto.sec), (call->rto.usec)));
6929 }
6930
6931
6932 /* Find all server connections that have not been active for a long time, and
6933  * toss them */
6934 static void
6935 rxi_ReapConnections(struct rxevent *unused, void *unused1, void *unused2,
6936                     int unused3)
6937 {
6938     struct clock now, when;
6939     struct rxevent *event;
6940     clock_GetTime(&now);
6941
6942     /* Find server connection structures that haven't been used for
6943      * greater than rx_idleConnectionTime */
6944     {
6945         struct rx_connection **conn_ptr, **conn_end;
6946         int i, havecalls = 0;
6947         MUTEX_ENTER(&rx_connHashTable_lock);
6948         for (conn_ptr = &rx_connHashTable[0], conn_end =
6949              &rx_connHashTable[rx_hashTableSize]; conn_ptr < conn_end;
6950              conn_ptr++) {
6951             struct rx_connection *conn, *next;
6952             struct rx_call *call;
6953             int result;
6954
6955           rereap:
6956             for (conn = *conn_ptr; conn; conn = next) {
6957                 /* XXX -- Shouldn't the connection be locked? */
6958                 next = conn->next;
6959                 havecalls = 0;
6960                 for (i = 0; i < RX_MAXCALLS; i++) {
6961                     call = conn->call[i];
6962                     if (call) {
6963                         int code;
6964                         havecalls = 1;
6965                         code = MUTEX_TRYENTER(&call->lock);
6966                         if (!code)
6967                             continue;
6968                         result = rxi_CheckCall(call, 1);
6969                         MUTEX_EXIT(&call->lock);
6970                         if (result == -2) {
6971                             /* If CheckCall freed the call, it might
6972                              * have destroyed  the connection as well,
6973                              * which screws up the linked lists.
6974                              */
6975                             goto rereap;
6976                         }
6977                     }
6978                 }
6979                 if (conn->type == RX_SERVER_CONNECTION) {
6980                     /* This only actually destroys the connection if
6981                      * there are no outstanding calls */
6982                     MUTEX_ENTER(&conn->conn_data_lock);
6983                     MUTEX_ENTER(&rx_refcnt_mutex);
6984                     if (!havecalls && !conn->refCount
6985                         && ((conn->lastSendTime + rx_idleConnectionTime) <
6986                             now.sec)) {
6987                         conn->refCount++;       /* it will be decr in rx_DestroyConn */
6988                         MUTEX_EXIT(&rx_refcnt_mutex);
6989                         MUTEX_EXIT(&conn->conn_data_lock);
6990 #ifdef RX_ENABLE_LOCKS
6991                         rxi_DestroyConnectionNoLock(conn);
6992 #else /* RX_ENABLE_LOCKS */
6993                         rxi_DestroyConnection(conn);
6994 #endif /* RX_ENABLE_LOCKS */
6995                     }
6996 #ifdef RX_ENABLE_LOCKS
6997                     else {
6998                         MUTEX_EXIT(&rx_refcnt_mutex);
6999                         MUTEX_EXIT(&conn->conn_data_lock);
7000                     }
7001 #endif /* RX_ENABLE_LOCKS */
7002                 }
7003             }
7004         }
7005 #ifdef RX_ENABLE_LOCKS
7006         while (rx_connCleanup_list) {
7007             struct rx_connection *conn;
7008             conn = rx_connCleanup_list;
7009             rx_connCleanup_list = rx_connCleanup_list->next;
7010             MUTEX_EXIT(&rx_connHashTable_lock);
7011             rxi_CleanupConnection(conn);
7012             MUTEX_ENTER(&rx_connHashTable_lock);
7013         }
7014         MUTEX_EXIT(&rx_connHashTable_lock);
7015 #endif /* RX_ENABLE_LOCKS */
7016     }
7017
7018     /* Find any peer structures that haven't been used (haven't had an
7019      * associated connection) for greater than rx_idlePeerTime */
7020     {
7021         struct rx_peer **peer_ptr, **peer_end;
7022         int code;
7023
7024         /*
7025          * Why do we need to hold the rx_peerHashTable_lock across
7026          * the incrementing of peer_ptr since the rx_peerHashTable
7027          * array is not changing?  We don't.
7028          *
7029          * By dropping the lock periodically we can permit other
7030          * activities to be performed while a rxi_ReapConnections
7031          * call is in progress.  The goal of reap connections
7032          * is to clean up quickly without causing large amounts
7033          * of contention.  Therefore, it is important that global
7034          * mutexes not be held for extended periods of time.
7035          */
7036         for (peer_ptr = &rx_peerHashTable[0], peer_end =
7037              &rx_peerHashTable[rx_hashTableSize]; peer_ptr < peer_end;
7038              peer_ptr++) {
7039             struct rx_peer *peer, *next, *prev;
7040
7041             MUTEX_ENTER(&rx_peerHashTable_lock);
7042             for (prev = peer = *peer_ptr; peer; peer = next) {
7043                 next = peer->next;
7044                 code = MUTEX_TRYENTER(&peer->peer_lock);
7045                 if ((code) && (peer->refCount == 0)
7046                     && ((peer->idleWhen + rx_idlePeerTime) < now.sec)) {
7047                     struct opr_queue *cursor, *store;
7048                     size_t space;
7049
7050                     /*
7051                      * now know that this peer object is one to be
7052                      * removed from the hash table.  Once it is removed
7053                      * it can't be referenced by other threads.
7054                      * Lets remove it first and decrement the struct
7055                      * nPeerStructs count.
7056                      */
7057                     if (peer == *peer_ptr) {
7058                         *peer_ptr = next;
7059                         prev = next;
7060                     } else
7061                         prev->next = next;
7062
7063                     if (rx_stats_active)
7064                         rx_atomic_dec(&rx_stats.nPeerStructs);
7065
7066                     /*
7067                      * Now if we hold references on 'prev' and 'next'
7068                      * we can safely drop the rx_peerHashTable_lock
7069                      * while we destroy this 'peer' object.
7070                      */
7071                     if (next)
7072                         next->refCount++;
7073                     if (prev)
7074                         prev->refCount++;
7075                     MUTEX_EXIT(&rx_peerHashTable_lock);
7076
7077                     MUTEX_EXIT(&peer->peer_lock);
7078                     MUTEX_DESTROY(&peer->peer_lock);
7079
7080                     for (opr_queue_ScanSafe(&peer->rpcStats, cursor, store)) {
7081                         unsigned int num_funcs;
7082                         struct rx_interface_stat *rpc_stat
7083                             = opr_queue_Entry(cursor, struct rx_interface_stat,
7084                                              entry);
7085                         if (!rpc_stat)
7086                             break;
7087
7088                         opr_queue_Remove(&rpc_stat->entry);
7089                         opr_queue_Remove(&rpc_stat->entryPeers);
7090
7091                         num_funcs = rpc_stat->stats[0].func_total;
7092                         space =
7093                             sizeof(rx_interface_stat_t) +
7094                             rpc_stat->stats[0].func_total *
7095                             sizeof(rx_function_entry_v1_t);
7096
7097                         rxi_Free(rpc_stat, space);
7098
7099                         MUTEX_ENTER(&rx_rpc_stats);
7100                         rxi_rpc_peer_stat_cnt -= num_funcs;
7101                         MUTEX_EXIT(&rx_rpc_stats);
7102                     }
7103                     rxi_FreePeer(peer);
7104
7105                     /*
7106                      * Regain the rx_peerHashTable_lock and
7107                      * decrement the reference count on 'prev'
7108                      * and 'next'.
7109                      */
7110                     MUTEX_ENTER(&rx_peerHashTable_lock);
7111                     if (next)
7112                         next->refCount--;
7113                     if (prev)
7114                         prev->refCount--;
7115                 } else {
7116                     if (code) {
7117                         MUTEX_EXIT(&peer->peer_lock);
7118                     }
7119                     prev = peer;
7120                 }
7121             }
7122             MUTEX_EXIT(&rx_peerHashTable_lock);
7123         }
7124     }
7125
7126     /* THIS HACK IS A TEMPORARY HACK.  The idea is that the race condition in
7127      * rxi_AllocSendPacket, if it hits, will be handled at the next conn
7128      * GC, just below.  Really, we shouldn't have to keep moving packets from
7129      * one place to another, but instead ought to always know if we can
7130      * afford to hold onto a packet in its particular use.  */
7131     MUTEX_ENTER(&rx_freePktQ_lock);
7132     if (rx_waitingForPackets) {
7133         rx_waitingForPackets = 0;
7134 #ifdef  RX_ENABLE_LOCKS
7135         CV_BROADCAST(&rx_waitingForPackets_cv);
7136 #else
7137         osi_rxWakeup(&rx_waitingForPackets);
7138 #endif
7139     }
7140     MUTEX_EXIT(&rx_freePktQ_lock);
7141
7142     when = now;
7143     when.sec += RX_REAP_TIME;   /* Check every RX_REAP_TIME seconds */
7144     event = rxevent_Post(&when, &now, rxi_ReapConnections, 0, NULL, 0);
7145     rxevent_Put(&event);
7146 }
7147
7148
7149 /* rxs_Release - This isn't strictly necessary but, since the macro name from
7150  * rx.h is sort of strange this is better.  This is called with a security
7151  * object before it is discarded.  Each connection using a security object has
7152  * its own refcount to the object so it won't actually be freed until the last
7153  * connection is destroyed.
7154  *
7155  * This is the only rxs module call.  A hold could also be written but no one
7156  * needs it. */
7157
7158 int
7159 rxs_Release(struct rx_securityClass *aobj)
7160 {
7161     return RXS_Close(aobj);
7162 }
7163
7164 void
7165 rxi_DebugInit(void)
7166 {
7167 #ifdef RXDEBUG
7168 #ifdef AFS_NT40_ENV
7169 #define TRACE_OPTION_RX_DEBUG 16
7170     HKEY parmKey;
7171     DWORD dummyLen;
7172     DWORD TraceOption;
7173     long code;
7174
7175     rxdebug_active = 0;
7176
7177     code = RegOpenKeyEx(HKEY_LOCAL_MACHINE, AFSREG_CLT_SVC_PARAM_SUBKEY,
7178                          0, KEY_QUERY_VALUE, &parmKey);
7179     if (code != ERROR_SUCCESS)
7180         return;
7181
7182     dummyLen = sizeof(TraceOption);
7183     code = RegQueryValueEx(parmKey, "TraceOption", NULL, NULL,
7184                            (BYTE *) &TraceOption, &dummyLen);
7185     if (code == ERROR_SUCCESS) {
7186         rxdebug_active = (TraceOption & TRACE_OPTION_RX_DEBUG) ? 1 : 0;
7187     }
7188     RegCloseKey (parmKey);
7189 #endif /* AFS_NT40_ENV */
7190 #endif
7191 }
7192
7193 void
7194 rx_DebugOnOff(int on)
7195 {
7196 #ifdef RXDEBUG
7197 #ifdef AFS_NT40_ENV
7198     rxdebug_active = on;
7199 #endif
7200 #endif
7201 }
7202
7203 void
7204 rx_StatsOnOff(int on)
7205 {
7206     rx_stats_active = on;
7207 }
7208
7209
7210 /* Don't call this debugging routine directly; use dpf */
7211 void
7212 rxi_DebugPrint(char *format, ...)
7213 {
7214 #ifdef RXDEBUG
7215     va_list ap;
7216 #ifdef AFS_NT40_ENV
7217     char msg[512];
7218     char tformat[256];
7219     size_t len;
7220
7221     va_start(ap, format);
7222
7223     len = _snprintf(tformat, sizeof(tformat), "tid[%d] %s", GetCurrentThreadId(), format);
7224
7225     if (len > 0) {
7226         len = _vsnprintf(msg, sizeof(msg)-2, tformat, ap);
7227         if (len > 0)
7228             OutputDebugString(msg);
7229     }
7230     va_end(ap);
7231 #else
7232     struct clock now;
7233
7234     va_start(ap, format);
7235
7236     clock_GetTime(&now);
7237     fprintf(rx_Log, " %d.%06d:", (unsigned int)now.sec,
7238             (unsigned int)now.usec);
7239     vfprintf(rx_Log, format, ap);
7240     va_end(ap);
7241 #endif
7242 #endif
7243 }
7244
7245 #ifndef KERNEL
7246 /*
7247  * This function is used to process the rx_stats structure that is local
7248  * to a process as well as an rx_stats structure received from a remote
7249  * process (via rxdebug).  Therefore, it needs to do minimal version
7250  * checking.
7251  */
7252 void
7253 rx_PrintTheseStats(FILE * file, struct rx_statistics *s, int size,
7254                    afs_int32 freePackets, char version)
7255 {
7256     int i;
7257
7258     if (size != sizeof(struct rx_statistics)) {
7259         fprintf(file,
7260                 "Unexpected size of stats structure: was %d, expected %" AFS_SIZET_FMT "\n",
7261                 size, sizeof(struct rx_statistics));
7262     }
7263
7264     fprintf(file, "rx stats: free packets %d, allocs %d, ", (int)freePackets,
7265             s->packetRequests);
7266
7267     if (version >= RX_DEBUGI_VERSION_W_NEWPACKETTYPES) {
7268         fprintf(file, "alloc-failures(rcv %u/%u,send %u/%u,ack %u)\n",
7269                 s->receivePktAllocFailures, s->receiveCbufPktAllocFailures,
7270                 s->sendPktAllocFailures, s->sendCbufPktAllocFailures,
7271                 s->specialPktAllocFailures);
7272     } else {
7273         fprintf(file, "alloc-failures(rcv %u,send %u,ack %u)\n",
7274                 s->receivePktAllocFailures, s->sendPktAllocFailures,
7275                 s->specialPktAllocFailures);
7276     }
7277
7278     fprintf(file,
7279             "   greedy %u, " "bogusReads %u (last from host %x), "
7280             "noPackets %u, " "noBuffers %u, " "selects %u, "
7281             "sendSelects %u\n", s->socketGreedy, s->bogusPacketOnRead,
7282             s->bogusHost, s->noPacketOnRead, s->noPacketBuffersOnRead,
7283             s->selects, s->sendSelects);
7284
7285     fprintf(file, "   packets read: ");
7286     for (i = 0; i < RX_N_PACKET_TYPES; i++) {
7287         fprintf(file, "%s %u ", rx_packetTypes[i], s->packetsRead[i]);
7288     }
7289     fprintf(file, "\n");
7290
7291     fprintf(file,
7292             "   other read counters: data %u, " "ack %u, " "dup %u "
7293             "spurious %u " "dally %u\n", s->dataPacketsRead,
7294             s->ackPacketsRead, s->dupPacketsRead, s->spuriousPacketsRead,
7295             s->ignorePacketDally);
7296
7297     fprintf(file, "   packets sent: ");
7298     for (i = 0; i < RX_N_PACKET_TYPES; i++) {
7299         fprintf(file, "%s %u ", rx_packetTypes[i], s->packetsSent[i]);
7300     }
7301     fprintf(file, "\n");
7302
7303     fprintf(file,
7304             "   other send counters: ack %u, " "data %u (not resends), "
7305             "resends %u, " "pushed %u, " "acked&ignored %u\n",
7306             s->ackPacketsSent, s->dataPacketsSent, s->dataPacketsReSent,
7307             s->dataPacketsPushed, s->ignoreAckedPacket);
7308
7309     fprintf(file,
7310             "   \t(these should be small) sendFailed %u, " "fatalErrors %u\n",
7311             s->netSendFailures, (int)s->fatalErrors);
7312
7313     if (s->nRttSamples) {
7314         fprintf(file, "   Average rtt is %0.3f, with %d samples\n",
7315                 clock_Float(&s->totalRtt) / s->nRttSamples, s->nRttSamples);
7316
7317         fprintf(file, "   Minimum rtt is %0.3f, maximum is %0.3f\n",
7318                 clock_Float(&s->minRtt), clock_Float(&s->maxRtt));
7319     }
7320
7321     fprintf(file,
7322             "   %d server connections, " "%d client connections, "
7323             "%d peer structs, " "%d call structs, " "%d free call structs\n",
7324             s->nServerConns, s->nClientConns, s->nPeerStructs,
7325             s->nCallStructs, s->nFreeCallStructs);
7326
7327 #if     !defined(AFS_PTHREAD_ENV) && !defined(AFS_USE_GETTIMEOFDAY)
7328     fprintf(file, "   %d clock updates\n", clock_nUpdates);
7329 #endif
7330 }
7331
7332 /* for backward compatibility */
7333 void
7334 rx_PrintStats(FILE * file)
7335 {
7336     MUTEX_ENTER(&rx_stats_mutex);
7337     rx_PrintTheseStats(file, (struct rx_statistics *) &rx_stats,
7338                        sizeof(rx_stats), rx_nFreePackets,
7339                        RX_DEBUGI_VERSION);
7340     MUTEX_EXIT(&rx_stats_mutex);
7341 }
7342
7343 void
7344 rx_PrintPeerStats(FILE * file, struct rx_peer *peer)
7345 {
7346     fprintf(file, "Peer %x.%d.\n",
7347             ntohl(peer->host), (int)ntohs(peer->port));
7348
7349     fprintf(file,
7350             "   Rtt %d, " "total sent %d, " "resent %d\n",
7351             peer->rtt, peer->nSent, peer->reSends);
7352
7353     fprintf(file, "   Packet size %d\n", peer->ifMTU);
7354 }
7355 #endif
7356
7357 #if defined(AFS_PTHREAD_ENV) && defined(RXDEBUG)
7358 /*
7359  * This mutex protects the following static variables:
7360  * counter
7361  */
7362
7363 #define LOCK_RX_DEBUG MUTEX_ENTER(&rx_debug_mutex)
7364 #define UNLOCK_RX_DEBUG MUTEX_EXIT(&rx_debug_mutex)
7365 #else
7366 #define LOCK_RX_DEBUG
7367 #define UNLOCK_RX_DEBUG
7368 #endif /* AFS_PTHREAD_ENV */
7369
7370 #if defined(RXDEBUG) || defined(MAKEDEBUGCALL)
7371 static int
7372 MakeDebugCall(osi_socket socket, afs_uint32 remoteAddr, afs_uint16 remotePort,
7373               u_char type, void *inputData, size_t inputLength,
7374               void *outputData, size_t outputLength)
7375 {
7376     static afs_int32 counter = 100;
7377     time_t waitTime, waitCount;
7378     struct rx_header theader;
7379     char tbuffer[1500];
7380     afs_int32 code;
7381     struct timeval tv_now, tv_wake, tv_delta;
7382     struct sockaddr_in taddr, faddr;
7383 #ifdef AFS_NT40_ENV
7384     int faddrLen;
7385 #else
7386     socklen_t faddrLen;
7387 #endif
7388     fd_set imask;
7389     char *tp;
7390
7391     waitTime = 1;
7392     waitCount = 5;
7393     LOCK_RX_DEBUG;
7394     counter++;
7395     UNLOCK_RX_DEBUG;
7396     tp = &tbuffer[sizeof(struct rx_header)];
7397     taddr.sin_family = AF_INET;
7398     taddr.sin_port = remotePort;
7399     taddr.sin_addr.s_addr = remoteAddr;
7400     memset(&taddr.sin_zero, 0, sizeof(taddr.sin_zero));
7401 #ifdef STRUCT_SOCKADDR_HAS_SA_LEN
7402     taddr.sin_len = sizeof(struct sockaddr_in);
7403 #endif
7404     while (1) {
7405         memset(&theader, 0, sizeof(theader));
7406         theader.epoch = htonl(999);
7407         theader.cid = 0;
7408         theader.callNumber = htonl(counter);
7409         theader.seq = 0;
7410         theader.serial = 0;
7411         theader.type = type;
7412         theader.flags = RX_CLIENT_INITIATED | RX_LAST_PACKET;
7413         theader.serviceId = 0;
7414
7415         memcpy(tbuffer, &theader, sizeof(theader));
7416         memcpy(tp, inputData, inputLength);
7417         code =
7418             sendto(socket, tbuffer, inputLength + sizeof(struct rx_header), 0,
7419                    (struct sockaddr *)&taddr, sizeof(struct sockaddr_in));
7420
7421         /* see if there's a packet available */
7422         gettimeofday(&tv_wake, NULL);
7423         tv_wake.tv_sec += waitTime;
7424         for (;;) {
7425             FD_ZERO(&imask);
7426             FD_SET(socket, &imask);
7427             tv_delta.tv_sec = tv_wake.tv_sec;
7428             tv_delta.tv_usec = tv_wake.tv_usec;
7429             gettimeofday(&tv_now, NULL);
7430
7431             if (tv_delta.tv_usec < tv_now.tv_usec) {
7432                 /* borrow */
7433                 tv_delta.tv_usec += 1000000;
7434                 tv_delta.tv_sec--;
7435             }
7436             tv_delta.tv_usec -= tv_now.tv_usec;
7437
7438             if (tv_delta.tv_sec < tv_now.tv_sec) {
7439                 /* time expired */
7440                 break;
7441             }
7442             tv_delta.tv_sec -= tv_now.tv_sec;
7443
7444 #ifdef AFS_NT40_ENV
7445             code = select(0, &imask, 0, 0, &tv_delta);
7446 #else /* AFS_NT40_ENV */
7447             code = select(socket + 1, &imask, 0, 0, &tv_delta);
7448 #endif /* AFS_NT40_ENV */
7449             if (code == 1 && FD_ISSET(socket, &imask)) {
7450                 /* now receive a packet */
7451                 faddrLen = sizeof(struct sockaddr_in);
7452                 code =
7453                     recvfrom(socket, tbuffer, sizeof(tbuffer), 0,
7454                              (struct sockaddr *)&faddr, &faddrLen);
7455
7456                 if (code > 0) {
7457                     memcpy(&theader, tbuffer, sizeof(struct rx_header));
7458                     if (counter == ntohl(theader.callNumber))
7459                         goto success;
7460                     continue;
7461                 }
7462             }
7463             break;
7464         }
7465
7466         /* see if we've timed out */
7467         if (!--waitCount) {
7468             return -1;
7469         }
7470         waitTime <<= 1;
7471     }
7472
7473  success:
7474     code -= sizeof(struct rx_header);
7475     if (code > outputLength)
7476         code = outputLength;
7477     memcpy(outputData, tp, code);
7478     return code;
7479 }
7480 #endif /* RXDEBUG */
7481
7482 afs_int32
7483 rx_GetServerDebug(osi_socket socket, afs_uint32 remoteAddr,
7484                   afs_uint16 remotePort, struct rx_debugStats * stat,
7485                   afs_uint32 * supportedValues)
7486 {
7487 #if defined(RXDEBUG) || defined(MAKEDEBUGCALL)
7488     afs_int32 rc = 0;
7489     struct rx_debugIn in;
7490
7491     *supportedValues = 0;
7492     in.type = htonl(RX_DEBUGI_GETSTATS);
7493     in.index = 0;
7494
7495     rc = MakeDebugCall(socket, remoteAddr, remotePort, RX_PACKET_TYPE_DEBUG,
7496                        &in, sizeof(in), stat, sizeof(*stat));
7497
7498     /*
7499      * If the call was successful, fixup the version and indicate
7500      * what contents of the stat structure are valid.
7501      * Also do net to host conversion of fields here.
7502      */
7503
7504     if (rc >= 0) {
7505         if (stat->version >= RX_DEBUGI_VERSION_W_SECSTATS) {
7506             *supportedValues |= RX_SERVER_DEBUG_SEC_STATS;
7507         }
7508         if (stat->version >= RX_DEBUGI_VERSION_W_GETALLCONN) {
7509             *supportedValues |= RX_SERVER_DEBUG_ALL_CONN;
7510         }
7511         if (stat->version >= RX_DEBUGI_VERSION_W_RXSTATS) {
7512             *supportedValues |= RX_SERVER_DEBUG_RX_STATS;
7513         }
7514         if (stat->version >= RX_DEBUGI_VERSION_W_WAITERS) {
7515             *supportedValues |= RX_SERVER_DEBUG_WAITER_CNT;
7516         }
7517         if (stat->version >= RX_DEBUGI_VERSION_W_IDLETHREADS) {
7518             *supportedValues |= RX_SERVER_DEBUG_IDLE_THREADS;
7519         }
7520         if (stat->version >= RX_DEBUGI_VERSION_W_NEWPACKETTYPES) {
7521             *supportedValues |= RX_SERVER_DEBUG_NEW_PACKETS;
7522         }
7523         if (stat->version >= RX_DEBUGI_VERSION_W_GETPEER) {
7524             *supportedValues |= RX_SERVER_DEBUG_ALL_PEER;
7525         }
7526         if (stat->version >= RX_DEBUGI_VERSION_W_WAITED) {
7527             *supportedValues |= RX_SERVER_DEBUG_WAITED_CNT;
7528         }
7529         if (stat->version >= RX_DEBUGI_VERSION_W_PACKETS) {
7530             *supportedValues |= RX_SERVER_DEBUG_PACKETS_CNT;
7531         }
7532         stat->nFreePackets = ntohl(stat->nFreePackets);
7533         stat->packetReclaims = ntohl(stat->packetReclaims);
7534         stat->callsExecuted = ntohl(stat->callsExecuted);
7535         stat->nWaiting = ntohl(stat->nWaiting);
7536         stat->idleThreads = ntohl(stat->idleThreads);
7537         stat->nWaited = ntohl(stat->nWaited);
7538         stat->nPackets = ntohl(stat->nPackets);
7539     }
7540 #else
7541     afs_int32 rc = -1;
7542 #endif
7543     return rc;
7544 }
7545
7546 afs_int32
7547 rx_GetServerStats(osi_socket socket, afs_uint32 remoteAddr,
7548                   afs_uint16 remotePort, struct rx_statistics * stat,
7549                   afs_uint32 * supportedValues)
7550 {
7551 #if defined(RXDEBUG) || defined(MAKEDEBUGCALL)
7552     afs_int32 rc = 0;
7553     struct rx_debugIn in;
7554     afs_int32 *lp = (afs_int32 *) stat;
7555     int i;
7556
7557     /*
7558      * supportedValues is currently unused, but added to allow future
7559      * versioning of this function.
7560      */
7561
7562     *supportedValues = 0;
7563     in.type = htonl(RX_DEBUGI_RXSTATS);
7564     in.index = 0;
7565     memset(stat, 0, sizeof(*stat));
7566
7567     rc = MakeDebugCall(socket, remoteAddr, remotePort, RX_PACKET_TYPE_DEBUG,
7568                        &in, sizeof(in), stat, sizeof(*stat));
7569
7570     if (rc >= 0) {
7571
7572         /*
7573          * Do net to host conversion here
7574          */
7575
7576         for (i = 0; i < sizeof(*stat) / sizeof(afs_int32); i++, lp++) {
7577             *lp = ntohl(*lp);
7578         }
7579     }
7580 #else
7581     afs_int32 rc = -1;
7582 #endif
7583     return rc;
7584 }
7585
7586 afs_int32
7587 rx_GetServerVersion(osi_socket socket, afs_uint32 remoteAddr,
7588                     afs_uint16 remotePort, size_t version_length,
7589                     char *version)
7590 {
7591 #if defined(RXDEBUG) || defined(MAKEDEBUGCALL)
7592     char a[1] = { 0 };
7593     return MakeDebugCall(socket, remoteAddr, remotePort,
7594                          RX_PACKET_TYPE_VERSION, a, 1, version,
7595                          version_length);
7596 #else
7597     return -1;
7598 #endif
7599 }
7600
7601 afs_int32
7602 rx_GetServerConnections(osi_socket socket, afs_uint32 remoteAddr,
7603                         afs_uint16 remotePort, afs_int32 * nextConnection,
7604                         int allConnections, afs_uint32 debugSupportedValues,
7605                         struct rx_debugConn * conn,
7606                         afs_uint32 * supportedValues)
7607 {
7608 #if defined(RXDEBUG) || defined(MAKEDEBUGCALL)
7609     afs_int32 rc = 0;
7610     struct rx_debugIn in;
7611     int i;
7612
7613     /*
7614      * supportedValues is currently unused, but added to allow future
7615      * versioning of this function.
7616      */
7617
7618     *supportedValues = 0;
7619     if (allConnections) {
7620         in.type = htonl(RX_DEBUGI_GETALLCONN);
7621     } else {
7622         in.type = htonl(RX_DEBUGI_GETCONN);
7623     }
7624     in.index = htonl(*nextConnection);
7625     memset(conn, 0, sizeof(*conn));
7626
7627     rc = MakeDebugCall(socket, remoteAddr, remotePort, RX_PACKET_TYPE_DEBUG,
7628                        &in, sizeof(in), conn, sizeof(*conn));
7629
7630     if (rc >= 0) {
7631         *nextConnection += 1;
7632
7633         /*
7634          * Convert old connection format to new structure.
7635          */
7636
7637         if (debugSupportedValues & RX_SERVER_DEBUG_OLD_CONN) {
7638             struct rx_debugConn_vL *vL = (struct rx_debugConn_vL *)conn;
7639 #define MOVEvL(a) (conn->a = vL->a)
7640
7641             /* any old or unrecognized version... */
7642             for (i = 0; i < RX_MAXCALLS; i++) {
7643                 MOVEvL(callState[i]);
7644                 MOVEvL(callMode[i]);
7645                 MOVEvL(callFlags[i]);
7646                 MOVEvL(callOther[i]);
7647             }
7648             if (debugSupportedValues & RX_SERVER_DEBUG_SEC_STATS) {
7649                 MOVEvL(secStats.type);
7650                 MOVEvL(secStats.level);
7651                 MOVEvL(secStats.flags);
7652                 MOVEvL(secStats.expires);
7653                 MOVEvL(secStats.packetsReceived);
7654                 MOVEvL(secStats.packetsSent);
7655                 MOVEvL(secStats.bytesReceived);
7656                 MOVEvL(secStats.bytesSent);
7657             }
7658         }
7659
7660         /*
7661          * Do net to host conversion here
7662          * NOTE:
7663          *    I don't convert host or port since we are most likely
7664          *    going to want these in NBO.
7665          */
7666         conn->cid = ntohl(conn->cid);
7667         conn->serial = ntohl(conn->serial);
7668         for (i = 0; i < RX_MAXCALLS; i++) {
7669             conn->callNumber[i] = ntohl(conn->callNumber[i]);
7670         }
7671         conn->error = ntohl(conn->error);
7672         conn->secStats.flags = ntohl(conn->secStats.flags);
7673         conn->secStats.expires = ntohl(conn->secStats.expires);
7674         conn->secStats.packetsReceived =
7675             ntohl(conn->secStats.packetsReceived);
7676         conn->secStats.packetsSent = ntohl(conn->secStats.packetsSent);
7677         conn->secStats.bytesReceived = ntohl(conn->secStats.bytesReceived);
7678         conn->secStats.bytesSent = ntohl(conn->secStats.bytesSent);
7679         conn->epoch = ntohl(conn->epoch);
7680         conn->natMTU = ntohl(conn->natMTU);
7681     }
7682 #else
7683     afs_int32 rc = -1;
7684 #endif
7685     return rc;
7686 }
7687
7688 afs_int32
7689 rx_GetServerPeers(osi_socket socket, afs_uint32 remoteAddr,
7690                   afs_uint16 remotePort, afs_int32 * nextPeer,
7691                   afs_uint32 debugSupportedValues, struct rx_debugPeer * peer,
7692                   afs_uint32 * supportedValues)
7693 {
7694 #if defined(RXDEBUG) || defined(MAKEDEBUGCALL)
7695     afs_int32 rc = 0;
7696     struct rx_debugIn in;
7697
7698     /*
7699      * supportedValues is currently unused, but added to allow future
7700      * versioning of this function.
7701      */
7702
7703     *supportedValues = 0;
7704     in.type = htonl(RX_DEBUGI_GETPEER);
7705     in.index = htonl(*nextPeer);
7706     memset(peer, 0, sizeof(*peer));
7707
7708     rc = MakeDebugCall(socket, remoteAddr, remotePort, RX_PACKET_TYPE_DEBUG,
7709                        &in, sizeof(in), peer, sizeof(*peer));
7710
7711     if (rc >= 0) {
7712         *nextPeer += 1;
7713
7714         /*
7715          * Do net to host conversion here
7716          * NOTE:
7717          *    I don't convert host or port since we are most likely
7718          *    going to want these in NBO.
7719          */
7720         peer->ifMTU = ntohs(peer->ifMTU);
7721         peer->idleWhen = ntohl(peer->idleWhen);
7722         peer->refCount = ntohs(peer->refCount);
7723         peer->rtt = ntohl(peer->rtt);
7724         peer->rtt_dev = ntohl(peer->rtt_dev);
7725         peer->timeout.sec = 0;
7726         peer->timeout.usec = 0;
7727         peer->nSent = ntohl(peer->nSent);
7728         peer->reSends = ntohl(peer->reSends);
7729         peer->natMTU = ntohs(peer->natMTU);
7730         peer->maxMTU = ntohs(peer->maxMTU);
7731         peer->maxDgramPackets = ntohs(peer->maxDgramPackets);
7732         peer->ifDgramPackets = ntohs(peer->ifDgramPackets);
7733         peer->MTU = ntohs(peer->MTU);
7734         peer->cwind = ntohs(peer->cwind);
7735         peer->nDgramPackets = ntohs(peer->nDgramPackets);
7736         peer->congestSeq = ntohs(peer->congestSeq);
7737         peer->bytesSent.high = ntohl(peer->bytesSent.high);
7738         peer->bytesSent.low = ntohl(peer->bytesSent.low);
7739         peer->bytesReceived.high = ntohl(peer->bytesReceived.high);
7740         peer->bytesReceived.low = ntohl(peer->bytesReceived.low);
7741     }
7742 #else
7743     afs_int32 rc = -1;
7744 #endif
7745     return rc;
7746 }
7747
7748 afs_int32
7749 rx_GetLocalPeers(afs_uint32 peerHost, afs_uint16 peerPort,
7750                 struct rx_debugPeer * peerStats)
7751 {
7752         struct rx_peer *tp;
7753         afs_int32 error = 1; /* default to "did not succeed" */
7754         afs_uint32 hashValue = PEER_HASH(peerHost, peerPort);
7755
7756         MUTEX_ENTER(&rx_peerHashTable_lock);
7757         for(tp = rx_peerHashTable[hashValue];
7758               tp != NULL; tp = tp->next) {
7759                 if (tp->host == peerHost)
7760                         break;
7761         }
7762
7763         if (tp) {
7764                 tp->refCount++;
7765                 MUTEX_EXIT(&rx_peerHashTable_lock);
7766
7767                 error = 0;
7768
7769                 MUTEX_ENTER(&tp->peer_lock);
7770                 peerStats->host = tp->host;
7771                 peerStats->port = tp->port;
7772                 peerStats->ifMTU = tp->ifMTU;
7773                 peerStats->idleWhen = tp->idleWhen;
7774                 peerStats->refCount = tp->refCount;
7775                 peerStats->burstSize = 0;
7776                 peerStats->burst = 0;
7777                 peerStats->burstWait.sec = 0;
7778                 peerStats->burstWait.usec = 0;
7779                 peerStats->rtt = tp->rtt;
7780                 peerStats->rtt_dev = tp->rtt_dev;
7781                 peerStats->timeout.sec = 0;
7782                 peerStats->timeout.usec = 0;
7783                 peerStats->nSent = tp->nSent;
7784                 peerStats->reSends = tp->reSends;
7785                 peerStats->natMTU = tp->natMTU;
7786                 peerStats->maxMTU = tp->maxMTU;
7787                 peerStats->maxDgramPackets = tp->maxDgramPackets;
7788                 peerStats->ifDgramPackets = tp->ifDgramPackets;
7789                 peerStats->MTU = tp->MTU;
7790                 peerStats->cwind = tp->cwind;
7791                 peerStats->nDgramPackets = tp->nDgramPackets;
7792                 peerStats->congestSeq = tp->congestSeq;
7793                 peerStats->bytesSent.high = tp->bytesSent >> 32;
7794                 peerStats->bytesSent.low = tp->bytesSent & MAX_AFS_UINT32;
7795                 peerStats->bytesReceived.high = tp->bytesReceived >> 32;
7796                 peerStats->bytesReceived.low
7797                                 = tp->bytesReceived & MAX_AFS_UINT32;
7798                 MUTEX_EXIT(&tp->peer_lock);
7799
7800                 MUTEX_ENTER(&rx_peerHashTable_lock);
7801                 tp->refCount--;
7802         }
7803         MUTEX_EXIT(&rx_peerHashTable_lock);
7804
7805         return error;
7806 }
7807
7808 void
7809 shutdown_rx(void)
7810 {
7811     struct rx_serverQueueEntry *np;
7812     int i, j;
7813 #ifndef KERNEL
7814     struct rx_call *call;
7815     struct rx_serverQueueEntry *sq;
7816 #endif /* KERNEL */
7817
7818     if (rx_atomic_test_and_set_bit(&rxinit_status, 0))
7819         return;                 /* Already shutdown. */
7820
7821 #ifndef KERNEL
7822     rx_port = 0;
7823 #ifndef AFS_PTHREAD_ENV
7824     FD_ZERO(&rx_selectMask);
7825 #endif /* AFS_PTHREAD_ENV */
7826     rxi_dataQuota = RX_MAX_QUOTA;
7827 #ifndef AFS_PTHREAD_ENV
7828     rxi_StopListener();
7829 #endif /* AFS_PTHREAD_ENV */
7830     shutdown_rxevent();
7831     rx_epoch = 0;
7832 #ifndef AFS_PTHREAD_ENV
7833 #ifndef AFS_USE_GETTIMEOFDAY
7834     clock_UnInit();
7835 #endif /* AFS_USE_GETTIMEOFDAY */
7836 #endif /* AFS_PTHREAD_ENV */
7837
7838     while (!opr_queue_IsEmpty(&rx_freeCallQueue)) {
7839         call = opr_queue_First(&rx_freeCallQueue, struct rx_call, entry);
7840         opr_queue_Remove(&call->entry);
7841         rxi_Free(call, sizeof(struct rx_call));
7842     }
7843
7844     while (!opr_queue_IsEmpty(&rx_idleServerQueue)) {
7845         sq = opr_queue_First(&rx_idleServerQueue, struct rx_serverQueueEntry,
7846                             entry);
7847         opr_queue_Remove(&sq->entry);
7848     }
7849 #endif /* KERNEL */
7850
7851     {
7852         struct rx_peer **peer_ptr, **peer_end;
7853         for (peer_ptr = &rx_peerHashTable[0], peer_end =
7854              &rx_peerHashTable[rx_hashTableSize]; peer_ptr < peer_end;
7855              peer_ptr++) {
7856             struct rx_peer *peer, *next;
7857
7858             MUTEX_ENTER(&rx_peerHashTable_lock);
7859             for (peer = *peer_ptr; peer; peer = next) {
7860                 struct opr_queue *cursor, *store;
7861                 size_t space;
7862
7863                 MUTEX_ENTER(&rx_rpc_stats);
7864                 MUTEX_ENTER(&peer->peer_lock);
7865                 for (opr_queue_ScanSafe(&peer->rpcStats, cursor, store)) {
7866                     unsigned int num_funcs;
7867                     struct rx_interface_stat *rpc_stat
7868                         = opr_queue_Entry(cursor, struct rx_interface_stat,
7869                                          entry);
7870                     if (!rpc_stat)
7871                         break;
7872                     opr_queue_Remove(&rpc_stat->entry);
7873                     opr_queue_Remove(&rpc_stat->entryPeers);
7874                     num_funcs = rpc_stat->stats[0].func_total;
7875                     space =
7876                         sizeof(rx_interface_stat_t) +
7877                         rpc_stat->stats[0].func_total *
7878                         sizeof(rx_function_entry_v1_t);
7879
7880                     rxi_Free(rpc_stat, space);
7881
7882                     /* rx_rpc_stats must be held */
7883                     rxi_rpc_peer_stat_cnt -= num_funcs;
7884                 }
7885                 MUTEX_EXIT(&peer->peer_lock);
7886                 MUTEX_EXIT(&rx_rpc_stats);
7887
7888                 next = peer->next;
7889                 rxi_FreePeer(peer);
7890                 if (rx_stats_active)
7891                     rx_atomic_dec(&rx_stats.nPeerStructs);
7892             }
7893             MUTEX_EXIT(&rx_peerHashTable_lock);
7894         }
7895     }
7896     for (i = 0; i < RX_MAX_SERVICES; i++) {
7897         if (rx_services[i])
7898             rxi_Free(rx_services[i], sizeof(*rx_services[i]));
7899     }
7900     for (i = 0; i < rx_hashTableSize; i++) {
7901         struct rx_connection *tc, *ntc;
7902         MUTEX_ENTER(&rx_connHashTable_lock);
7903         for (tc = rx_connHashTable[i]; tc; tc = ntc) {
7904             ntc = tc->next;
7905             for (j = 0; j < RX_MAXCALLS; j++) {
7906                 if (tc->call[j]) {
7907                     rxi_Free(tc->call[j], sizeof(*tc->call[j]));
7908                 }
7909             }
7910             rxi_Free(tc, sizeof(*tc));
7911         }
7912         MUTEX_EXIT(&rx_connHashTable_lock);
7913     }
7914
7915     MUTEX_ENTER(&freeSQEList_lock);
7916
7917     while ((np = rx_FreeSQEList)) {
7918         rx_FreeSQEList = *(struct rx_serverQueueEntry **)np;
7919         MUTEX_DESTROY(&np->lock);
7920         rxi_Free(np, sizeof(*np));
7921     }
7922
7923     MUTEX_EXIT(&freeSQEList_lock);
7924     MUTEX_DESTROY(&freeSQEList_lock);
7925     MUTEX_DESTROY(&rx_freeCallQueue_lock);
7926     MUTEX_DESTROY(&rx_connHashTable_lock);
7927     MUTEX_DESTROY(&rx_peerHashTable_lock);
7928     MUTEX_DESTROY(&rx_serverPool_lock);
7929
7930     osi_Free(rx_connHashTable,
7931              rx_hashTableSize * sizeof(struct rx_connection *));
7932     osi_Free(rx_peerHashTable, rx_hashTableSize * sizeof(struct rx_peer *));
7933
7934     UNPIN(rx_connHashTable,
7935           rx_hashTableSize * sizeof(struct rx_connection *));
7936     UNPIN(rx_peerHashTable, rx_hashTableSize * sizeof(struct rx_peer *));
7937
7938     MUTEX_ENTER(&rx_quota_mutex);
7939     rxi_dataQuota = RX_MAX_QUOTA;
7940     rxi_availProcs = rxi_totalMin = rxi_minDeficit = 0;
7941     MUTEX_EXIT(&rx_quota_mutex);
7942 }
7943
7944 #ifndef KERNEL
7945
7946 /*
7947  * Routines to implement connection specific data.
7948  */
7949
7950 int
7951 rx_KeyCreate(rx_destructor_t rtn)
7952 {
7953     int key;
7954     MUTEX_ENTER(&rxi_keyCreate_lock);
7955     key = rxi_keyCreate_counter++;
7956     rxi_keyCreate_destructor = (rx_destructor_t *)
7957         realloc((void *)rxi_keyCreate_destructor,
7958                 (key + 1) * sizeof(rx_destructor_t));
7959     rxi_keyCreate_destructor[key] = rtn;
7960     MUTEX_EXIT(&rxi_keyCreate_lock);
7961     return key;
7962 }
7963
7964 void
7965 rx_SetSpecific(struct rx_connection *conn, int key, void *ptr)
7966 {
7967     int i;
7968     MUTEX_ENTER(&conn->conn_data_lock);
7969     if (!conn->specific) {
7970         conn->specific = malloc((key + 1) * sizeof(void *));
7971         for (i = 0; i < key; i++)
7972             conn->specific[i] = NULL;
7973         conn->nSpecific = key + 1;
7974         conn->specific[key] = ptr;
7975     } else if (key >= conn->nSpecific) {
7976         conn->specific = (void **)
7977             realloc(conn->specific, (key + 1) * sizeof(void *));
7978         for (i = conn->nSpecific; i < key; i++)
7979             conn->specific[i] = NULL;
7980         conn->nSpecific = key + 1;
7981         conn->specific[key] = ptr;
7982     } else {
7983         if (conn->specific[key] && rxi_keyCreate_destructor[key])
7984             (*rxi_keyCreate_destructor[key]) (conn->specific[key]);
7985         conn->specific[key] = ptr;
7986     }
7987     MUTEX_EXIT(&conn->conn_data_lock);
7988 }
7989
7990 void
7991 rx_SetServiceSpecific(struct rx_service *svc, int key, void *ptr)
7992 {
7993     int i;
7994     MUTEX_ENTER(&svc->svc_data_lock);
7995     if (!svc->specific) {
7996         svc->specific = malloc((key + 1) * sizeof(void *));
7997         for (i = 0; i < key; i++)
7998             svc->specific[i] = NULL;
7999         svc->nSpecific = key + 1;
8000         svc->specific[key] = ptr;
8001     } else if (key >= svc->nSpecific) {
8002         svc->specific = (void **)
8003             realloc(svc->specific, (key + 1) * sizeof(void *));
8004         for (i = svc->nSpecific; i < key; i++)
8005             svc->specific[i] = NULL;
8006         svc->nSpecific = key + 1;
8007         svc->specific[key] = ptr;
8008     } else {
8009         if (svc->specific[key] && rxi_keyCreate_destructor[key])
8010             (*rxi_keyCreate_destructor[key]) (svc->specific[key]);
8011         svc->specific[key] = ptr;
8012     }
8013     MUTEX_EXIT(&svc->svc_data_lock);
8014 }
8015
8016 void *
8017 rx_GetSpecific(struct rx_connection *conn, int key)
8018 {
8019     void *ptr;
8020     MUTEX_ENTER(&conn->conn_data_lock);
8021     if (key >= conn->nSpecific)
8022         ptr = NULL;
8023     else
8024         ptr = conn->specific[key];
8025     MUTEX_EXIT(&conn->conn_data_lock);
8026     return ptr;
8027 }
8028
8029 void *
8030 rx_GetServiceSpecific(struct rx_service *svc, int key)
8031 {
8032     void *ptr;
8033     MUTEX_ENTER(&svc->svc_data_lock);
8034     if (key >= svc->nSpecific)
8035         ptr = NULL;
8036     else
8037         ptr = svc->specific[key];
8038     MUTEX_EXIT(&svc->svc_data_lock);
8039     return ptr;
8040 }
8041
8042
8043 #endif /* !KERNEL */
8044
8045 /*
8046  * processStats is a queue used to store the statistics for the local
8047  * process.  Its contents are similar to the contents of the rpcStats
8048  * queue on a rx_peer structure, but the actual data stored within
8049  * this queue contains totals across the lifetime of the process (assuming
8050  * the stats have not been reset) - unlike the per peer structures
8051  * which can come and go based upon the peer lifetime.
8052  */
8053
8054 static struct opr_queue processStats = { &processStats, &processStats };
8055
8056 /*
8057  * peerStats is a queue used to store the statistics for all peer structs.
8058  * Its contents are the union of all the peer rpcStats queues.
8059  */
8060
8061 static struct opr_queue peerStats = { &peerStats, &peerStats };
8062
8063 /*
8064  * rxi_monitor_processStats is used to turn process wide stat collection
8065  * on and off
8066  */
8067
8068 static int rxi_monitor_processStats = 0;
8069
8070 /*
8071  * rxi_monitor_peerStats is used to turn per peer stat collection on and off
8072  */
8073
8074 static int rxi_monitor_peerStats = 0;
8075
8076
8077 void
8078 rxi_ClearRPCOpStat(rx_function_entry_v1_p rpc_stat)
8079 {
8080     rpc_stat->invocations = 0;
8081     rpc_stat->bytes_sent = 0;
8082     rpc_stat->bytes_rcvd = 0;
8083     rpc_stat->queue_time_sum.sec = 0;
8084     rpc_stat->queue_time_sum.usec = 0;
8085     rpc_stat->queue_time_sum_sqr.sec = 0;
8086     rpc_stat->queue_time_sum_sqr.usec = 0;
8087     rpc_stat->queue_time_min.sec = 9999999;
8088     rpc_stat->queue_time_min.usec = 9999999;
8089     rpc_stat->queue_time_max.sec = 0;
8090     rpc_stat->queue_time_max.usec = 0;
8091     rpc_stat->execution_time_sum.sec = 0;
8092     rpc_stat->execution_time_sum.usec = 0;
8093     rpc_stat->execution_time_sum_sqr.sec = 0;
8094     rpc_stat->execution_time_sum_sqr.usec = 0;
8095     rpc_stat->execution_time_min.sec = 9999999;
8096     rpc_stat->execution_time_min.usec = 9999999;
8097     rpc_stat->execution_time_max.sec = 0;
8098     rpc_stat->execution_time_max.usec = 0;
8099 }
8100
8101 /*!
8102  * Given all of the information for a particular rpc
8103  * call, find or create (if requested) the stat structure for the rpc.
8104  *
8105  * @param stats
8106  *      the queue of stats that will be updated with the new value
8107  *
8108  * @param rxInterface
8109  *      a unique number that identifies the rpc interface
8110  *
8111  * @param totalFunc
8112  *      the total number of functions in this interface. this is only
8113  *      required if create is true
8114  *
8115  * @param isServer
8116  *      if true, this invocation was made to a server
8117  *
8118  * @param remoteHost
8119  *      the ip address of the remote host. this is only required if create
8120  *      and addToPeerList are true
8121  *
8122  * @param remotePort
8123  *      the port of the remote host. this is only required if create
8124  *      and addToPeerList are true
8125  *
8126  * @param addToPeerList
8127  *      if != 0, add newly created stat to the global peer list
8128  *
8129  * @param counter
8130  *      if a new stats structure is allocated, the counter will
8131  *      be updated with the new number of allocated stat structures.
8132  *      only required if create is true
8133  *
8134  * @param create
8135  *      if no stats structure exists, allocate one
8136  *
8137  */
8138
8139 static rx_interface_stat_p
8140 rxi_FindRpcStat(struct opr_queue *stats, afs_uint32 rxInterface,
8141                 afs_uint32 totalFunc, int isServer, afs_uint32 remoteHost,
8142                 afs_uint32 remotePort, int addToPeerList,
8143                 unsigned int *counter, int create)
8144 {
8145     rx_interface_stat_p rpc_stat = NULL;
8146     struct opr_queue *cursor;
8147
8148     /*
8149      * See if there's already a structure for this interface
8150      */
8151
8152     for (opr_queue_Scan(stats, cursor)) {
8153         rpc_stat = opr_queue_Entry(cursor, struct rx_interface_stat, entry);
8154
8155         if ((rpc_stat->stats[0].interfaceId == rxInterface)
8156             && (rpc_stat->stats[0].remote_is_server == isServer))
8157             break;
8158     }
8159
8160     /* if they didn't ask us to create, we're done */
8161     if (!create) {
8162         if (opr_queue_IsEnd(stats, cursor))
8163             return NULL;
8164         else
8165             return rpc_stat;
8166     }
8167
8168     /* can't proceed without these */
8169     if (!totalFunc || !counter)
8170         return NULL;
8171
8172     /*
8173      * Didn't find a match so allocate a new structure and add it to the
8174      * queue.
8175      */
8176
8177     if (opr_queue_IsEnd(stats, cursor) || (rpc_stat == NULL)
8178         || (rpc_stat->stats[0].interfaceId != rxInterface)
8179         || (rpc_stat->stats[0].remote_is_server != isServer)) {
8180         int i;
8181         size_t space;
8182
8183         space =
8184             sizeof(rx_interface_stat_t) +
8185             totalFunc * sizeof(rx_function_entry_v1_t);
8186
8187         rpc_stat = rxi_Alloc(space);
8188         if (rpc_stat == NULL)
8189             return NULL;
8190
8191         *counter += totalFunc;
8192         for (i = 0; i < totalFunc; i++) {
8193             rxi_ClearRPCOpStat(&(rpc_stat->stats[i]));
8194             rpc_stat->stats[i].remote_peer = remoteHost;
8195             rpc_stat->stats[i].remote_port = remotePort;
8196             rpc_stat->stats[i].remote_is_server = isServer;
8197             rpc_stat->stats[i].interfaceId = rxInterface;
8198             rpc_stat->stats[i].func_total = totalFunc;
8199             rpc_stat->stats[i].func_index = i;
8200         }
8201         opr_queue_Prepend(stats, &rpc_stat->entry);
8202         if (addToPeerList) {
8203             opr_queue_Prepend(&peerStats, &rpc_stat->entryPeers);
8204         }
8205     }
8206     return rpc_stat;
8207 }
8208
8209 void
8210 rx_ClearProcessRPCStats(afs_int32 rxInterface)
8211 {
8212     rx_interface_stat_p rpc_stat;
8213     int totalFunc, i;
8214
8215     if (rxInterface == -1)
8216         return;
8217
8218     MUTEX_ENTER(&rx_rpc_stats);
8219     rpc_stat = rxi_FindRpcStat(&processStats, rxInterface, 0, 0,
8220                                0, 0, 0, 0, 0);
8221     if (rpc_stat) {
8222         totalFunc = rpc_stat->stats[0].func_total;
8223         for (i = 0; i < totalFunc; i++)
8224             rxi_ClearRPCOpStat(&(rpc_stat->stats[i]));
8225     }
8226     MUTEX_EXIT(&rx_rpc_stats);
8227     return;
8228 }
8229
8230 void
8231 rx_ClearPeerRPCStats(afs_int32 rxInterface, afs_uint32 peerHost, afs_uint16 peerPort)
8232 {
8233     rx_interface_stat_p rpc_stat;
8234     int totalFunc, i;
8235     struct rx_peer * peer;
8236
8237     if (rxInterface == -1)
8238         return;
8239
8240     peer = rxi_FindPeer(peerHost, peerPort, 0);
8241     if (!peer)
8242         return;
8243
8244     MUTEX_ENTER(&rx_rpc_stats);
8245     rpc_stat = rxi_FindRpcStat(&peer->rpcStats, rxInterface, 0, 1,
8246                                0, 0, 0, 0, 0);
8247     if (rpc_stat) {
8248         totalFunc = rpc_stat->stats[0].func_total;
8249         for (i = 0; i < totalFunc; i++)
8250             rxi_ClearRPCOpStat(&(rpc_stat->stats[i]));
8251     }
8252     MUTEX_EXIT(&rx_rpc_stats);
8253     return;
8254 }
8255
8256 void *
8257 rx_CopyProcessRPCStats(afs_uint64 op)
8258 {
8259     rx_interface_stat_p rpc_stat;
8260     rx_function_entry_v1_p rpcop_stat =
8261         rxi_Alloc(sizeof(rx_function_entry_v1_t));
8262     int currentFunc = (op & MAX_AFS_UINT32);
8263     afs_int32 rxInterface = (op >> 32);
8264
8265     if (!rxi_monitor_processStats)
8266         return NULL;
8267
8268     if (rxInterface == -1)
8269         return NULL;
8270
8271     if (rpcop_stat == NULL)
8272         return NULL;
8273
8274     MUTEX_ENTER(&rx_rpc_stats);
8275     rpc_stat = rxi_FindRpcStat(&processStats, rxInterface, 0, 0,
8276                                0, 0, 0, 0, 0);
8277     if (rpc_stat)
8278         memcpy(rpcop_stat, &(rpc_stat->stats[currentFunc]),
8279                sizeof(rx_function_entry_v1_t));
8280     MUTEX_EXIT(&rx_rpc_stats);
8281     if (!rpc_stat) {
8282         rxi_Free(rpcop_stat, sizeof(rx_function_entry_v1_t));
8283         return NULL;
8284     }
8285     return rpcop_stat;
8286 }
8287
8288 void *
8289 rx_CopyPeerRPCStats(afs_uint64 op, afs_uint32 peerHost, afs_uint16 peerPort)
8290 {
8291     rx_interface_stat_p rpc_stat;
8292     rx_function_entry_v1_p rpcop_stat =
8293         rxi_Alloc(sizeof(rx_function_entry_v1_t));
8294     int currentFunc = (op & MAX_AFS_UINT32);
8295     afs_int32 rxInterface = (op >> 32);
8296     struct rx_peer *peer;
8297
8298     if (!rxi_monitor_peerStats)
8299         return NULL;
8300
8301     if (rxInterface == -1)
8302         return NULL;
8303
8304     if (rpcop_stat == NULL)
8305         return NULL;
8306
8307     peer = rxi_FindPeer(peerHost, peerPort, 0);
8308     if (!peer)
8309         return NULL;
8310
8311     MUTEX_ENTER(&rx_rpc_stats);
8312     rpc_stat = rxi_FindRpcStat(&peer->rpcStats, rxInterface, 0, 1,
8313                                0, 0, 0, 0, 0);
8314     if (rpc_stat)
8315         memcpy(rpcop_stat, &(rpc_stat->stats[currentFunc]),
8316                sizeof(rx_function_entry_v1_t));
8317     MUTEX_EXIT(&rx_rpc_stats);
8318     if (!rpc_stat) {
8319         rxi_Free(rpcop_stat, sizeof(rx_function_entry_v1_t));
8320         return NULL;
8321     }
8322     return rpcop_stat;
8323 }
8324
8325 void
8326 rx_ReleaseRPCStats(void *stats)
8327 {
8328     if (stats)
8329         rxi_Free(stats, sizeof(rx_function_entry_v1_t));
8330 }
8331
8332 /*!
8333  * Given all of the information for a particular rpc
8334  * call, create (if needed) and update the stat totals for the rpc.
8335  *
8336  * @param stats
8337  *      the queue of stats that will be updated with the new value
8338  *
8339  * @param rxInterface
8340  *      a unique number that identifies the rpc interface
8341  *
8342  * @param currentFunc
8343  *      the index of the function being invoked
8344  *
8345  * @param totalFunc
8346  *      the total number of functions in this interface
8347  *
8348  * @param queueTime
8349  *      the amount of time this function waited for a thread
8350  *
8351  * @param execTime
8352  *      the amount of time this function invocation took to execute
8353  *
8354  * @param bytesSent
8355  *      the number bytes sent by this invocation
8356  *
8357  * @param bytesRcvd
8358  *      the number bytes received by this invocation
8359  *
8360  * @param isServer
8361  *      if true, this invocation was made to a server
8362  *
8363  * @param remoteHost
8364  *      the ip address of the remote host
8365  *
8366  * @param remotePort
8367  *      the port of the remote host
8368  *
8369  * @param addToPeerList
8370  *      if != 0, add newly created stat to the global peer list
8371  *
8372  * @param counter
8373  *      if a new stats structure is allocated, the counter will
8374  *      be updated with the new number of allocated stat structures
8375  *
8376  */
8377
8378 static int
8379 rxi_AddRpcStat(struct opr_queue *stats, afs_uint32 rxInterface,
8380                afs_uint32 currentFunc, afs_uint32 totalFunc,
8381                struct clock *queueTime, struct clock *execTime,
8382                afs_uint64 bytesSent, afs_uint64 bytesRcvd, int isServer,
8383                afs_uint32 remoteHost, afs_uint32 remotePort,
8384                int addToPeerList, unsigned int *counter)
8385 {
8386     int rc = 0;
8387     rx_interface_stat_p rpc_stat;
8388
8389     rpc_stat = rxi_FindRpcStat(stats, rxInterface, totalFunc, isServer,
8390                                remoteHost, remotePort, addToPeerList, counter,
8391                                1);
8392     if (!rpc_stat) {
8393         rc = -1;
8394         goto fail;
8395     }
8396
8397     /*
8398      * Increment the stats for this function
8399      */
8400
8401     rpc_stat->stats[currentFunc].invocations++;
8402     rpc_stat->stats[currentFunc].bytes_sent += bytesSent;
8403     rpc_stat->stats[currentFunc].bytes_rcvd += bytesRcvd;
8404     clock_Add(&rpc_stat->stats[currentFunc].queue_time_sum, queueTime);
8405     clock_AddSq(&rpc_stat->stats[currentFunc].queue_time_sum_sqr, queueTime);
8406     if (clock_Lt(queueTime, &rpc_stat->stats[currentFunc].queue_time_min)) {
8407         rpc_stat->stats[currentFunc].queue_time_min = *queueTime;
8408     }
8409     if (clock_Gt(queueTime, &rpc_stat->stats[currentFunc].queue_time_max)) {
8410         rpc_stat->stats[currentFunc].queue_time_max = *queueTime;
8411     }
8412     clock_Add(&rpc_stat->stats[currentFunc].execution_time_sum, execTime);
8413     clock_AddSq(&rpc_stat->stats[currentFunc].execution_time_sum_sqr,
8414                 execTime);
8415     if (clock_Lt(execTime, &rpc_stat->stats[currentFunc].execution_time_min)) {
8416         rpc_stat->stats[currentFunc].execution_time_min = *execTime;
8417     }
8418     if (clock_Gt(execTime, &rpc_stat->stats[currentFunc].execution_time_max)) {
8419         rpc_stat->stats[currentFunc].execution_time_max = *execTime;
8420     }
8421
8422   fail:
8423     return rc;
8424 }
8425
8426 void
8427 rxi_IncrementTimeAndCount(struct rx_peer *peer, afs_uint32 rxInterface,
8428                           afs_uint32 currentFunc, afs_uint32 totalFunc,
8429                           struct clock *queueTime, struct clock *execTime,
8430                           afs_uint64 bytesSent, afs_uint64 bytesRcvd,
8431                           int isServer)
8432 {
8433
8434     if (!(rxi_monitor_peerStats || rxi_monitor_processStats))
8435         return;
8436
8437     MUTEX_ENTER(&rx_rpc_stats);
8438
8439     if (rxi_monitor_peerStats) {
8440         MUTEX_ENTER(&peer->peer_lock);
8441         rxi_AddRpcStat(&peer->rpcStats, rxInterface, currentFunc, totalFunc,
8442                        queueTime, execTime, bytesSent, bytesRcvd, isServer,
8443                        peer->host, peer->port, 1, &rxi_rpc_peer_stat_cnt);
8444         MUTEX_EXIT(&peer->peer_lock);
8445     }
8446
8447     if (rxi_monitor_processStats) {
8448         rxi_AddRpcStat(&processStats, rxInterface, currentFunc, totalFunc,
8449                        queueTime, execTime, bytesSent, bytesRcvd, isServer,
8450                        0xffffffff, 0xffffffff, 0, &rxi_rpc_process_stat_cnt);
8451     }
8452
8453     MUTEX_EXIT(&rx_rpc_stats);
8454 }
8455
8456 /*!
8457  * Increment the times and count for a particular rpc function.
8458  *
8459  * Traditionally this call was invoked from rxgen stubs. Modern stubs
8460  * call rx_RecordCallStatistics instead, so the public version of this
8461  * function is left purely for legacy callers.
8462  *
8463  * @param peer
8464  *      The peer who invoked the rpc
8465  *
8466  * @param rxInterface
8467  *      A unique number that identifies the rpc interface
8468  *
8469  * @param currentFunc
8470  *      The index of the function being invoked
8471  *
8472  * @param totalFunc
8473  *      The total number of functions in this interface
8474  *
8475  * @param queueTime
8476  *      The amount of time this function waited for a thread
8477  *
8478  * @param execTime
8479  *      The amount of time this function invocation took to execute
8480  *
8481  * @param bytesSent
8482  *      The number bytes sent by this invocation
8483  *
8484  * @param bytesRcvd
8485  *      The number bytes received by this invocation
8486  *
8487  * @param isServer
8488  *      If true, this invocation was made to a server
8489  *
8490  */
8491 void
8492 rx_IncrementTimeAndCount(struct rx_peer *peer, afs_uint32 rxInterface,
8493                          afs_uint32 currentFunc, afs_uint32 totalFunc,
8494                          struct clock *queueTime, struct clock *execTime,
8495                          afs_hyper_t * bytesSent, afs_hyper_t * bytesRcvd,
8496                          int isServer)
8497 {
8498     afs_uint64 sent64;
8499     afs_uint64 rcvd64;
8500
8501     sent64 = ((afs_uint64)bytesSent->high << 32) + bytesSent->low;
8502     rcvd64 = ((afs_uint64)bytesRcvd->high << 32) + bytesRcvd->low;
8503
8504     rxi_IncrementTimeAndCount(peer, rxInterface, currentFunc, totalFunc,
8505                               queueTime, execTime, sent64, rcvd64,
8506                               isServer);
8507 }
8508
8509
8510
8511 /*
8512  * rx_MarshallProcessRPCStats - marshall an array of rpc statistics
8513  *
8514  * PARAMETERS
8515  *
8516  * IN callerVersion - the rpc stat version of the caller.
8517  *
8518  * IN count - the number of entries to marshall.
8519  *
8520  * IN stats - pointer to stats to be marshalled.
8521  *
8522  * OUT ptr - Where to store the marshalled data.
8523  *
8524  * RETURN CODES
8525  *
8526  * Returns void.
8527  */
8528 void
8529 rx_MarshallProcessRPCStats(afs_uint32 callerVersion, int count,
8530                            rx_function_entry_v1_t * stats, afs_uint32 ** ptrP)
8531 {
8532     int i;
8533     afs_uint32 *ptr;
8534
8535     /*
8536      * We only support the first version
8537      */
8538     for (ptr = *ptrP, i = 0; i < count; i++, stats++) {
8539         *(ptr++) = stats->remote_peer;
8540         *(ptr++) = stats->remote_port;
8541         *(ptr++) = stats->remote_is_server;
8542         *(ptr++) = stats->interfaceId;
8543         *(ptr++) = stats->func_total;
8544         *(ptr++) = stats->func_index;
8545         *(ptr++) = stats->invocations >> 32;
8546         *(ptr++) = stats->invocations & MAX_AFS_UINT32;
8547         *(ptr++) = stats->bytes_sent >> 32;
8548         *(ptr++) = stats->bytes_sent & MAX_AFS_UINT32;
8549         *(ptr++) = stats->bytes_rcvd >> 32;
8550         *(ptr++) = stats->bytes_rcvd & MAX_AFS_UINT32;
8551         *(ptr++) = stats->queue_time_sum.sec;
8552         *(ptr++) = stats->queue_time_sum.usec;
8553         *(ptr++) = stats->queue_time_sum_sqr.sec;
8554         *(ptr++) = stats->queue_time_sum_sqr.usec;
8555         *(ptr++) = stats->queue_time_min.sec;
8556         *(ptr++) = stats->queue_time_min.usec;
8557         *(ptr++) = stats->queue_time_max.sec;
8558         *(ptr++) = stats->queue_time_max.usec;
8559         *(ptr++) = stats->execution_time_sum.sec;
8560         *(ptr++) = stats->execution_time_sum.usec;
8561         *(ptr++) = stats->execution_time_sum_sqr.sec;
8562         *(ptr++) = stats->execution_time_sum_sqr.usec;
8563         *(ptr++) = stats->execution_time_min.sec;
8564         *(ptr++) = stats->execution_time_min.usec;
8565         *(ptr++) = stats->execution_time_max.sec;
8566         *(ptr++) = stats->execution_time_max.usec;
8567     }
8568     *ptrP = ptr;
8569 }
8570
8571 /*
8572  * rx_RetrieveProcessRPCStats - retrieve all of the rpc statistics for
8573  * this process
8574  *
8575  * PARAMETERS
8576  *
8577  * IN callerVersion - the rpc stat version of the caller
8578  *
8579  * OUT myVersion - the rpc stat version of this function
8580  *
8581  * OUT clock_sec - local time seconds
8582  *
8583  * OUT clock_usec - local time microseconds
8584  *
8585  * OUT allocSize - the number of bytes allocated to contain stats
8586  *
8587  * OUT statCount - the number stats retrieved from this process.
8588  *
8589  * OUT stats - the actual stats retrieved from this process.
8590  *
8591  * RETURN CODES
8592  *
8593  * Returns void.  If successful, stats will != NULL.
8594  */
8595
8596 int
8597 rx_RetrieveProcessRPCStats(afs_uint32 callerVersion, afs_uint32 * myVersion,
8598                            afs_uint32 * clock_sec, afs_uint32 * clock_usec,
8599                            size_t * allocSize, afs_uint32 * statCount,
8600                            afs_uint32 ** stats)
8601 {
8602     size_t space = 0;
8603     afs_uint32 *ptr;
8604     struct clock now;
8605     int rc = 0;
8606
8607     *stats = 0;
8608     *allocSize = 0;
8609     *statCount = 0;
8610     *myVersion = RX_STATS_RETRIEVAL_VERSION;
8611
8612     /*
8613      * Check to see if stats are enabled
8614      */
8615
8616     MUTEX_ENTER(&rx_rpc_stats);
8617     if (!rxi_monitor_processStats) {
8618         MUTEX_EXIT(&rx_rpc_stats);
8619         return rc;
8620     }
8621
8622     clock_GetTime(&now);
8623     *clock_sec = now.sec;
8624     *clock_usec = now.usec;
8625
8626     /*
8627      * Allocate the space based upon the caller version
8628      *
8629      * If the client is at an older version than we are,
8630      * we return the statistic data in the older data format, but
8631      * we still return our version number so the client knows we
8632      * are maintaining more data than it can retrieve.
8633      */
8634
8635     if (callerVersion >= RX_STATS_RETRIEVAL_FIRST_EDITION) {
8636         space = rxi_rpc_process_stat_cnt * sizeof(rx_function_entry_v1_t);
8637         *statCount = rxi_rpc_process_stat_cnt;
8638     } else {
8639         /*
8640          * This can't happen yet, but in the future version changes
8641          * can be handled by adding additional code here
8642          */
8643     }
8644
8645     if (space > (size_t) 0) {
8646         *allocSize = space;
8647         ptr = *stats = rxi_Alloc(space);
8648
8649         if (ptr != NULL) {
8650             struct opr_queue *cursor;
8651
8652             for (opr_queue_Scan(&processStats, cursor)) {
8653                 struct rx_interface_stat *rpc_stat = 
8654                     opr_queue_Entry(cursor, struct rx_interface_stat, entry);
8655                 /*
8656                  * Copy the data based upon the caller version
8657                  */
8658                 rx_MarshallProcessRPCStats(callerVersion,
8659                                            rpc_stat->stats[0].func_total,
8660                                            rpc_stat->stats, &ptr);
8661             }
8662         } else {
8663             rc = ENOMEM;
8664         }
8665     }
8666     MUTEX_EXIT(&rx_rpc_stats);
8667     return rc;
8668 }
8669
8670 /*
8671  * rx_RetrievePeerRPCStats - retrieve all of the rpc statistics for the peers
8672  *
8673  * PARAMETERS
8674  *
8675  * IN callerVersion - the rpc stat version of the caller
8676  *
8677  * OUT myVersion - the rpc stat version of this function
8678  *
8679  * OUT clock_sec - local time seconds
8680  *
8681  * OUT clock_usec - local time microseconds
8682  *
8683  * OUT allocSize - the number of bytes allocated to contain stats
8684  *
8685  * OUT statCount - the number of stats retrieved from the individual
8686  * peer structures.
8687  *
8688  * OUT stats - the actual stats retrieved from the individual peer structures.
8689  *
8690  * RETURN CODES
8691  *
8692  * Returns void.  If successful, stats will != NULL.
8693  */
8694
8695 int
8696 rx_RetrievePeerRPCStats(afs_uint32 callerVersion, afs_uint32 * myVersion,
8697                         afs_uint32 * clock_sec, afs_uint32 * clock_usec,
8698                         size_t * allocSize, afs_uint32 * statCount,
8699                         afs_uint32 ** stats)
8700 {
8701     size_t space = 0;
8702     afs_uint32 *ptr;
8703     struct clock now;
8704     int rc = 0;
8705
8706     *stats = 0;
8707     *statCount = 0;
8708     *allocSize = 0;
8709     *myVersion = RX_STATS_RETRIEVAL_VERSION;
8710
8711     /*
8712      * Check to see if stats are enabled
8713      */
8714
8715     MUTEX_ENTER(&rx_rpc_stats);
8716     if (!rxi_monitor_peerStats) {
8717         MUTEX_EXIT(&rx_rpc_stats);
8718         return rc;
8719     }
8720
8721     clock_GetTime(&now);
8722     *clock_sec = now.sec;
8723     *clock_usec = now.usec;
8724
8725     /*
8726      * Allocate the space based upon the caller version
8727      *
8728      * If the client is at an older version than we are,
8729      * we return the statistic data in the older data format, but
8730      * we still return our version number so the client knows we
8731      * are maintaining more data than it can retrieve.
8732      */
8733
8734     if (callerVersion >= RX_STATS_RETRIEVAL_FIRST_EDITION) {
8735         space = rxi_rpc_peer_stat_cnt * sizeof(rx_function_entry_v1_t);
8736         *statCount = rxi_rpc_peer_stat_cnt;
8737     } else {
8738         /*
8739          * This can't happen yet, but in the future version changes
8740          * can be handled by adding additional code here
8741          */
8742     }
8743
8744     if (space > (size_t) 0) {
8745         *allocSize = space;
8746         ptr = *stats = rxi_Alloc(space);
8747
8748         if (ptr != NULL) {
8749             struct opr_queue *cursor;
8750
8751             for (opr_queue_Scan(&peerStats, cursor)) {
8752                 struct rx_interface_stat *rpc_stat
8753                     = opr_queue_Entry(cursor, struct rx_interface_stat,
8754                                      entryPeers);
8755
8756                 /*
8757                  * Copy the data based upon the caller version
8758                  */
8759                 rx_MarshallProcessRPCStats(callerVersion,
8760                                            rpc_stat->stats[0].func_total,
8761                                            rpc_stat->stats, &ptr);
8762             }
8763         } else {
8764             rc = ENOMEM;
8765         }
8766     }
8767     MUTEX_EXIT(&rx_rpc_stats);
8768     return rc;
8769 }
8770
8771 /*
8772  * rx_FreeRPCStats - free memory allocated by
8773  *                   rx_RetrieveProcessRPCStats and rx_RetrievePeerRPCStats
8774  *
8775  * PARAMETERS
8776  *
8777  * IN stats - stats previously returned by rx_RetrieveProcessRPCStats or
8778  * rx_RetrievePeerRPCStats
8779  *
8780  * IN allocSize - the number of bytes in stats.
8781  *
8782  * RETURN CODES
8783  *
8784  * Returns void.
8785  */
8786
8787 void
8788 rx_FreeRPCStats(afs_uint32 * stats, size_t allocSize)
8789 {
8790     rxi_Free(stats, allocSize);
8791 }
8792
8793 /*
8794  * rx_queryProcessRPCStats - see if process rpc stat collection is
8795  * currently enabled.
8796  *
8797  * PARAMETERS
8798  *
8799  * RETURN CODES
8800  *
8801  * Returns 0 if stats are not enabled != 0 otherwise
8802  */
8803
8804 int
8805 rx_queryProcessRPCStats(void)
8806 {
8807     int rc;
8808     MUTEX_ENTER(&rx_rpc_stats);
8809     rc = rxi_monitor_processStats;
8810     MUTEX_EXIT(&rx_rpc_stats);
8811     return rc;
8812 }
8813
8814 /*
8815  * rx_queryPeerRPCStats - see if peer stat collection is currently enabled.
8816  *
8817  * PARAMETERS
8818  *
8819  * RETURN CODES
8820  *
8821  * Returns 0 if stats are not enabled != 0 otherwise
8822  */
8823
8824 int
8825 rx_queryPeerRPCStats(void)
8826 {
8827     int rc;
8828     MUTEX_ENTER(&rx_rpc_stats);
8829     rc = rxi_monitor_peerStats;
8830     MUTEX_EXIT(&rx_rpc_stats);
8831     return rc;
8832 }
8833
8834 /*
8835  * rx_enableProcessRPCStats - begin rpc stat collection for entire process
8836  *
8837  * PARAMETERS
8838  *
8839  * RETURN CODES
8840  *
8841  * Returns void.
8842  */
8843
8844 void
8845 rx_enableProcessRPCStats(void)
8846 {
8847     MUTEX_ENTER(&rx_rpc_stats);
8848     rx_enable_stats = 1;
8849     rxi_monitor_processStats = 1;
8850     MUTEX_EXIT(&rx_rpc_stats);
8851 }
8852
8853 /*
8854  * rx_enablePeerRPCStats - begin rpc stat collection per peer structure
8855  *
8856  * PARAMETERS
8857  *
8858  * RETURN CODES
8859  *
8860  * Returns void.
8861  */
8862
8863 void
8864 rx_enablePeerRPCStats(void)
8865 {
8866     MUTEX_ENTER(&rx_rpc_stats);
8867     rx_enable_stats = 1;
8868     rxi_monitor_peerStats = 1;
8869     MUTEX_EXIT(&rx_rpc_stats);
8870 }
8871
8872 /*
8873  * rx_disableProcessRPCStats - stop rpc stat collection for entire process
8874  *
8875  * PARAMETERS
8876  *
8877  * RETURN CODES
8878  *
8879  * Returns void.
8880  */
8881
8882 void
8883 rx_disableProcessRPCStats(void)
8884 {
8885     struct opr_queue *cursor, *store;
8886     size_t space;
8887
8888     MUTEX_ENTER(&rx_rpc_stats);
8889
8890     /*
8891      * Turn off process statistics and if peer stats is also off, turn
8892      * off everything
8893      */
8894
8895     rxi_monitor_processStats = 0;
8896     if (rxi_monitor_peerStats == 0) {
8897         rx_enable_stats = 0;
8898     }
8899
8900     for (opr_queue_ScanSafe(&processStats, cursor, store)) {
8901         unsigned int num_funcs = 0;
8902         struct rx_interface_stat *rpc_stat
8903             = opr_queue_Entry(cursor, struct rx_interface_stat, entry);
8904
8905         opr_queue_Remove(&rpc_stat->entry);
8906
8907         num_funcs = rpc_stat->stats[0].func_total;
8908         space =
8909             sizeof(rx_interface_stat_t) +
8910             rpc_stat->stats[0].func_total * sizeof(rx_function_entry_v1_t);
8911
8912         rxi_Free(rpc_stat, space);
8913         rxi_rpc_process_stat_cnt -= num_funcs;
8914     }
8915     MUTEX_EXIT(&rx_rpc_stats);
8916 }
8917
8918 /*
8919  * rx_disablePeerRPCStats - stop rpc stat collection for peers
8920  *
8921  * PARAMETERS
8922  *
8923  * RETURN CODES
8924  *
8925  * Returns void.
8926  */
8927
8928 void
8929 rx_disablePeerRPCStats(void)
8930 {
8931     struct rx_peer **peer_ptr, **peer_end;
8932     int code;
8933
8934     /*
8935      * Turn off peer statistics and if process stats is also off, turn
8936      * off everything
8937      */
8938
8939     rxi_monitor_peerStats = 0;
8940     if (rxi_monitor_processStats == 0) {
8941         rx_enable_stats = 0;
8942     }
8943
8944     for (peer_ptr = &rx_peerHashTable[0], peer_end =
8945          &rx_peerHashTable[rx_hashTableSize]; peer_ptr < peer_end;
8946          peer_ptr++) {
8947         struct rx_peer *peer, *next, *prev;
8948
8949         MUTEX_ENTER(&rx_peerHashTable_lock);
8950         MUTEX_ENTER(&rx_rpc_stats);
8951         for (prev = peer = *peer_ptr; peer; peer = next) {
8952             next = peer->next;
8953             code = MUTEX_TRYENTER(&peer->peer_lock);
8954             if (code) {
8955                 size_t space;
8956                 struct opr_queue *cursor, *store;
8957
8958                 if (prev == *peer_ptr) {
8959                     *peer_ptr = next;
8960                     prev = next;
8961                 } else
8962                     prev->next = next;
8963
8964                 if (next)
8965                     next->refCount++;
8966                 if (prev)
8967                     prev->refCount++;
8968                 peer->refCount++;
8969                 MUTEX_EXIT(&rx_peerHashTable_lock);
8970
8971                 for (opr_queue_ScanSafe(&peer->rpcStats, cursor, store)) {
8972                     unsigned int num_funcs = 0;
8973                     struct rx_interface_stat *rpc_stat
8974                         = opr_queue_Entry(cursor, struct rx_interface_stat,
8975                                          entry);
8976
8977                     opr_queue_Remove(&rpc_stat->entry);
8978                     opr_queue_Remove(&rpc_stat->entryPeers);
8979                     num_funcs = rpc_stat->stats[0].func_total;
8980                     space =
8981                         sizeof(rx_interface_stat_t) +
8982                         rpc_stat->stats[0].func_total *
8983                         sizeof(rx_function_entry_v1_t);
8984
8985                     rxi_Free(rpc_stat, space);
8986                     rxi_rpc_peer_stat_cnt -= num_funcs;
8987                 }
8988                 MUTEX_EXIT(&peer->peer_lock);
8989
8990                 MUTEX_ENTER(&rx_peerHashTable_lock);
8991                 if (next)
8992                     next->refCount--;
8993                 if (prev)
8994                     prev->refCount--;
8995                 peer->refCount--;
8996             } else {
8997                 prev = peer;
8998             }
8999         }
9000         MUTEX_EXIT(&rx_rpc_stats);
9001         MUTEX_EXIT(&rx_peerHashTable_lock);
9002     }
9003 }
9004
9005 /*
9006  * rx_clearProcessRPCStats - clear the contents of the rpc stats according
9007  * to clearFlag
9008  *
9009  * PARAMETERS
9010  *
9011  * IN clearFlag - flag indicating which stats to clear
9012  *
9013  * RETURN CODES
9014  *
9015  * Returns void.
9016  */
9017
9018 void
9019 rx_clearProcessRPCStats(afs_uint32 clearFlag)
9020 {
9021     struct opr_queue *cursor;
9022
9023     MUTEX_ENTER(&rx_rpc_stats);
9024
9025     for (opr_queue_Scan(&processStats, cursor)) {
9026         unsigned int num_funcs = 0, i;
9027         struct rx_interface_stat *rpc_stat
9028              = opr_queue_Entry(cursor, struct rx_interface_stat, entry);
9029
9030         num_funcs = rpc_stat->stats[0].func_total;
9031         for (i = 0; i < num_funcs; i++) {
9032             if (clearFlag & AFS_RX_STATS_CLEAR_INVOCATIONS) {
9033                 rpc_stat->stats[i].invocations = 0;
9034             }
9035             if (clearFlag & AFS_RX_STATS_CLEAR_BYTES_SENT) {
9036                 rpc_stat->stats[i].bytes_sent = 0;
9037             }
9038             if (clearFlag & AFS_RX_STATS_CLEAR_BYTES_RCVD) {
9039                 rpc_stat->stats[i].bytes_rcvd = 0;
9040             }
9041             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_SUM) {
9042                 rpc_stat->stats[i].queue_time_sum.sec = 0;
9043                 rpc_stat->stats[i].queue_time_sum.usec = 0;
9044             }
9045             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_SQUARE) {
9046                 rpc_stat->stats[i].queue_time_sum_sqr.sec = 0;
9047                 rpc_stat->stats[i].queue_time_sum_sqr.usec = 0;
9048             }
9049             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_MIN) {
9050                 rpc_stat->stats[i].queue_time_min.sec = 9999999;
9051                 rpc_stat->stats[i].queue_time_min.usec = 9999999;
9052             }
9053             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_MAX) {
9054                 rpc_stat->stats[i].queue_time_max.sec = 0;
9055                 rpc_stat->stats[i].queue_time_max.usec = 0;
9056             }
9057             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_SUM) {
9058                 rpc_stat->stats[i].execution_time_sum.sec = 0;
9059                 rpc_stat->stats[i].execution_time_sum.usec = 0;
9060             }
9061             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_SQUARE) {
9062                 rpc_stat->stats[i].execution_time_sum_sqr.sec = 0;
9063                 rpc_stat->stats[i].execution_time_sum_sqr.usec = 0;
9064             }
9065             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_MIN) {
9066                 rpc_stat->stats[i].execution_time_min.sec = 9999999;
9067                 rpc_stat->stats[i].execution_time_min.usec = 9999999;
9068             }
9069             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_MAX) {
9070                 rpc_stat->stats[i].execution_time_max.sec = 0;
9071                 rpc_stat->stats[i].execution_time_max.usec = 0;
9072             }
9073         }
9074     }
9075
9076     MUTEX_EXIT(&rx_rpc_stats);
9077 }
9078
9079 /*
9080  * rx_clearPeerRPCStats - clear the contents of the rpc stats according
9081  * to clearFlag
9082  *
9083  * PARAMETERS
9084  *
9085  * IN clearFlag - flag indicating which stats to clear
9086  *
9087  * RETURN CODES
9088  *
9089  * Returns void.
9090  */
9091
9092 void
9093 rx_clearPeerRPCStats(afs_uint32 clearFlag)
9094 {
9095     struct opr_queue *cursor;
9096
9097     MUTEX_ENTER(&rx_rpc_stats);
9098
9099     for (opr_queue_Scan(&peerStats, cursor)) {
9100         unsigned int num_funcs, i;
9101         struct rx_interface_stat *rpc_stat
9102             = opr_queue_Entry(cursor, struct rx_interface_stat, entryPeers);
9103
9104         num_funcs = rpc_stat->stats[0].func_total;
9105         for (i = 0; i < num_funcs; i++) {
9106             if (clearFlag & AFS_RX_STATS_CLEAR_INVOCATIONS) {
9107                 rpc_stat->stats[i].invocations = 0;
9108             }
9109             if (clearFlag & AFS_RX_STATS_CLEAR_BYTES_SENT) {
9110                 rpc_stat->stats[i].bytes_sent = 0;
9111             }
9112             if (clearFlag & AFS_RX_STATS_CLEAR_BYTES_RCVD) {
9113                 rpc_stat->stats[i].bytes_rcvd = 0;
9114             }
9115             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_SUM) {
9116                 rpc_stat->stats[i].queue_time_sum.sec = 0;
9117                 rpc_stat->stats[i].queue_time_sum.usec = 0;
9118             }
9119             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_SQUARE) {
9120                 rpc_stat->stats[i].queue_time_sum_sqr.sec = 0;
9121                 rpc_stat->stats[i].queue_time_sum_sqr.usec = 0;
9122             }
9123             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_MIN) {
9124                 rpc_stat->stats[i].queue_time_min.sec = 9999999;
9125                 rpc_stat->stats[i].queue_time_min.usec = 9999999;
9126             }
9127             if (clearFlag & AFS_RX_STATS_CLEAR_QUEUE_TIME_MAX) {
9128                 rpc_stat->stats[i].queue_time_max.sec = 0;
9129                 rpc_stat->stats[i].queue_time_max.usec = 0;
9130             }
9131             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_SUM) {
9132                 rpc_stat->stats[i].execution_time_sum.sec = 0;
9133                 rpc_stat->stats[i].execution_time_sum.usec = 0;
9134             }
9135             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_SQUARE) {
9136                 rpc_stat->stats[i].execution_time_sum_sqr.sec = 0;
9137                 rpc_stat->stats[i].execution_time_sum_sqr.usec = 0;
9138             }
9139             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_MIN) {
9140                 rpc_stat->stats[i].execution_time_min.sec = 9999999;
9141                 rpc_stat->stats[i].execution_time_min.usec = 9999999;
9142             }
9143             if (clearFlag & AFS_RX_STATS_CLEAR_EXEC_TIME_MAX) {
9144                 rpc_stat->stats[i].execution_time_max.sec = 0;
9145                 rpc_stat->stats[i].execution_time_max.usec = 0;
9146             }
9147         }
9148     }
9149
9150     MUTEX_EXIT(&rx_rpc_stats);
9151 }
9152
9153 /*
9154  * rxi_rxstat_userok points to a routine that returns 1 if the caller
9155  * is authorized to enable/disable/clear RX statistics.
9156  */
9157 static int (*rxi_rxstat_userok) (struct rx_call * call) = NULL;
9158
9159 void
9160 rx_SetRxStatUserOk(int (*proc) (struct rx_call * call))
9161 {
9162     rxi_rxstat_userok = proc;
9163 }
9164
9165 int
9166 rx_RxStatUserOk(struct rx_call *call)
9167 {
9168     if (!rxi_rxstat_userok)
9169         return 0;
9170     return rxi_rxstat_userok(call);
9171 }
9172
9173 #ifdef AFS_NT40_ENV
9174 /*
9175  * DllMain() -- Entry-point function called by the DllMainCRTStartup()
9176  *     function in the MSVC runtime DLL (msvcrt.dll).
9177  *
9178  *     Note: the system serializes calls to this function.
9179  */
9180 BOOL WINAPI
9181 DllMain(HINSTANCE dllInstHandle,        /* instance handle for this DLL module */
9182         DWORD reason,                   /* reason function is being called */
9183         LPVOID reserved)                /* reserved for future use */
9184 {
9185     switch (reason) {
9186     case DLL_PROCESS_ATTACH:
9187         /* library is being attached to a process */
9188         INIT_PTHREAD_LOCKS;
9189         return TRUE;
9190
9191     case DLL_PROCESS_DETACH:
9192         return TRUE;
9193
9194     default:
9195         return FALSE;
9196     }
9197 }
9198 #endif /* AFS_NT40_ENV */
9199
9200 #ifndef KERNEL
9201 int rx_DumpCalls(FILE *outputFile, char *cookie)
9202 {
9203 #ifdef RXDEBUG_PACKET
9204 #ifdef KDUMP_RX_LOCK
9205     struct rx_call_rx_lock *c;
9206 #else
9207     struct rx_call *c;
9208 #endif
9209 #ifdef AFS_NT40_ENV
9210     int zilch;
9211     char output[2048];
9212 #define RXDPRINTF sprintf
9213 #define RXDPRINTOUT output
9214 #else
9215 #define RXDPRINTF fprintf
9216 #define RXDPRINTOUT outputFile
9217 #endif
9218
9219     RXDPRINTF(RXDPRINTOUT, "%s - Start dumping all Rx Calls - count=%u\r\n", cookie, rx_stats.nCallStructs);
9220 #ifdef AFS_NT40_ENV
9221     WriteFile(outputFile, output, (DWORD)strlen(output), &zilch, NULL);
9222 #endif
9223
9224     for (c = rx_allCallsp; c; c = c->allNextp) {
9225         u_short rqc, tqc, iovqc;
9226
9227         MUTEX_ENTER(&c->lock);
9228         rqc = opr_queue_Count(&c->rq);
9229         tqc = opr_queue_Count(&c->tq);
9230         iovqc = opr_queue_Count(&c->app.iovq);
9231
9232         RXDPRINTF(RXDPRINTOUT, "%s - call=0x%p, id=%u, state=%u, mode=%u, conn=%p, epoch=%u, cid=%u, callNum=%u, connFlags=0x%x, flags=0x%x, "
9233                 "rqc=%u,%u, tqc=%u,%u, iovqc=%u,%u, "
9234                 "lstatus=%u, rstatus=%u, error=%d, timeout=%u, "
9235                 "resendEvent=%d, keepAliveEvt=%d, delayedAckEvt=%d, delayedAbortEvt=%d, abortCode=%d, abortCount=%d, "
9236                 "lastSendTime=%u, lastRecvTime=%u"
9237 #ifdef RX_ENABLE_LOCKS
9238                 ", refCount=%u"
9239 #endif
9240 #ifdef RX_REFCOUNT_CHECK
9241                 ", refCountBegin=%u, refCountResend=%u, refCountDelay=%u, "
9242                 "refCountAlive=%u, refCountPacket=%u, refCountSend=%u, refCountAckAll=%u, refCountAbort=%u"
9243 #endif
9244                 "\r\n",
9245                 cookie, c, c->call_id, (afs_uint32)c->state, (afs_uint32)c->app.mode, c->conn, c->conn?c->conn->epoch:0, c->conn?c->conn->cid:0,
9246                 c->callNumber?*c->callNumber:0, c->conn?c->conn->flags:0, c->flags,
9247                 (afs_uint32)c->rqc, (afs_uint32)rqc, (afs_uint32)c->tqc, (afs_uint32)tqc, (afs_uint32)c->iovqc, (afs_uint32)iovqc,
9248                 (afs_uint32)c->localStatus, (afs_uint32)c->remoteStatus, c->error, c->timeout,
9249                 c->resendEvent?1:0, c->keepAliveEvent?1:0, c->delayedAckEvent?1:0, c->delayedAbortEvent?1:0,
9250                 c->abortCode, c->abortCount, c->lastSendTime, c->lastReceiveTime
9251 #ifdef RX_ENABLE_LOCKS
9252                 , (afs_uint32)c->refCount
9253 #endif
9254 #ifdef RX_REFCOUNT_CHECK
9255                 , c->refCDebug[0],c->refCDebug[1],c->refCDebug[2],c->refCDebug[3],c->refCDebug[4],c->refCDebug[5],c->refCDebug[6],c->refCDebug[7]
9256 #endif
9257                 );
9258         MUTEX_EXIT(&c->lock);
9259
9260 #ifdef AFS_NT40_ENV
9261         WriteFile(outputFile, output, (DWORD)strlen(output), &zilch, NULL);
9262 #endif
9263     }
9264     RXDPRINTF(RXDPRINTOUT, "%s - End dumping all Rx Calls\r\n", cookie);
9265 #ifdef AFS_NT40_ENV
9266     WriteFile(outputFile, output, (DWORD)strlen(output), &zilch, NULL);
9267 #endif
9268 #endif /* RXDEBUG_PACKET */
9269     return 0;
9270 }
9271 #endif