rxevent: prevent negative rx_connection refCount
[openafs.git] / src / rx / rx.c
index 611ca1d..651136a 100644 (file)
@@ -294,6 +294,9 @@ rxi_InitPthread(void)
 
     MUTEX_INIT(&rx_rpc_stats, "rx_rpc_stats", MUTEX_DEFAULT, 0);
     MUTEX_INIT(&rx_freePktQ_lock, "rx_freePktQ_lock", MUTEX_DEFAULT, 0);
+    MUTEX_INIT(&rx_mallocedPktQ_lock, "rx_mallocedPktQ_lock", MUTEX_DEFAULT,
+              0);
+
 #ifdef RX_ENABLE_LOCKS
 #ifdef RX_LOCKS_DB
     rxdb_init();
@@ -447,7 +450,7 @@ struct rx_serverQueueEntry *rx_waitForPacket = 0;
  * by the kernel.  Whether this will ever overlap anything in
  * /etc/services is anybody's guess...  Returns 0 on success, -1 on
  * error. */
-#ifndef AFS_NT40_ENV
+#if !(defined(AFS_NT40_ENV) || defined(RXK_UPCALL_ENV))
 static
 #endif
 rx_atomic_t rxinit_status = RX_ATOMIC_INIT(1);
@@ -513,6 +516,9 @@ rx_InitHost(u_int host, u_int port)
     MUTEX_INIT(&rx_connHashTable_lock, "rx_connHashTable_lock", MUTEX_DEFAULT,
               0);
     MUTEX_INIT(&rx_serverPool_lock, "rx_serverPool_lock", MUTEX_DEFAULT, 0);
+    MUTEX_INIT(&rx_mallocedPktQ_lock, "rx_mallocedPktQ_lock", MUTEX_DEFAULT,
+              0);
+
 #if defined(AFS_HPUX110_ENV)
     if (!uniprocessor)
        rx_sleepLock = alloc_spinlock(LAST_HELD_ORDER - 10, "rx_sleepLock");
@@ -535,6 +541,7 @@ rx_InitHost(u_int host, u_int port)
     opr_queue_Init(&rx_freePacketQueue);
     rxi_NeedMorePackets = FALSE;
     rx_nPackets = 0;   /* rx_nPackets is managed by rxi_MorePackets* */
+    opr_queue_Init(&rx_mallocedPacketQueue);
 
     /* enforce a minimum number of allocated packets */
     if (rx_extraPackets < rxi_nSendFrags * rx_maxSendWindow)
@@ -653,6 +660,7 @@ rxi_rto_startTimer(struct rx_call *call, int lastPacket, int istack)
 {
     struct clock now, retryTime;
 
+    MUTEX_ASSERT(&call->lock);
     clock_GetTime(&now);
     retryTime = now;
 
@@ -683,10 +691,9 @@ rxi_rto_startTimer(struct rx_call *call, int lastPacket, int istack)
 static_inline void
 rxi_rto_cancel(struct rx_call *call)
 {
-    if (call->resendEvent != NULL) {
-       rxevent_Cancel(&call->resendEvent);
+    MUTEX_ASSERT(&call->lock);
+    if (rxevent_Cancel(&call->resendEvent))
        CALL_RELE(call, RX_CALL_REFCOUNT_RESEND);
-    }
 }
 
 /*!
@@ -770,19 +777,20 @@ rxi_PostDelayedAckEvent(struct rx_call *call, struct clock *offset)
 {
     struct clock now, when;
 
+    MUTEX_ASSERT(&call->lock);
     clock_GetTime(&now);
     when = now;
     clock_Add(&when, offset);
 
-    if (call->delayedAckEvent && clock_Gt(&call->delayedAckTime, &when)) {
-       /* The event we're cancelling already has a reference, so we don't
-        * need a new one */
-       rxevent_Cancel(&call->delayedAckEvent);
+    if (clock_Gt(&call->delayedAckTime, &when) &&
+       rxevent_Cancel(&call->delayedAckEvent)) {
+       /* We successfully cancelled an event too far in the future to install
+        * our new one; we can reuse the reference on the call. */
        call->delayedAckEvent = rxevent_Post(&when, &now, rxi_SendDelayedAck,
                                             call, NULL, 0);
 
        call->delayedAckTime = when;
-    } else if (!call->delayedAckEvent) {
+    } else if (call->delayedAckEvent == NULL) {
        CALL_HOLD(call, RX_CALL_REFCOUNT_DELAY);
        call->delayedAckEvent = rxevent_Post(&when, &now,
                                             rxi_SendDelayedAck,
@@ -794,10 +802,10 @@ rxi_PostDelayedAckEvent(struct rx_call *call, struct clock *offset)
 void
 rxi_CancelDelayedAckEvent(struct rx_call *call)
 {
-   if (call->delayedAckEvent) {
-       rxevent_Cancel(&call->delayedAckEvent);
+    MUTEX_ASSERT(&call->lock);
+    /* Only drop the ref if we cancelled it before it could run. */
+    if (rxevent_Cancel(&call->delayedAckEvent))
        CALL_RELE(call, RX_CALL_REFCOUNT_DELAY);
-   }
 }
 
 /* called with unincremented nRequestsRunning to see if it is OK to start
@@ -1205,7 +1213,6 @@ rxi_DestroyConnectionNoLock(struct rx_connection *conn)
 {
     struct rx_connection **conn_ptr;
     int havecalls = 0;
-    struct rx_packet *packet;
     int i;
     SPLVAR;
 
@@ -1217,6 +1224,9 @@ rxi_DestroyConnectionNoLock(struct rx_connection *conn)
     if (conn->refCount > 0)
        conn->refCount--;
     else {
+#ifdef RX_REFCOUNT_CHECK
+       osi_Assert(conn->refCount == 0);
+#endif
         if (rx_stats_active) {
             MUTEX_ENTER(&rx_stats_mutex);
             rxi_lowConnRefCount++;
@@ -1238,6 +1248,7 @@ rxi_DestroyConnectionNoLock(struct rx_connection *conn)
     if ((conn->type == RX_CLIENT_CONNECTION)
        && (conn->flags & (RX_CONN_MAKECALL_WAITING|RX_CONN_MAKECALL_ACTIVE))) {
        conn->flags |= RX_CONN_DESTROY_ME;
+       MUTEX_EXIT(&rx_refcnt_mutex);
        MUTEX_EXIT(&conn->conn_data_lock);
        USERPRI;
        return;
@@ -1292,21 +1303,6 @@ rxi_DestroyConnectionNoLock(struct rx_connection *conn)
        return;
     }
 
-    if (conn->natKeepAliveEvent) {
-       rxi_NatKeepAliveOff(conn);
-    }
-
-    if (conn->delayedAbortEvent) {
-       rxevent_Cancel(&conn->delayedAbortEvent);
-       packet = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL);
-       if (packet) {
-           MUTEX_ENTER(&conn->conn_data_lock);
-           rxi_SendConnectionAbort(conn, packet, 0, 1);
-           MUTEX_EXIT(&conn->conn_data_lock);
-           rxi_FreePacket(packet);
-       }
-    }
-
     /* Remove from connection hash table before proceeding */
     conn_ptr =
        &rx_connHashTable[CONN_HASH
@@ -1324,10 +1320,13 @@ rxi_DestroyConnectionNoLock(struct rx_connection *conn)
        rxLastConn = 0;
 
     /* Make sure the connection is completely reset before deleting it. */
-    /* get rid of pending events that could zap us later */
-    rxevent_Cancel(&conn->challengeEvent);
-    rxevent_Cancel(&conn->checkReachEvent);
-    rxevent_Cancel(&conn->natKeepAliveEvent);
+    /*
+     * Pending events hold a refcount, so we can't get here if they are
+     * non-NULL. */
+    osi_Assert(conn->challengeEvent == NULL);
+    osi_Assert(conn->delayedAbortEvent == NULL);
+    osi_Assert(conn->natKeepAliveEvent == NULL);
+    osi_Assert(conn->checkReachEvent == NULL);
 
     /* Add the connection to the list of destroyed connections that
      * need to be cleaned up. This is necessary to avoid deadlocks
@@ -2364,9 +2363,7 @@ rx_EndCall(struct rx_call *call, afs_int32 rc)
            MUTEX_ENTER(&call->lock);
        }
        if (call->app.mode == RX_MODE_SENDING) {
-            MUTEX_EXIT(&call->lock);
-           rxi_FlushWrite(call);
-            MUTEX_ENTER(&call->lock);
+           rxi_FlushWriteLocked(call);
        }
        rxi_calltrace(RX_CALL_END, call);
        /* Call goes to hold state until reply packets are acknowledged */
@@ -2511,9 +2508,7 @@ rx_Finalize(void)
            for (conn = *conn_ptr; conn; conn = next) {
                next = conn->next;
                if (conn->type == RX_CLIENT_CONNECTION) {
-                    MUTEX_ENTER(&rx_refcnt_mutex);
-                   conn->refCount++;
-                    MUTEX_EXIT(&rx_refcnt_mutex);
+                    rx_GetConnection(conn);
 #ifdef RX_ENABLE_LOCKS
                    rxi_DestroyConnectionNoLock(conn);
 #else /* RX_ENABLE_LOCKS */
@@ -2768,9 +2763,7 @@ rxi_FreeCall(struct rx_call *call, int haveCTLock)
      */
     MUTEX_ENTER(&conn->conn_data_lock);
     if (conn->flags & RX_CONN_DESTROY_ME && !(conn->flags & RX_CONN_MAKECALL_WAITING)) {
-        MUTEX_ENTER(&rx_refcnt_mutex);
-       conn->refCount++;
-        MUTEX_EXIT(&rx_refcnt_mutex);
+        rx_GetConnection(conn);
        MUTEX_EXIT(&conn->conn_data_lock);
 #ifdef RX_ENABLE_LOCKS
        if (haveCTLock)
@@ -3156,9 +3149,7 @@ rxi_FindConnection(osi_socket socket, afs_uint32 host,
             rx_atomic_inc(&rx_stats.nServerConns);
     }
 
-    MUTEX_ENTER(&rx_refcnt_mutex);
-    conn->refCount++;
-    MUTEX_EXIT(&rx_refcnt_mutex);
+    rx_GetConnection(conn);
 
     rxLastConn = conn;         /* store this connection as the last conn used */
     MUTEX_EXIT(&rx_connHashTable_lock);
@@ -3174,10 +3165,15 @@ static_inline int
 rxi_AbortIfServerBusy(osi_socket socket, struct rx_connection *conn,
                      struct rx_packet *np)
 {
+    afs_uint32 serial;
+
     if ((rx_BusyThreshold > 0) &&
        (rx_atomic_read(&rx_nWaiting) > rx_BusyThreshold)) {
+       MUTEX_ENTER(&conn->conn_data_lock);
+       serial = ++conn->serial;
+       MUTEX_EXIT(&conn->conn_data_lock);
        rxi_SendRawAbort(socket, conn->peer->host, conn->peer->port,
-                        rx_BusyError, np, 0);
+                        serial, rx_BusyError, np, 0);
        if (rx_stats_active)
            rx_atomic_inc(&rx_stats.nBusies);
        return 1;
@@ -3429,7 +3425,7 @@ rxi_ReceivePacket(struct rx_packet *np, osi_socket socket,
        don't abort an abort. */
     if (!conn) {
         if (unknownService && (np->header.type != RX_PACKET_TYPE_ABORT))
-            rxi_SendRawAbort(socket, host, port, RX_INVALID_OPERATION,
+           rxi_SendRawAbort(socket, host, port, 0, RX_INVALID_OPERATION,
                              np, 0);
         return np;
     }
@@ -3653,6 +3649,14 @@ rxi_ConnClearAttachWait(struct rx_connection *conn)
     }
 }
 
+/*
+ * Event handler function for connection-specific events for checking
+ * reachability.  Also called directly from main code with |event| == NULL
+ * in order to trigger the initial reachability check.
+ *
+ * When |event| == NULL, must be called with the connection data lock held,
+ * but returns with the lock unlocked.
+ */
 static void
 rxi_CheckReachEvent(struct rxevent *event, void *arg1, void *arg2, int dummy)
 {
@@ -3662,15 +3666,14 @@ rxi_CheckReachEvent(struct rxevent *event, void *arg1, void *arg2, int dummy)
     struct clock when, now;
     int i, waiting;
 
-    MUTEX_ENTER(&conn->conn_data_lock);
+    if (event != NULL)
+       MUTEX_ENTER(&conn->conn_data_lock);
+    else
+       MUTEX_ASSERT(&conn->conn_data_lock);
 
-    if (event)
+    if (event != NULL && event == conn->checkReachEvent)
        rxevent_Put(&conn->checkReachEvent);
-
     waiting = conn->flags & RX_CONN_ATTACHWAIT;
-    if (event) {
-       putConnection(conn);
-    }
     MUTEX_EXIT(&conn->conn_data_lock);
 
     if (waiting) {
@@ -3702,9 +3705,7 @@ rxi_CheckReachEvent(struct rxevent *event, void *arg1, void *arg2, int dummy)
            when.sec += RX_CHECKREACH_TIMEOUT;
            MUTEX_ENTER(&conn->conn_data_lock);
            if (!conn->checkReachEvent) {
-                MUTEX_ENTER(&rx_refcnt_mutex);
-               conn->refCount++;
-                MUTEX_EXIT(&rx_refcnt_mutex);
+                rx_GetConnection(conn);
                conn->checkReachEvent = rxevent_Post(&when, &now,
                                                     rxi_CheckReachEvent, conn,
                                                     NULL, 0);
@@ -3712,6 +3713,9 @@ rxi_CheckReachEvent(struct rxevent *event, void *arg1, void *arg2, int dummy)
            MUTEX_EXIT(&conn->conn_data_lock);
        }
     }
+    /* If fired as an event handler, drop our refcount on the connection. */
+    if (event != NULL)
+       putConnection(conn);
 }
 
 static int
@@ -3737,9 +3741,12 @@ rxi_CheckConnReach(struct rx_connection *conn, struct rx_call *call)
        return 1;
     }
     conn->flags |= RX_CONN_ATTACHWAIT;
-    MUTEX_EXIT(&conn->conn_data_lock);
-    if (!conn->checkReachEvent)
+    if (conn->checkReachEvent == NULL) {
+       /* rxi_CheckReachEvent(NULL, ...) will drop the lock. */
        rxi_CheckReachEvent(NULL, conn, call, 0);
+    } else {
+       MUTEX_EXIT(&conn->conn_data_lock);
+    }
 
     return 1;
 }
@@ -4415,24 +4422,6 @@ rxi_ReceiveAckPacket(struct rx_call *call, struct rx_packet *np,
      * queue - they're not addressed by the contents of this ACK packet.
      */
 
-    /* If the window has been extended by this acknowledge packet,
-     * then wakeup a sender waiting in alloc for window space, or try
-     * sending packets now, if he's been sitting on packets due to
-     * lack of window space */
-    if (call->tnext < (call->tfirst + call->twind)) {
-#ifdef RX_ENABLE_LOCKS
-       CV_SIGNAL(&call->cv_twind);
-#else
-       if (call->flags & RX_CALL_WAIT_WINDOW_ALLOC) {
-           call->flags &= ~RX_CALL_WAIT_WINDOW_ALLOC;
-           osi_rxWakeup(&call->twind);
-       }
-#endif
-       if (call->flags & RX_CALL_WAIT_WINDOW_SEND) {
-           call->flags &= ~RX_CALL_WAIT_WINDOW_SEND;
-       }
-    }
-
     /* if the ack packet has a receivelen field hanging off it,
      * update our state */
     if (np->length >= rx_AckDataSize(ap->nAcks) + 2 * sizeof(afs_int32)) {
@@ -4443,12 +4432,20 @@ rxi_ReceiveAckPacket(struct rx_call *call, struct rx_packet *np,
        rx_packetread(np, rx_AckDataSize(ap->nAcks) + (int)sizeof(afs_int32),
                      (int)sizeof(afs_int32), &tSize);
        tSize = (afs_uint32) ntohl(tSize);
+       if (tSize > RX_MAX_PACKET_SIZE)
+           tSize = RX_MAX_PACKET_SIZE;
+       if (tSize < RX_MIN_PACKET_SIZE)
+           tSize = RX_MIN_PACKET_SIZE;
        peer->natMTU = rxi_AdjustIfMTU(MIN(tSize, peer->ifMTU));
 
        /* Get the maximum packet size to send to this peer */
        rx_packetread(np, rx_AckDataSize(ap->nAcks), (int)sizeof(afs_int32),
                      &tSize);
        tSize = (afs_uint32) ntohl(tSize);
+       if (tSize > RX_MAX_PACKET_SIZE)
+           tSize = RX_MAX_PACKET_SIZE;
+       if (tSize < RX_MIN_PACKET_SIZE)
+           tSize = RX_MIN_PACKET_SIZE;
        tSize = (afs_uint32) MIN(tSize, rx_MyMaxSendSize);
        tSize = rxi_AdjustMaxMTU(peer->natMTU, tSize);
 
@@ -4470,6 +4467,10 @@ rxi_ReceiveAckPacket(struct rx_call *call, struct rx_packet *np,
                          rx_AckDataSize(ap->nAcks) + 2 * (int)sizeof(afs_int32),
                          (int)sizeof(afs_int32), &tSize);
            tSize = (afs_uint32) ntohl(tSize);  /* peer's receive window, if it's */
+           if (tSize == 0)
+               tSize = 1;
+           if (tSize >= rx_maxSendWindow)
+               tSize = rx_maxSendWindow;
            if (tSize < call->twind) {  /* smaller than our send */
                call->twind = tSize;    /* window, we must send less... */
                call->ssthresh = MIN(call->twind, call->ssthresh);
@@ -4491,6 +4492,10 @@ rxi_ReceiveAckPacket(struct rx_call *call, struct rx_packet *np,
                          rx_AckDataSize(ap->nAcks) + 2 * (int)sizeof(afs_int32),
                          sizeof(afs_int32), &tSize);
            tSize = (afs_uint32) ntohl(tSize);
+           if (tSize == 0)
+               tSize = 1;
+           if (tSize >= rx_maxSendWindow)
+               tSize = rx_maxSendWindow;
            /*
             * As of AFS 3.5 we set the send window to match the receive window.
             */
@@ -4539,6 +4544,24 @@ rxi_ReceiveAckPacket(struct rx_call *call, struct rx_packet *np,
        call->MTU = OLD_MAX_PACKET_SIZE;
     }
 
+    /* If the window has been extended by this acknowledge packet,
+     * then wakeup a sender waiting in alloc for window space, or try
+     * sending packets now, if he's been sitting on packets due to
+     * lack of window space */
+    if (call->tnext < (call->tfirst + call->twind)) {
+#ifdef RX_ENABLE_LOCKS
+       CV_SIGNAL(&call->cv_twind);
+#else
+       if (call->flags & RX_CALL_WAIT_WINDOW_ALLOC) {
+           call->flags &= ~RX_CALL_WAIT_WINDOW_ALLOC;
+           osi_rxWakeup(&call->twind);
+       }
+#endif
+       if (call->flags & RX_CALL_WAIT_WINDOW_SEND) {
+           call->flags &= ~RX_CALL_WAIT_WINDOW_SEND;
+       }
+    }
+
     if (nNacked) {
        /*
         * Calculate how many datagrams were successfully received after
@@ -4674,6 +4697,8 @@ static void
 rxi_SendConnectionAbortLater(struct rx_connection *conn, int msec)
 {
     struct clock when, now;
+
+    MUTEX_ASSERT(&conn->conn_data_lock);
     if (!conn->error) {
        return;
     }
@@ -4681,6 +4706,7 @@ rxi_SendConnectionAbortLater(struct rx_connection *conn, int msec)
        clock_GetTime(&now);
        when = now;
        clock_Addmsec(&when, msec);
+       rx_GetConnection(conn);
        conn->delayedAbortEvent =
            rxevent_Post(&when, &now, rxi_SendDelayedConnAbort, conn, NULL, 0);
     }
@@ -4898,6 +4924,11 @@ rxi_AckAll(struct rx_call *call)
     call->flags |= RX_CALL_ACKALL_SENT;
 }
 
+/*
+ * Event handler for per-call delayed acks.
+ * Also called synchronously, with |event| == NULL, to send a "delayed" ack
+ * immediately.
+ */
 static void
 rxi_SendDelayedAck(struct rxevent *event, void *arg1, void *unused1,
                   int unused2)
@@ -4908,7 +4939,6 @@ rxi_SendDelayedAck(struct rxevent *event, void *arg1, void *unused1,
        MUTEX_ENTER(&call->lock);
        if (event == call->delayedAckEvent)
            rxevent_Put(&call->delayedAckEvent);
-       CALL_RELE(call, RX_CALL_REFCOUNT_DELAY);
     }
     (void)rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
     if (event)
@@ -4918,6 +4948,9 @@ rxi_SendDelayedAck(struct rxevent *event, void *arg1, void *unused1,
        rxevent_Put(&call->delayedAckEvent);
     (void)rxi_SendAck(call, 0, 0, RX_ACK_DELAY, 0);
 #endif /* RX_ENABLE_LOCKS */
+    /* Release the call reference for the event that fired. */
+    if (event)
+       CALL_RELE(call, RX_CALL_REFCOUNT_DELAY);
 }
 
 #ifdef RX_ENABLE_LOCKS
@@ -5058,7 +5091,14 @@ rxi_SendCallAbort(struct rx_call *call, struct rx_packet *packet,
     if (rx_IsClientConn(call->conn))
        force = 1;
 
-    if (call->abortCode != call->error) {
+    /*
+     * An opcode that has been deprecated or has yet to be implemented is not
+     * a misbehavior of the client.  Do not punish the client by introducing
+     * delays.
+     */
+    if (call->error == RXGEN_OPCODE) {
+       force = 1;
+    } else if (call->abortCode != call->error) {
        call->abortCode = call->error;
        call->abortCount = 0;
     }
@@ -5067,7 +5107,8 @@ rxi_SendCallAbort(struct rx_call *call, struct rx_packet *packet,
        || call->abortCount < rxi_callAbortThreshhold) {
        rxi_CancelDelayedAbortEvent(call);
        error = htonl(call->error);
-       call->abortCount++;
+       if (!force)
+           call->abortCount++;
        packet =
            rxi_SendSpecial(call, call->conn, packet, RX_PACKET_TYPE_ABORT,
                            (char *)&error, sizeof(error), istack);
@@ -5085,10 +5126,9 @@ rxi_SendCallAbort(struct rx_call *call, struct rx_packet *packet,
 static void
 rxi_CancelDelayedAbortEvent(struct rx_call *call)
 {
-    if (call->delayedAbortEvent) {
-       rxevent_Cancel(&call->delayedAbortEvent);
+    MUTEX_ASSERT(&call->lock);
+    if (rxevent_Cancel(&call->delayedAbortEvent))
        CALL_RELE(call, RX_CALL_REFCOUNT_ABORT);
-    }
 }
 
 /* Send an abort packet for the specified connection.  Packet is an
@@ -5116,7 +5156,8 @@ rxi_SendConnectionAbort(struct rx_connection *conn,
     if (force || rxi_connAbortThreshhold == 0
        || conn->abortCount < rxi_connAbortThreshhold) {
 
-       rxevent_Cancel(&conn->delayedAbortEvent);
+       if (rxevent_Cancel(&conn->delayedAbortEvent))
+           putConnection(conn);
        error = htonl(conn->error);
        conn->abortCount++;
        MUTEX_EXIT(&conn->conn_data_lock);
@@ -5146,10 +5187,11 @@ rxi_ConnectionError(struct rx_connection *conn,
        dpf(("rxi_ConnectionError conn %"AFS_PTR_FMT" error %d\n", conn, error));
 
        MUTEX_ENTER(&conn->conn_data_lock);
-       rxevent_Cancel(&conn->challengeEvent);
-       rxevent_Cancel(&conn->natKeepAliveEvent);
-       if (conn->checkReachEvent) {
-           rxevent_Cancel(&conn->checkReachEvent);
+       if (rxevent_Cancel(&conn->challengeEvent))
+           putConnection(conn);
+       if (rxevent_Cancel(&conn->natKeepAliveEvent))
+           putConnection(conn);
+       if (rxevent_Cancel(&conn->checkReachEvent)) {
            conn->flags &= ~(RX_CONN_ATTACHWAIT|RX_CONN_NAT_PING);
            putConnection(conn);
        }
@@ -5376,6 +5418,9 @@ rxi_ResetCall(struct rx_call *call, int newcall)
     int        reason;                  Reason an acknowledge was prompted
 */
 
+#define RX_ZEROS 1024
+static char rx_zeros[RX_ZEROS];
+
 struct rx_packet *
 rxi_SendAck(struct rx_call *call,
            struct rx_packet *optionalPacket, int serial, int reason,
@@ -5535,6 +5580,11 @@ rxi_SendAck(struct rx_call *call,
     ap->nAcks = offset;
     p->length = rx_AckDataSize(offset) + 4 * sizeof(afs_int32);
 
+    /* Must zero the 3 octets that rx_AckDataSize skips at the end of the
+     * ACK list.
+     */
+    rx_packetwrite(p, rx_AckDataSize(offset) - 3, 3, rx_zeros);
+
     /* these are new for AFS 3.3 */
     templ = rxi_AdjustMaxMTU(call->conn->peer->ifMTU, rx_maxReceiveSize);
     templ = htonl(templ);
@@ -5553,6 +5603,8 @@ rxi_SendAck(struct rx_call *call,
     rx_packetwrite(p, rx_AckDataSize(offset) + 3 * sizeof(afs_int32),
                   sizeof(afs_int32), &templ);
 
+    p->length = rx_AckDataSize(offset) + 4 * sizeof(afs_int32);
+
     p->header.serviceId = call->conn->serviceId;
     p->header.cid = (call->conn->cid | call->channel);
     p->header.callNumber = *call->callNumber;
@@ -5561,21 +5613,21 @@ rxi_SendAck(struct rx_call *call,
     p->header.epoch = call->conn->epoch;
     p->header.type = RX_PACKET_TYPE_ACK;
     p->header.flags = RX_SLOW_START_OK;
-    if (reason == RX_ACK_PING) {
+    if (reason == RX_ACK_PING)
        p->header.flags |= RX_REQUEST_ACK;
-       if (padbytes) {
-           p->length = padbytes +
-               rx_AckDataSize(call->rwind) + 4 * sizeof(afs_int32);
 
-           while (padbytes--)
-               /* not fast but we can potentially use this if truncated
-                * fragments are delivered to figure out the mtu.
-                */
-               rx_packetwrite(p, rx_AckDataSize(offset) + 4 *
-                              sizeof(afs_int32), sizeof(afs_int32),
-                              &padbytes);
+    while (padbytes > 0) {
+       if (padbytes > RX_ZEROS) {
+           rx_packetwrite(p, p->length, RX_ZEROS, rx_zeros);
+           p->length += RX_ZEROS;
+           padbytes -= RX_ZEROS;
+       } else {
+           rx_packetwrite(p, p->length, padbytes, rx_zeros);
+           p->length += padbytes;
+           padbytes = 0;
        }
     }
+
     if (call->conn->type == RX_CLIENT_CONNECTION)
        p->header.flags |= RX_CLIENT_INITIATED;
 
@@ -5915,10 +5967,8 @@ rxi_Resend(struct rxevent *event, void *arg0, void *arg1, int istack)
     /* Make sure that the event pointer is removed from the call
      * structure, since there is no longer a per-call retransmission
      * event pending. */
-    if (event == call->resendEvent) {
-       CALL_RELE(call, RX_CALL_REFCOUNT_RESEND);
+    if (event == call->resendEvent)
        rxevent_Put(&call->resendEvent);
-    }
 
     rxi_CheckPeerDead(call);
 
@@ -5971,6 +6021,7 @@ rxi_Resend(struct rxevent *event, void *arg0, void *arg1, int istack)
     rxi_Start(call, istack);
 
 out:
+    CALL_RELE(call, RX_CALL_REFCOUNT_RESEND);
     MUTEX_EXIT(&call->lock);
 }
 
@@ -6308,7 +6359,7 @@ mtuout:
        rxi_SetPeerMtu(conn->peer, 0, 0, newmtu);
 
        /* clean up */
-       conn->lastPacketSize = 0;
+       conn->lastPacketSize = conn->lastPacketSizeSeq = 0;
 
        /* needed so ResetCall doesn't clobber us. */
        call->MTU = conn->peer->ifMTU;
@@ -6332,6 +6383,7 @@ rxi_NatKeepAliveEvent(struct rxevent *event, void *arg1,
     struct sockaddr_in taddr;
     char *tp;
     char a[1] = { 0 };
+    int resched = 0;
     struct iovec tmpiov[2];
     osi_socket socket =
         (conn->type ==
@@ -6364,33 +6416,40 @@ rxi_NatKeepAliveEvent(struct rxevent *event, void *arg1,
     osi_NetSend(socket, &taddr, tmpiov, 1, 1 + sizeof(struct rx_header), 1);
 
     MUTEX_ENTER(&conn->conn_data_lock);
+    /* We ran, so the handle is no longer needed to try to cancel ourselves. */
+    if (event == conn->natKeepAliveEvent)
+       rxevent_Put(&conn->natKeepAliveEvent);
     MUTEX_ENTER(&rx_refcnt_mutex);
     /* Only reschedule ourselves if the connection would not be destroyed */
-    if (conn->refCount <= 1) {
-       rxevent_Put(&conn->natKeepAliveEvent);
-        MUTEX_EXIT(&rx_refcnt_mutex);
-       MUTEX_EXIT(&conn->conn_data_lock);
-       rx_DestroyConnection(conn); /* drop the reference for this */
-    } else {
-       conn->refCount--; /* drop the reference for this */
-        MUTEX_EXIT(&rx_refcnt_mutex);
-       rxevent_Put(&conn->natKeepAliveEvent);
-       rxi_ScheduleNatKeepAliveEvent(conn);
-       MUTEX_EXIT(&conn->conn_data_lock);
+    if (conn->refCount > 1)
+       resched = 1;
+    if (conn->refCount <= 0) {
+#ifdef RX_REFCOUNT_CHECK
+       osi_Assert(conn->refCount == 0);
+#endif
+       if (rx_stats_active) {
+           MUTEX_ENTER(&rx_stats_mutex);
+           rxi_lowConnRefCount++;
+           MUTEX_EXIT(&rx_stats_mutex);
+       }
     }
+    MUTEX_EXIT(&rx_refcnt_mutex);
+    if (resched)
+       rxi_ScheduleNatKeepAliveEvent(conn);
+    MUTEX_EXIT(&conn->conn_data_lock);
+    putConnection(conn);
 }
 
 static void
 rxi_ScheduleNatKeepAliveEvent(struct rx_connection *conn)
 {
+    MUTEX_ASSERT(&conn->conn_data_lock);
     if (!conn->natKeepAliveEvent && conn->secondsUntilNatPing) {
        struct clock when, now;
        clock_GetTime(&now);
        when = now;
        when.sec += conn->secondsUntilNatPing;
-        MUTEX_ENTER(&rx_refcnt_mutex);
-       conn->refCount++; /* hold a reference for this */
-        MUTEX_EXIT(&rx_refcnt_mutex);
+        rx_GetConnection(conn);
        conn->natKeepAliveEvent =
            rxevent_Post(&when, &now, rxi_NatKeepAliveEvent, conn, NULL, 0);
     }
@@ -6424,7 +6483,6 @@ rxi_KeepAliveEvent(struct rxevent *event, void *arg1, void *dummy,
     struct rx_connection *conn;
     afs_uint32 now;
 
-    CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
     MUTEX_ENTER(&call->lock);
 
     if (event == call->keepAliveEvent)
@@ -6434,12 +6492,14 @@ rxi_KeepAliveEvent(struct rxevent *event, void *arg1, void *dummy,
 
     if (rxi_CheckCall(call, 0)) {
        MUTEX_EXIT(&call->lock);
+       CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
        return;
     }
 
     /* Don't try to keep alive dallying calls */
     if (call->state == RX_STATE_DALLY) {
        MUTEX_EXIT(&call->lock);
+       CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
        return;
     }
 
@@ -6452,6 +6512,7 @@ rxi_KeepAliveEvent(struct rxevent *event, void *arg1, void *dummy,
     }
     rxi_ScheduleKeepAliveEvent(call);
     MUTEX_EXIT(&call->lock);
+    CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
 }
 
 /* Does what's on the nameplate. */
@@ -6461,22 +6522,17 @@ rxi_GrowMTUEvent(struct rxevent *event, void *arg1, void *dummy, int dummy2)
     struct rx_call *call = arg1;
     struct rx_connection *conn;
 
-    CALL_RELE(call, RX_CALL_REFCOUNT_MTU);
     MUTEX_ENTER(&call->lock);
 
     if (event == call->growMTUEvent)
        rxevent_Put(&call->growMTUEvent);
 
-    if (rxi_CheckCall(call, 0)) {
-       MUTEX_EXIT(&call->lock);
-       return;
-    }
+    if (rxi_CheckCall(call, 0))
+       goto out;
 
     /* Don't bother with dallying calls */
-    if (call->state == RX_STATE_DALLY) {
-       MUTEX_EXIT(&call->lock);
-       return;
-    }
+    if (call->state == RX_STATE_DALLY)
+       goto out;
 
     conn = call->conn;
 
@@ -6489,12 +6545,15 @@ rxi_GrowMTUEvent(struct rxevent *event, void *arg1, void *dummy, int dummy2)
        conn->idleDeadTime)
        (void)rxi_SendAck(call, NULL, 0, RX_ACK_MTU, 0);
     rxi_ScheduleGrowMTUEvent(call, 0);
+out:
     MUTEX_EXIT(&call->lock);
+    CALL_RELE(call, RX_CALL_REFCOUNT_MTU);
 }
 
 static void
 rxi_ScheduleKeepAliveEvent(struct rx_call *call)
 {
+    MUTEX_ASSERT(&call->lock);
     if (!call->keepAliveEvent) {
        struct clock when, now;
        clock_GetTime(&now);
@@ -6508,15 +6567,15 @@ rxi_ScheduleKeepAliveEvent(struct rx_call *call)
 
 static void
 rxi_CancelKeepAliveEvent(struct rx_call *call) {
-    if (call->keepAliveEvent) {
-       rxevent_Cancel(&call->keepAliveEvent);
+    MUTEX_ASSERT(&call->lock);
+    if (rxevent_Cancel(&call->keepAliveEvent))
        CALL_RELE(call, RX_CALL_REFCOUNT_ALIVE);
-    }
 }
 
 static void
 rxi_ScheduleGrowMTUEvent(struct rx_call *call, int secs)
 {
+    MUTEX_ASSERT(&call->lock);
     if (!call->growMTUEvent) {
        struct clock when, now;
 
@@ -6540,10 +6599,9 @@ rxi_ScheduleGrowMTUEvent(struct rx_call *call, int secs)
 static void
 rxi_CancelGrowMTUEvent(struct rx_call *call)
 {
-    if (call->growMTUEvent) {
-       rxevent_Cancel(&call->growMTUEvent);
+    MUTEX_ASSERT(&call->lock);
+    if (rxevent_Cancel(&call->growMTUEvent))
        CALL_RELE(call, RX_CALL_REFCOUNT_MTU);
-    }
 }
 
 /*
@@ -6593,7 +6651,8 @@ rxi_SendDelayedConnAbort(struct rxevent *event, void *arg1, void *unused,
     struct rx_packet *packet;
 
     MUTEX_ENTER(&conn->conn_data_lock);
-    rxevent_Put(&conn->delayedAbortEvent);
+    if (event == conn->delayedAbortEvent)
+       rxevent_Put(&conn->delayedAbortEvent);
     error = htonl(conn->error);
     conn->abortCount++;
     MUTEX_EXIT(&conn->conn_data_lock);
@@ -6605,6 +6664,7 @@ rxi_SendDelayedConnAbort(struct rxevent *event, void *arg1, void *unused,
                            sizeof(error), 0);
        rxi_FreePacket(packet);
     }
+    putConnection(conn);
 }
 
 /* This routine is called to send call abort messages
@@ -6619,7 +6679,8 @@ rxi_SendDelayedCallAbort(struct rxevent *event, void *arg1, void *dummy,
     struct rx_packet *packet;
 
     MUTEX_ENTER(&call->lock);
-    rxevent_Put(&call->delayedAbortEvent);
+    if (event == call->delayedAbortEvent)
+       rxevent_Put(&call->delayedAbortEvent);
     error = htonl(call->error);
     call->abortCount++;
     packet = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL);
@@ -6633,25 +6694,38 @@ rxi_SendDelayedCallAbort(struct rxevent *event, void *arg1, void *dummy,
     CALL_RELE(call, RX_CALL_REFCOUNT_ABORT);
 }
 
-/* This routine is called periodically (every RX_AUTH_REQUEST_TIMEOUT
+/*
+ * This routine is called periodically (every RX_AUTH_REQUEST_TIMEOUT
  * seconds) to ask the client to authenticate itself.  The routine
  * issues a challenge to the client, which is obtained from the
- * security object associated with the connection */
+ * security object associated with the connection
+ *
+ * This routine is both an event handler and a function called directly;
+ * when called directly the passed |event| is NULL and the
+ * conn->conn->data>lock must must not be held.  Also, when called as an
+ * an event handler, we must putConnection before we exit; but when called
+ * directly (the first challenge), we must NOT putConnection.
+ */
 static void
 rxi_ChallengeEvent(struct rxevent *event,
                   void *arg0, void *arg1, int tries)
 {
     struct rx_connection *conn = arg0;
+    int event_raised = 0;      /* assume we were called directly */
 
-    if (event)
+    MUTEX_ENTER(&conn->conn_data_lock);
+    if (event != NULL && event == conn->challengeEvent) {
+       event_raised = 1;       /* called as an event */
        rxevent_Put(&conn->challengeEvent);
+    }
+    MUTEX_EXIT(&conn->conn_data_lock);
 
     /* If there are no active calls it is not worth re-issuing the
      * challenge.  If the client issues another call on this connection
      * the challenge can be requested at that time.
      */
     if (!rxi_HasActiveCalls(conn))
-        return;
+       goto done;
 
     if (RXS_CheckAuthentication(conn->securityObject, conn) != 0) {
        struct rx_packet *packet;
@@ -6677,7 +6751,7 @@ rxi_ChallengeEvent(struct rxevent *event,
                }
            }
            MUTEX_EXIT(&conn->conn_call_lock);
-           return;
+           goto done;
        }
 
        packet = rxi_AllocPacket(RX_PACKET_CLASS_SPECIAL);
@@ -6692,22 +6766,35 @@ rxi_ChallengeEvent(struct rxevent *event,
        clock_GetTime(&now);
        when = now;
        when.sec += RX_CHALLENGE_TIMEOUT;
-       conn->challengeEvent =
-           rxevent_Post(&when, &now, rxi_ChallengeEvent, conn, 0,
-                        (tries - 1));
+       MUTEX_ENTER(&conn->conn_data_lock);
+       /* Only reschedule ourselves if not already pending. */
+       if (conn->challengeEvent == NULL) {
+           rx_GetConnection(conn);
+           conn->challengeEvent =
+               rxevent_Post(&when, &now, rxi_ChallengeEvent, conn, 0,
+                            (tries - 1));
+       }
+       MUTEX_EXIT(&conn->conn_data_lock);
     }
+ done:
+    if (event_raised)
+       putConnection(conn);
 }
 
 /* Call this routine to start requesting the client to authenticate
  * itself.  This will continue until authentication is established,
  * the call times out, or an invalid response is returned.  The
  * security object associated with the connection is asked to create
- * the challenge at this time.  N.B.  rxi_ChallengeOff is a macro,
- * defined earlier. */
+ * the challenge at this time. */
 static void
 rxi_ChallengeOn(struct rx_connection *conn)
 {
-    if (!conn->challengeEvent) {
+    int start = 0;
+    MUTEX_ENTER(&conn->conn_data_lock);
+    if (!conn->challengeEvent)
+       start = 1;
+    MUTEX_EXIT(&conn->conn_data_lock);
+    if (start) {
        RXS_CreateChallenge(conn->securityObject, conn);
        rxi_ChallengeEvent(NULL, conn, 0, RX_CHALLENGE_MAXTRIES);
     };
@@ -7876,8 +7963,6 @@ shutdown_rx(void)
          rx_hashTableSize * sizeof(struct rx_connection *));
     UNPIN(rx_peerHashTable, rx_hashTableSize * sizeof(struct rx_peer *));
 
-    rxi_FreeAllPackets();
-
     MUTEX_ENTER(&rx_quota_mutex);
     rxi_dataQuota = RX_MAX_QUOTA;
     rxi_availProcs = rxi_totalMin = rxi_minDeficit = 0;