972b55fd3691f4b72bbfbc01178d36f25483cbb3
[openafs.git] / src / WINNT / afsd / cm_conn.c
1 /*
2  * Copyright 2000, International Business Machines Corporation and others.
3  * All Rights Reserved.
4  * 
5  * This software has been released under the terms of the IBM Public
6  * License.  For details, see the LICENSE file in the top-level source
7  * directory or online at http://www.openafs.org/dl/license10.html
8  */
9
10 #include <afs/param.h>
11 #include <afs/stds.h>
12
13 #ifndef DJGPP
14 #include <windows.h>
15 #endif /* !DJGPP */
16 #include <string.h>
17 #include <malloc.h>
18 #include <osi.h>
19 #include <rx/rx.h>
20 #ifndef DJGPP
21 #include <rx/rxkad.h>
22 #else
23 #include <rx/rxkad.h>
24 #endif
25
26 #include "afsd.h"
27
28 osi_rwlock_t cm_connLock;
29
30 long RDRtimeout = CM_CONN_DEFAULTRDRTIMEOUT;
31 long ConnDeadtimeout = CM_CONN_CONNDEADTIME;
32 long HardDeadtimeout = CM_CONN_HARDDEADTIME;
33
34 #define LANMAN_WKS_PARAM_KEY "SYSTEM\\CurrentControlSet\\Services\\lanmanworkstation\\parameters"
35 #define LANMAN_WKS_SESSION_TIMEOUT "SessTimeout"
36
37 afs_int32 cryptall = 0;
38
39 void cm_PutConn(cm_conn_t *connp)
40 {
41         lock_ObtainWrite(&cm_connLock);
42         osi_assert(connp->refCount-- > 0);
43         lock_ReleaseWrite(&cm_connLock);
44 }
45
46 void cm_InitConn(void)
47 {
48         static osi_once_t once;
49         long code;
50         DWORD sessTimeout;
51         HKEY parmKey;
52         
53     if (osi_Once(&once)) {
54                 lock_InitializeRWLock(&cm_connLock, "connection global lock");
55
56         /* keisa - read timeout value for lanmanworkstation  service.
57          * jaltman - as per 
58          *   http://support.microsoft.com:80/support/kb/articles/Q102/0/67.asp&NoWebContent=1
59          * the SessTimeout is a minimum timeout not a maximum timeout.  Therefore, 
60          * I believe that the default should not be short.  Instead, we should wait until
61          * RX times out before reporting a timeout to the SMB client.
62          */
63                 code = RegOpenKeyEx(HKEY_LOCAL_MACHINE, LANMAN_WKS_PARAM_KEY,
64                             0, KEY_QUERY_VALUE, &parmKey);
65                 if (code == ERROR_SUCCESS)
66         {
67                     DWORD dummyLen = sizeof(sessTimeout);
68                     code = RegQueryValueEx(parmKey, LANMAN_WKS_SESSION_TIMEOUT, NULL, NULL, 
69                                    (BYTE *) &sessTimeout, &dummyLen);
70                     if (code == ERROR_SUCCESS)
71             {
72                 afsi_log("lanmanworkstation : SessTimeout %d", sessTimeout);
73                 RDRtimeout = sessTimeout;
74                 if ( ConnDeadtimeout < RDRtimeout + 15 ) {
75                     ConnDeadtimeout = RDRtimeout + 15;
76                     afsi_log("ConnDeadTimeout increased to %d", ConnDeadtimeout);
77                 }
78                 if ( HardDeadtimeout < 2 * ConnDeadtimeout ) {
79                     HardDeadtimeout = 2 * ConnDeadtimeout;
80                     afsi_log("HardDeadTimeout increased to %d", HardDeadtimeout);
81                 }
82             }
83         }
84
85         osi_EndOnce(&once);
86     }
87 }
88
89 void cm_InitReq(cm_req_t *reqp)
90 {
91         memset((char *)reqp, 0, sizeof(cm_req_t));
92 #ifndef DJGPP
93         reqp->startTime = GetCurrentTime();
94 #else
95         gettimeofday(&reqp->startTime, NULL);
96 #endif
97 }
98
99 static long cm_GetServerList(struct cm_fid *fidp, struct cm_user *userp,
100         struct cm_req *reqp, cm_serverRef_t ***serversppp)
101 {
102         long code;
103     cm_volume_t *volp = NULL;
104     cm_cell_t *cellp = NULL;
105
106     if (!fidp) {
107                 *serversppp = NULL;
108                 return 0;
109         }
110
111         cellp = cm_FindCellByID(fidp->cell);
112     if (!cellp) return CM_ERROR_NOSUCHCELL;
113
114     code = cm_GetVolumeByID(cellp, fidp->volume, userp, reqp, &volp);
115     if (code) return code;
116     
117     *serversppp = cm_GetVolServers(volp, fidp->volume);
118
119     cm_PutVolume(volp);
120         return 0;
121 }
122
123 /*
124  * Analyze the error return from an RPC.  Determine whether or not to retry,
125  * and if we're going to retry, determine whether failover is appropriate,
126  * and whether timed backoff is appropriate.
127  *
128  * If the error code is from cm_Conn() or friends, it will be a CM_ERROR code.
129  * Otherwise it will be an RPC code.  This may be a UNIX code (e.g. EDQUOT), or
130  * it may be an RX code, or it may be a special code (e.g. VNOVOL), or it may
131  * be a security code (e.g. RXKADEXPIRED).
132  *
133  * If the error code is from cm_Conn() or friends, connp will be NULL.
134  *
135  * For VLDB calls, fidp will be NULL.
136  *
137  * volSyncp and/or cbrp may also be NULL.
138  */
139 int
140 cm_Analyze(cm_conn_t *connp, cm_user_t *userp, cm_req_t *reqp,
141            struct cm_fid *fidp, 
142            AFSVolSync *volSyncp, 
143            cm_serverRef_t * serversp,
144            cm_callbackRequest_t *cbrp, long errorCode)
145 {
146     cm_server_t *serverp = 0;
147     cm_serverRef_t **serverspp = 0;
148     cm_serverRef_t *tsrp;
149     cm_ucell_t *ucellp;
150     int retry = 0;
151     int free_svr_list = 0;
152     int dead_session;
153     long timeUsed, timeLeft;
154         
155     osi_Log2(afsd_logp, "cm_Analyze connp 0x%x, code 0x%x",
156              (long) connp, errorCode);
157
158     /* no locking required, since connp->serverp never changes after
159      * creation */
160     dead_session = (userp->cellInfop == NULL);
161     if (connp)
162         serverp = connp->serverp;
163
164     /* Update callback pointer */
165     if (cbrp && serverp && errorCode == 0) {
166         if (cbrp->serverp) {
167             if ( cbrp->serverp != serverp ) {
168                 lock_ObtainWrite(&cm_serverLock);
169                 cm_PutServerNoLock(cbrp->serverp);
170                 cm_GetServerNoLock(serverp);
171                 lock_ReleaseWrite(&cm_serverLock);
172             }
173         } else {
174             cm_GetServer(serverp);
175         }
176         lock_ObtainWrite(&cm_callbackLock);
177         cbrp->serverp = serverp;
178         lock_ReleaseWrite(&cm_callbackLock);
179     }
180
181     /* If not allowed to retry, don't */
182     if (reqp->flags & CM_REQ_NORETRY)
183         goto out;
184
185     /* if timeout - check that it did not exceed the SMB timeout
186      * and retry */
187     
188     /* timeleft - get if from reqp the same way as cmXonnByMServers does */
189 #ifndef DJGPP
190     timeUsed = (GetCurrentTime() - reqp->startTime) / 1000;
191 #else
192     gettimeofday(&now, NULL);
193     timeUsed = sub_time(now, reqp->startTime) / 1000;
194 #endif
195             
196     /* leave 5 seconds margin for sleep */
197     timeLeft = RDRtimeout - timeUsed;
198
199     if (errorCode == CM_ERROR_TIMEDOUT) {
200         if (timeLeft > 5 ) {
201             thrd_Sleep(3000);
202             cm_CheckServers(CM_FLAG_CHECKDOWNSERVERS, NULL);
203             retry = 1;
204         }
205     } 
206
207     /* if all servers are offline, mark them non-busy and start over */
208     else if (errorCode == CM_ERROR_ALLOFFLINE) {
209         if (timeLeft > 7) {
210             osi_Log0(afsd_logp, "cm_Analyze passed CM_ERROR_ALLOFFLINE.");
211             thrd_Sleep(5000);
212             /* cm_ForceUpdateVolume marks all servers as non_busy */
213             /* No it doesn't and it won't do anything if all of the 
214              * the servers are marked as DOWN.  So clear the DOWN
215              * flag and reset the busy state as well.
216              */
217             if (!serversp) {
218                 cm_GetServerList(fidp, userp, reqp, &serverspp);
219                 serversp = *serverspp;
220                 free_svr_list = 1;
221             }
222             if (serversp) {
223                 lock_ObtainWrite(&cm_serverLock);
224                 for (tsrp = serversp; tsrp; tsrp=tsrp->next) {
225                     tsrp->server->flags &= ~CM_SERVERFLAG_DOWN;
226                     if (tsrp->status == busy)
227                         tsrp->status = not_busy;
228                 }
229                 lock_ReleaseWrite(&cm_serverLock);
230                 if (free_svr_list) {
231                     cm_FreeServerList(&serversp);
232                     *serverspp = serversp;
233                 }
234                 retry = 1;
235             }
236
237             if (fidp != NULL)   /* Not a VLDB call */
238                 cm_ForceUpdateVolume(fidp, userp, reqp);
239         }
240     }
241
242     /* if all servers are busy, mark them non-busy and start over */
243     else if (errorCode == CM_ERROR_ALLBUSY) {
244         if (timeLeft > 7) {
245             thrd_Sleep(5000);
246             if (!serversp) {
247                 cm_GetServerList(fidp, userp, reqp, &serverspp);
248                 serversp = *serverspp;
249                 free_svr_list = 1;
250             }
251             lock_ObtainWrite(&cm_serverLock);
252             for (tsrp = serversp; tsrp; tsrp=tsrp->next) {
253                 if (tsrp->status == busy)
254                     tsrp->status = not_busy;
255             }
256             lock_ReleaseWrite(&cm_serverLock);
257             if (free_svr_list) {
258                 cm_FreeServerList(&serversp);
259                 *serverspp = serversp;
260             }
261             retry = 1;
262         }
263     }
264
265     /* special codes:  VBUSY and VRESTARTING */
266     else if (errorCode == VBUSY || errorCode == VRESTARTING) {
267         if (!serversp) {
268             cm_GetServerList(fidp, userp, reqp, &serverspp);
269             serversp = *serverspp;
270             free_svr_list = 1;
271         }
272         lock_ObtainWrite(&cm_serverLock);
273         for (tsrp = serversp; tsrp; tsrp=tsrp->next) {
274             if (tsrp->server == serverp
275                  && tsrp->status == not_busy) {
276                 tsrp->status = busy;
277                 break;
278             }
279         }
280         lock_ReleaseWrite(&cm_serverLock);
281         if (free_svr_list) {
282             cm_FreeServerList(&serversp);
283             *serverspp = serversp;
284         }
285         retry = 1;
286     }
287
288     /* special codes:  missing volumes */
289     else if (errorCode == VNOVOL || errorCode == VMOVED || errorCode == VOFFLINE
290          || errorCode == VSALVAGE || errorCode == VNOSERVICE) 
291     {       
292         /* Log server being offline for this volume */
293         osi_Log4(afsd_logp, "cm_Analyze found server %d.%d.%d.%d marked offline for a volume",
294                   ((serverp->addr.sin_addr.s_addr & 0xff)),
295                   ((serverp->addr.sin_addr.s_addr & 0xff00)>> 8),
296                   ((serverp->addr.sin_addr.s_addr & 0xff0000)>> 16),
297                   ((serverp->addr.sin_addr.s_addr & 0xff000000)>> 24));
298         /* Create Event Log message */ 
299         {
300             HANDLE h;
301             char *ptbuf[1];
302             char s[100];
303             h = RegisterEventSource(NULL, AFS_DAEMON_EVENT_NAME);
304             sprintf(s, "cm_Analyze: Server %d.%d.%d.%d reported volume %d as missing.",
305                      ((serverp->addr.sin_addr.s_addr & 0xff)),
306                      ((serverp->addr.sin_addr.s_addr & 0xff00)>> 8),
307                      ((serverp->addr.sin_addr.s_addr & 0xff0000)>> 16),
308                      ((serverp->addr.sin_addr.s_addr & 0xff000000)>> 24),
309                      fidp->volume);
310             ptbuf[0] = s;
311             ReportEvent(h, EVENTLOG_WARNING_TYPE, 0, 1009, NULL,
312                          1, 0, ptbuf, NULL);
313             DeregisterEventSource(h);
314         }
315
316         /* Mark server offline for this volume */
317         if (!serversp) {
318             cm_GetServerList(fidp, userp, reqp, &serverspp);
319             serversp = *serverspp;
320             free_svr_list = 1;
321         }
322         for (tsrp = serversp; tsrp; tsrp=tsrp->next) {
323             if (tsrp->server == serverp)
324                 tsrp->status = offline;
325         }   
326         if (free_svr_list) {
327             cm_FreeServerList(&serversp);
328             *serverspp = serversp;
329         }
330         if ( timeLeft > 2 )
331             retry = 1;
332     }
333
334     /* RX codes */
335     else if (errorCode == RX_CALL_TIMEOUT) {
336         /* server took longer than hardDeadTime 
337          * don't mark server as down but don't retry
338          * this is to prevent the SMB session from timing out
339          * In addition, we log an event to the event log 
340          */
341 #ifndef DJGPP
342         HANDLE h;
343         char *ptbuf[1];
344         char s[100];
345         h = RegisterEventSource(NULL, AFS_DAEMON_EVENT_NAME);
346         sprintf(s, "cm_Analyze: HardDeadTime exceeded.");
347         ptbuf[0] = s;
348         ReportEvent(h, EVENTLOG_WARNING_TYPE, 0, 1009, NULL,
349                      1, 0, ptbuf, NULL);
350         DeregisterEventSource(h);
351 #endif /* !DJGPP */
352           
353         retry = 0;
354         osi_Log0(afsd_logp, "cm_Analyze: hardDeadTime exceeded");
355     }
356     else if (errorCode >= -64 && errorCode < 0) {
357         /* mark server as down */
358         lock_ObtainMutex(&serverp->mx);
359         serverp->flags |= CM_SERVERFLAG_DOWN;
360         lock_ReleaseMutex(&serverp->mx);
361         if ( timeLeft > 2 )
362             retry = 1;
363     }
364     else if (errorCode == RXKADEXPIRED) {
365         if (!dead_session) {
366             lock_ObtainMutex(&userp->mx);
367             ucellp = cm_GetUCell(userp, serverp->cellp);
368             if (ucellp->ticketp) {
369                 free(ucellp->ticketp);
370                 ucellp->ticketp = NULL;
371             }
372             ucellp->flags &= ~CM_UCELLFLAG_RXKAD;
373             ucellp->gen++;
374             lock_ReleaseMutex(&userp->mx);
375             if ( timeLeft > 2 )
376                 retry = 1;
377         }
378     } else {
379         if (errorCode)
380             osi_Log1(afsd_logp, "cm_Analyze: ignoring error code 0x%x", errorCode);
381     }
382
383     if (retry && dead_session)
384         retry = 0;
385
386   out:
387     /* drop this on the way out */
388     if (connp)
389         cm_PutConn(connp);
390
391     /* retry until we fail to find a connection */
392     return retry;
393 }
394
395 long cm_ConnByMServers(cm_serverRef_t *serversp, cm_user_t *usersp,
396         cm_req_t *reqp, cm_conn_t **connpp)
397 {
398     long code;
399     cm_serverRef_t *tsrp;
400     cm_server_t *tsp;
401     long firstError = 0;
402     int someBusy = 0, someOffline = 0, allBusy = 1, allDown = 1;
403     long timeUsed, timeLeft, hardTimeLeft;
404 #ifdef DJGPP
405     struct timeval now;
406 #endif /* DJGPP */        
407
408     *connpp = NULL;
409
410 #ifndef DJGPP
411     timeUsed = (GetCurrentTime() - reqp->startTime) / 1000;
412 #else
413     gettimeofday(&now, NULL);
414     timeUsed = sub_time(now, reqp->startTime) / 1000;
415 #endif
416         
417     /* leave 5 seconds margin of safety */
418     timeLeft =  ConnDeadtimeout - timeUsed - 5;
419     hardTimeLeft = HardDeadtimeout - timeUsed - 5;
420
421     lock_ObtainWrite(&cm_serverLock);
422     for (tsrp = serversp; tsrp; tsrp=tsrp->next) {
423         tsp = tsrp->server;
424         cm_GetServerNoLock(tsp);
425         lock_ReleaseWrite(&cm_serverLock);
426         if (!(tsp->flags & CM_SERVERFLAG_DOWN)) {
427             if (tsrp->status == busy) {
428                 allDown = 0;
429                 someBusy = 1;
430             } else if (tsrp->status == offline) {
431                 someOffline = 1;
432             } else {
433                 allDown = 0;
434                 allBusy = 0;
435                 code = cm_ConnByServer(tsp, usersp, connpp);
436                 if (code == 0) {        /* cm_CBS only returns 0 */
437                     cm_PutServer(tsp);
438                     /* Set RPC timeout */
439                     if (timeLeft > ConnDeadtimeout)
440                         timeLeft = ConnDeadtimeout;
441
442                     if (hardTimeLeft > HardDeadtimeout) 
443                         hardTimeLeft = HardDeadtimeout;
444
445                     lock_ObtainMutex(&(*connpp)->mx);
446                     rx_SetConnDeadTime((*connpp)->callp, timeLeft);
447                     rx_SetConnHardDeadTime((*connpp)->callp, (u_short) hardTimeLeft);
448                     lock_ReleaseMutex(&(*connpp)->mx);
449                     return 0;
450                 }
451                 
452                 /* therefore, this code is never executed */
453                 if (firstError == 0)
454                     firstError = code;
455             }
456         }
457         lock_ObtainWrite(&cm_serverLock);
458         cm_PutServerNoLock(tsp);
459     }   
460
461     lock_ReleaseWrite(&cm_serverLock);
462     if (firstError == 0) {
463         if (serversp == NULL)
464             firstError = CM_ERROR_NOSUCHVOLUME;
465         else if (allDown) 
466             firstError = CM_ERROR_ALLOFFLINE;
467         else if (allBusy) 
468             firstError = CM_ERROR_ALLBUSY;
469         else {
470             osi_Log0(afsd_logp, "cm_ConnByMServers returning impossible error TIMEDOUT");
471             firstError = CM_ERROR_TIMEDOUT;
472         }
473     }
474
475     osi_Log1(afsd_logp, "cm_ConnByMServers returning 0x%x", firstError);
476     return firstError;
477 }
478
479 /* called with a held server to GC all bad connections hanging off of the server */
480 void cm_GCConnections(cm_server_t *serverp)
481 {
482     cm_conn_t *tcp;
483     cm_conn_t **lcpp;
484     cm_user_t *userp;
485
486     lock_ObtainWrite(&cm_connLock);
487     lcpp = &serverp->connsp;
488     for (tcp = *lcpp; tcp; tcp = *lcpp) {
489         userp = tcp->userp;
490         if (userp && tcp->refCount == 0 && (userp->vcRefs == 0)) {
491             /* do the deletion of this guy */
492             cm_PutServer(tcp->serverp);
493             cm_ReleaseUser(userp);
494             *lcpp = tcp->nextp;
495             rx_DestroyConnection(tcp->callp);
496             lock_FinalizeMutex(&tcp->mx);
497             free(tcp);
498         }
499         else {
500             /* just advance to the next */
501             lcpp = &tcp->nextp;
502         }
503     }
504     lock_ReleaseWrite(&cm_connLock);
505 }
506
507 static void cm_NewRXConnection(cm_conn_t *tcp, cm_ucell_t *ucellp,
508                                cm_server_t *serverp)
509 {
510     unsigned short port;
511     int serviceID;
512     int secIndex;
513     struct rx_securityClass *secObjp;
514
515     if (serverp->type == CM_SERVER_VLDB) {
516         port = htons(7003);
517         serviceID = 52;
518     }
519     else {
520         osi_assert(serverp->type == CM_SERVER_FILE);
521         port = htons(7000);
522         serviceID = 1;
523     }
524     if (ucellp->flags & CM_UCELLFLAG_RXKAD) {
525         secIndex = 2;
526         if (cryptall) {
527             tcp->cryptlevel = rxkad_crypt;
528         } else {
529             tcp->cryptlevel = rxkad_clear;
530         }
531         secObjp = rxkad_NewClientSecurityObject(tcp->cryptlevel,
532                                                 &ucellp->sessionKey, ucellp->kvno,
533                                                 ucellp->ticketLen, ucellp->ticketp);    
534     } else {
535         /* normal auth */
536         secIndex = 0;
537         secObjp = rxnull_NewClientSecurityObject();
538     }
539     osi_assert(secObjp != NULL);
540     tcp->callp = rx_NewConnection(serverp->addr.sin_addr.s_addr,
541                                   port,
542                                   serviceID,
543                                   secObjp,
544                                   secIndex);
545     rx_SetConnDeadTime(tcp->callp, ConnDeadtimeout);
546     rx_SetConnHardDeadTime(tcp->callp, HardDeadtimeout);
547     tcp->ucgen = ucellp->gen;
548     if (secObjp)
549         rxs_Release(secObjp);   /* Decrement the initial refCount */
550 }
551
552 long cm_ConnByServer(cm_server_t *serverp, cm_user_t *userp, cm_conn_t **connpp)
553 {
554     cm_conn_t *tcp;
555     cm_ucell_t *ucellp;
556
557     lock_ObtainMutex(&userp->mx);
558     lock_ObtainWrite(&cm_connLock);
559     for (tcp = serverp->connsp; tcp; tcp=tcp->nextp) {
560         if (tcp->userp == userp) 
561             break;
562     }
563     
564     /* find ucell structure */
565     ucellp = cm_GetUCell(userp, serverp->cellp);
566     if (!tcp) {
567         cm_GetServer(serverp);
568         tcp = malloc(sizeof(*tcp));
569         memset(tcp, 0, sizeof(*tcp));
570         tcp->nextp = serverp->connsp;
571         serverp->connsp = tcp;
572         cm_HoldUser(userp);
573         tcp->userp = userp;
574         lock_InitializeMutex(&tcp->mx, "cm_conn_t mutex");
575         lock_ObtainMutex(&tcp->mx);
576         tcp->serverp = serverp;
577         tcp->cryptlevel = rxkad_clear;
578         cm_NewRXConnection(tcp, ucellp, serverp);
579         tcp->refCount = 1;
580         lock_ReleaseMutex(&tcp->mx);
581     } else {
582         if ((tcp->ucgen < ucellp->gen) ||
583             (tcp->cryptlevel != (cryptall ? rxkad_crypt : rxkad_clear)))
584         {
585             if (tcp->ucgen < ucellp->gen)
586                 osi_Log0(afsd_logp, "cm_ConnByServer replace connection due to token update");
587             else
588                 osi_Log0(afsd_logp, "cm_ConnByServer replace connection due to crypt change");
589             lock_ObtainMutex(&tcp->mx);
590             rx_DestroyConnection(tcp->callp);
591             cm_NewRXConnection(tcp, ucellp, serverp);
592             lock_ReleaseMutex(&tcp->mx);
593         }
594         tcp->refCount++;
595     }
596     lock_ReleaseWrite(&cm_connLock);
597     lock_ReleaseMutex(&userp->mx);
598
599     /* return this pointer to our caller */
600     osi_Log1(afsd_logp, "cm_ConnByServer returning conn 0x%x", (long) tcp);
601     *connpp = tcp;
602
603     return 0;
604 }
605
606 long cm_Conn(struct cm_fid *fidp, struct cm_user *userp, cm_req_t *reqp,
607              cm_conn_t **connpp)
608 {
609     long code;
610
611     cm_serverRef_t **serverspp;
612
613     code = cm_GetServerList(fidp, userp, reqp, &serverspp);
614     if (code) {
615         *connpp = NULL;
616         return code;
617     }
618
619     code = cm_ConnByMServers(*serverspp, userp, reqp, connpp);
620     cm_FreeServerList(serverspp);
621     return code;
622 }
623
624 extern struct rx_connection * 
625 cm_GetRxConn(cm_conn_t *connp)
626 {
627     struct rx_connection * rxconn;
628     lock_ObtainMutex(&connp->mx);
629     rxconn = connp->callp;
630     rx_GetConnection(rxconn);
631     lock_ReleaseMutex(&connp->mx);
632     return rxconn;
633 }
634