7527474824e1389883861b05fd296265a4f84ad6
[openafs.git] / src / bozo / bnode.c
1 /*
2  * Copyright 2000, International Business Machines Corporation and others.
3  * All Rights Reserved.
4  *
5  * This software has been released under the terms of the IBM Public
6  * License.  For details, see the LICENSE file in the top-level source
7  * directory or online at http://www.openafs.org/dl/license10.html
8  */
9
10 #include <afsconfig.h>
11 #include <afs/param.h>
12
13 #include <afs/procmgmt.h>
14 #include <roken.h>
15
16 #include <stddef.h>
17
18 #include <lwp.h>
19 #include <rx/rx.h>
20 #include <afs/audit.h>
21 #include <afs/afsutil.h>
22 #include <afs/fileutil.h>
23 #include <opr/queue.h>
24
25 #include "bnode.h"
26 #include "bnode_internal.h"
27 #include "bosprototypes.h"
28
29 #ifndef WCOREDUMP
30 #define WCOREDUMP(x) ((x) & 0200)
31 #endif
32
33 #define BNODE_LWP_STACKSIZE     (16 * 1024)
34 #define BNODE_ERROR_COUNT_MAX   16   /* maximum number of retries */
35 #define BNODE_ERROR_DELAY_MAX   60   /* maximum retry delay (seconds) */
36
37 int bnode_waiting = 0;
38 static PROCESS bproc_pid;       /* pid of waker-upper */
39 static struct opr_queue allBnodes;      /**< List of all bnodes */
40 static struct opr_queue allProcs;       /**< List of all processes for which we're waiting */
41 static struct opr_queue allTypes;       /**< List of all registered type handlers */
42
43 static struct bnode_stats {
44     int weirdPids;
45 } bnode_stats;
46
47 extern const char *DoCore;
48 extern const char *DoPidFiles;
49 #ifndef AFS_NT40_ENV
50 extern char **environ;          /* env structure */
51 #endif
52
53 int hdl_notifier(struct bnode_proc *tp);
54
55 /* Remember the name of the process, if any, that failed last */
56 static void
57 RememberProcName(struct bnode_proc *ap)
58 {
59     struct bnode *tbnodep;
60
61     tbnodep = ap->bnode;
62     if (tbnodep->lastErrorName) {
63         free(tbnodep->lastErrorName);
64         tbnodep->lastErrorName = NULL;
65     }
66     if (ap->coreName)
67         tbnodep->lastErrorName = strdup(ap->coreName);
68 }
69
70 /* utility for use by BOP_HASCORE functions to determine where a core file might
71  * be stored.
72  */
73 int
74 bnode_CoreName(struct bnode *abnode, char *acoreName, char *abuffer)
75 {
76     if (DoCore) {
77         strcpy(abuffer, DoCore);
78         strcat(abuffer, "/");
79         strcat(abuffer, AFSDIR_CORE_FILE);
80     } else
81         strcpy(abuffer, AFSDIR_SERVER_CORELOG_FILEPATH);
82     if (acoreName) {
83         strcat(abuffer, acoreName);
84         strcat(abuffer, ".");
85     }
86     strcat(abuffer, abnode->name);
87     return 0;
88 }
89
90 /* save core file, if any */
91 static void
92 SaveCore(struct bnode *abnode, struct bnode_proc
93          *aproc)
94 {
95     char tbuffer[256];
96     struct stat tstat;
97     afs_int32 code = 0;
98     char *corefile = NULL;
99 #ifdef BOZO_SAVE_CORES
100     struct timeval Start;
101     struct tm *TimeFields;
102     char FileName[256];
103 #endif
104
105     /* Linux always appends the PID to core dumps from threaded processes, so
106      * we have to scan the directory to find core files under another name. */
107     if (DoCore) {
108         strcpy(tbuffer, DoCore);
109         strcat(tbuffer, "/");
110         strcat(tbuffer, AFSDIR_CORE_FILE);
111     } else
112         code = stat(AFSDIR_SERVER_CORELOG_FILEPATH, &tstat);
113     if (code) {
114         DIR *logdir;
115         struct dirent *file;
116         unsigned long pid;
117         const char *coredir = AFSDIR_LOGS_DIR;
118
119         if (DoCore)
120           coredir = DoCore;
121
122         logdir = opendir(coredir);
123         if (logdir == NULL)
124             return;
125         while ((file = readdir(logdir)) != NULL) {
126             if (strncmp(file->d_name, "core.", 5) != 0)
127                 continue;
128             pid = atol(file->d_name + 5);
129             if (pid == aproc->pid) {
130                 asprintf(&corefile, "%s/%s", coredir, file->d_name);
131                 if (corefile == NULL) {
132                     closedir(logdir);
133                     return;
134                 }
135                 code = 0;
136                 break;
137             }
138         }
139         closedir(logdir);
140     } else {
141         corefile = strdup(tbuffer);
142     }
143     if (code)
144         return;
145
146     bnode_CoreName(abnode, aproc->coreName, tbuffer);
147 #ifdef BOZO_SAVE_CORES
148     FT_GetTimeOfDay(&Start, 0);
149     TimeFields = localtime(&Start.tv_sec);
150     sprintf(FileName, "%s.%d%02d%02d%02d%02d%02d", tbuffer,
151             TimeFields->tm_year + 1900, TimeFields->tm_mon + 1, TimeFields->tm_mday,
152             TimeFields->tm_hour, TimeFields->tm_min, TimeFields->tm_sec);
153     strcpy(tbuffer, FileName);
154 #endif
155     rk_rename(corefile, tbuffer);
156     free(corefile);
157 }
158
159 int
160 bnode_GetString(struct bnode *abnode, char *abuffer,
161                 afs_int32 alen)
162 {
163     return BOP_GETSTRING(abnode, abuffer, alen);
164 }
165
166 int
167 bnode_GetParm(struct bnode *abnode, afs_int32 aindex,
168               char *abuffer, afs_int32 alen)
169 {
170     return BOP_GETPARM(abnode, aindex, abuffer, alen);
171 }
172
173 int
174 bnode_GetStat(struct bnode *abnode, afs_int32 * astatus)
175 {
176     return BOP_GETSTAT(abnode, astatus);
177 }
178
179 int
180 bnode_RestartP(struct bnode *abnode)
181 {
182     return BOP_RESTARTP(abnode);
183 }
184
185 static int
186 bnode_Check(struct bnode *abnode)
187 {
188     if (abnode->flags & BNODE_WAIT) {
189         abnode->flags &= ~BNODE_WAIT;
190         LWP_NoYieldSignal(abnode);
191     }
192     return 0;
193 }
194
195 /* tell if an instance has a core file */
196 int
197 bnode_HasCore(struct bnode *abnode)
198 {
199     return BOP_HASCORE(abnode);
200 }
201
202 /* wait for all bnodes to stabilize */
203 int
204 bnode_WaitAll(void)
205 {
206     struct opr_queue *cursor;
207     afs_int32 code;
208     afs_int32 stat;
209
210   retry:
211     for (opr_queue_Scan(&allBnodes, cursor)) {
212         struct bnode *tb = opr_queue_Entry(cursor, struct bnode, q);
213
214         bnode_Hold(tb);
215         code = BOP_GETSTAT(tb, &stat);
216         if (code) {
217             bnode_Release(tb);
218             return code;
219         }
220         if (stat != tb->goal) {
221             tb->flags |= BNODE_WAIT;
222             LWP_WaitProcess(tb);
223             bnode_Release(tb);
224             goto retry;
225         }
226         bnode_Release(tb);
227     }
228     return 0;
229 }
230
231 /* wait until bnode status is correct */
232 int
233 bnode_WaitStatus(struct bnode *abnode, int astatus)
234 {
235     afs_int32 code;
236     afs_int32 stat;
237
238     bnode_Hold(abnode);
239     while (1) {
240         /* get the status */
241         code = BOP_GETSTAT(abnode, &stat);
242         if (code)
243             return code;
244
245         /* otherwise, check if we're done */
246         if (stat == astatus) {
247             bnode_Release(abnode);
248             return 0;           /* done */
249         }
250         if (astatus != abnode->goal) {
251             bnode_Release(abnode);
252             return -1;          /* no longer our goal, don't keep waiting */
253         }
254         /* otherwise, block */
255         abnode->flags |= BNODE_WAIT;
256         LWP_WaitProcess(abnode);
257     }
258 }
259
260 int
261 bnode_ResetErrorCount(struct bnode *abnode)
262 {
263     abnode->errorStopCount = 0;
264     abnode->errorStopDelay = 0;
265     return 0;
266 }
267
268 int
269 bnode_SetStat(struct bnode *abnode, int agoal)
270 {
271     abnode->goal = agoal;
272     bnode_Check(abnode);
273     BOP_SETSTAT(abnode, agoal);
274     abnode->flags &= ~BNODE_ERRORSTOP;
275     return 0;
276 }
277
278 int
279 bnode_SetGoal(struct bnode *abnode, int agoal)
280 {
281     abnode->goal = agoal;
282     bnode_Check(abnode);
283     return 0;
284 }
285
286 int
287 bnode_SetFileGoal(struct bnode *abnode, int agoal)
288 {
289     if (abnode->fileGoal == agoal)
290         return 0;               /* already done */
291     abnode->fileGoal = agoal;
292     WriteBozoFile(0);
293     return 0;
294 }
295
296 /* apply a function to all bnodes in the system */
297 int
298 bnode_ApplyInstance(int (*aproc) (struct bnode *tb, void *), void *arock)
299 {
300     struct opr_queue *cursor, *store;
301     afs_int32 code;
302
303     for (opr_queue_ScanSafe(&allBnodes, cursor, store)) {
304         struct bnode *tb = opr_queue_Entry(cursor, struct bnode, q);
305         code = (*aproc) (tb, arock);
306         if (code)
307             return code;
308     }
309     return 0;
310 }
311
312 struct bnode *
313 bnode_FindInstance(char *aname)
314 {
315     struct opr_queue *cursor;
316
317     for (opr_queue_Scan(&allBnodes, cursor)) {
318         struct bnode *tb = opr_queue_Entry(cursor, struct bnode, q);
319
320         if (!strcmp(tb->name, aname))
321             return tb;
322     }
323     return NULL;
324 }
325
326 static struct bnode_type *
327 FindType(char *aname)
328 {
329     struct opr_queue *cursor;
330
331     for (opr_queue_Scan(&allTypes, cursor)) {
332         struct bnode_type *tt = opr_queue_Entry(cursor, struct bnode_type, q);
333
334         if (!strcmp(tt->name, aname))
335             return tt;
336     }
337     return NULL;
338 }
339
340 int
341 bnode_Register(char *atype, struct bnode_ops *aprocs, int anparms)
342 {
343     struct opr_queue *cursor;
344     struct bnode_type *tt = NULL;
345
346     for (opr_queue_Scan(&allTypes, cursor), tt = NULL) {
347         tt = opr_queue_Entry(cursor, struct bnode_type, q);
348         if (!strcmp(tt->name, atype))
349             break;
350     }
351     if (!tt) {
352         tt = calloc(1, sizeof(struct bnode_type));
353         opr_queue_Init(&tt->q);
354         opr_queue_Prepend(&allTypes, &tt->q);
355         tt->name = atype;
356     }
357     tt->ops = aprocs;
358     return 0;
359 }
360
361 afs_int32
362 bnode_Create(char *atype, char *ainstance, struct bnode ** abp, char *ap1,
363              char *ap2, char *ap3, char *ap4, char *ap5, char *notifier,
364              int fileGoal, int rewritefile)
365 {
366     struct bnode_type *type;
367     struct bnode *tb;
368     char *notifierpath = NULL;
369     struct stat tstat;
370
371     if (bnode_FindInstance(ainstance))
372         return BZEXISTS;
373     type = FindType(atype);
374     if (!type)
375         return BZBADTYPE;
376
377     if (notifier && strcmp(notifier, NONOTIFIER)) {
378         /* construct local path from canonical (wire-format) path */
379         if (ConstructLocalBinPath(notifier, &notifierpath)) {
380             bozo_Log("BNODE-Create: Notifier program path invalid '%s'\n",
381                      notifier);
382             return BZNOCREATE;
383         }
384
385         if (stat(notifierpath, &tstat)) {
386             bozo_Log("BNODE-Create: Notifier program '%s' not found\n",
387                      notifierpath);
388             free(notifierpath);
389             return BZNOCREATE;
390         }
391     }
392     tb = (*type->ops->create) (ainstance, ap1, ap2, ap3, ap4, ap5);
393     if (!tb) {
394         free(notifierpath);
395         return BZNOCREATE;
396     }
397     tb->notifier = notifierpath;
398     *abp = tb;
399     tb->type = type;
400
401     /* The fs_create above calls bnode_InitBnode() which always sets the
402      ** fileGoal to BSTAT_NORMAL .... overwrite it with whatever is passed into
403      ** this function as a parameter... */
404     tb->fileGoal = fileGoal;
405
406     bnode_SetStat(tb, tb->goal);        /* nudge it once */
407
408     if (rewritefile != 0)
409         WriteBozoFile(0);
410
411     return 0;
412 }
413
414 int
415 bnode_DeleteName(char *ainstance)
416 {
417     struct bnode *tb;
418
419     tb = bnode_FindInstance(ainstance);
420     if (!tb)
421         return BZNOENT;
422
423     return bnode_Delete(tb);
424 }
425
426 int
427 bnode_Hold(struct bnode *abnode)
428 {
429     abnode->refCount++;
430     return 0;
431 }
432
433 int
434 bnode_Release(struct bnode *abnode)
435 {
436     abnode->refCount--;
437     if (abnode->refCount == 0 && abnode->flags & BNODE_DELETE) {
438         abnode->flags &= ~BNODE_DELETE; /* we're going for it */
439         bnode_Delete(abnode);
440     }
441     return 0;
442 }
443
444 int
445 bnode_Delete(struct bnode *abnode)
446 {
447     afs_int32 code;
448     afs_int32 temp;
449
450     if (abnode->refCount != 0) {
451         abnode->flags |= BNODE_DELETE;
452         return 0;
453     }
454
455     /* make sure the bnode is idle before zapping */
456     bnode_Hold(abnode);
457     code = BOP_GETSTAT(abnode, &temp);
458     bnode_Release(abnode);
459     if (code)
460         return code;
461     if (temp != BSTAT_SHUTDOWN)
462         return BZBUSY;
463
464     /* all clear to zap */
465     opr_queue_Remove(&abnode->q);
466     free(abnode->name);         /* do this first, since bnode fields may be bad after BOP_DELETE */
467     code = BOP_DELETE(abnode);  /* don't play games like holding over this one */
468     WriteBozoFile(0);
469     return code;
470 }
471
472 /* function to tell if there's a timeout coming up */
473 int
474 bnode_PendingTimeout(struct bnode *abnode)
475 {
476     return (abnode->flags & BNODE_NEEDTIMEOUT);
477 }
478
479 /* function called to set / clear periodic bnode wakeup times */
480 int
481 bnode_SetTimeout(struct bnode *abnode, afs_int32 atimeout)
482 {
483     if (atimeout != 0) {
484         abnode->nextTimeout = FT_ApproxTime() + atimeout;
485         abnode->flags |= BNODE_NEEDTIMEOUT;
486         abnode->period = atimeout;
487         IOMGR_Cancel(bproc_pid);
488     } else {
489         abnode->flags &= ~BNODE_NEEDTIMEOUT;
490     }
491     return 0;
492 }
493
494 /* used by new bnode creation code to format bnode header */
495 int
496 bnode_InitBnode(struct bnode *abnode, struct bnode_ops *abnodeops,
497                 char *aname)
498 {
499     /* format the bnode properly */
500     memset(abnode, 0, sizeof(struct bnode));
501     opr_queue_Init(&abnode->q);
502     abnode->ops = abnodeops;
503     abnode->name = strdup(aname);
504     if (!abnode->name)
505         return ENOMEM;
506     abnode->flags = BNODE_ACTIVE;
507     abnode->fileGoal = BSTAT_NORMAL;
508     abnode->goal = BSTAT_SHUTDOWN;
509
510     /* put the bnode at the end of the list so we write bnode file in same order */
511     opr_queue_Append(&allBnodes, &abnode->q);
512
513     return 0;
514 }
515
516 /* bnode lwp executes this code repeatedly */
517 static void *
518 bproc(void *unused)
519 {
520     afs_int32 code;
521     struct bnode *tb;
522     afs_int32 temp;
523     struct opr_queue *cursor, *store;
524     struct bnode_proc *tp;
525     int options;                /* must not be register */
526     struct timeval tv;
527     int setAny;
528     int status;
529
530     while (1) {
531         /* first figure out how long to sleep for */
532         temp = 0x7fffffff;      /* afs_int32 time; maxint doesn't work in select */
533         setAny = 0;
534         for (opr_queue_Scan(&allBnodes, cursor)) {
535             tb = opr_queue_Entry(cursor, struct bnode, q);
536             if (tb->flags & BNODE_NEEDTIMEOUT) {
537                 if (tb->nextTimeout < temp) {
538                     setAny = 1;
539                     temp = tb->nextTimeout;
540                 }
541             }
542         }
543         /* now temp has the time at which we should wakeup next */
544
545         /* sleep */
546         if (setAny)
547             temp -= FT_ApproxTime();    /* how many seconds until next event */
548         else
549             temp = 999999;
550         if (temp > 0) {
551             tv.tv_sec = temp;
552             tv.tv_usec = 0;
553             code = IOMGR_Select(0, 0, 0, 0, &tv);
554         } else
555             code = 0;           /* fake timeout code */
556
557         /* figure out why we woke up; child exit or timeouts */
558         FT_GetTimeOfDay(&tv, 0);        /* must do the real gettimeofday once and a while */
559         temp = tv.tv_sec;
560
561         /* check all bnodes to see which ones need timeout events */
562         for (opr_queue_ScanSafe(&allBnodes, cursor, store)) {
563             tb = opr_queue_Entry(cursor, struct bnode, q);
564             if ((tb->flags & BNODE_NEEDTIMEOUT) && temp > tb->nextTimeout) {
565                 bnode_Hold(tb);
566                 BOP_TIMEOUT(tb);
567                 bnode_Check(tb);
568                 if (tb->flags & BNODE_NEEDTIMEOUT) {    /* check again, BOP_TIMEOUT could change */
569                     tb->nextTimeout = FT_ApproxTime() + tb->period;
570                 }
571                 bnode_Release(tb);      /* delete may occur here */
572             }
573         }
574
575         if (code < 0) {
576             /* signalled, probably by incoming signal */
577             while (1) {
578                 options = WNOHANG;
579                 bnode_waiting = options | 0x800000;
580                 code = waitpid((pid_t) - 1, &status, options);
581                 bnode_waiting = 0;
582                 if (code == 0 || code == -1)
583                     break;      /* all done */
584                 /* otherwise code has a process id, which we now search for */
585                 for (tp = NULL, opr_queue_Scan(&allProcs, cursor), tp = NULL) {
586                     tp = opr_queue_Entry(cursor, struct bnode_proc, q);
587
588                     if (tp->pid == code)
589                         break;
590                 }
591                 if (tp) {
592                     /* found the pid */
593                     tb = tp->bnode;
594                     bnode_Hold(tb);
595
596                     /* count restarts in last 30 seconds */
597                     if (temp > tb->rsTime + 30) {
598                         /* it's been 30 seconds we've been counting */
599                         tb->rsTime = temp;
600                         tb->rsCount = 0;
601                     }
602
603
604                     if (WIFSIGNALED(status) == 0) {
605                         /* exited, not signalled */
606                         tp->lastExit = WEXITSTATUS(status);
607                         tp->lastSignal = 0;
608                         if (tp->lastExit) {
609                             tb->errorCode = tp->lastExit;
610                             tb->lastErrorExit = FT_ApproxTime();
611                             RememberProcName(tp);
612                             tb->errorSignal = 0;
613                         }
614                         if (tp->coreName)
615                             bozo_Log("%s:%s exited with code %d\n", tb->name,
616                                      tp->coreName, tp->lastExit);
617                         else
618                             bozo_Log("%s exited with code %d\n", tb->name,
619                                      tp->lastExit);
620                     } else {
621                         /* Signal occurred, perhaps spurious due to shutdown request.
622                          * If due to a shutdown request, don't overwrite last error
623                          * information.
624                          */
625                         tp->lastSignal = WTERMSIG(status);
626                         tp->lastExit = 0;
627                         if (tp->lastSignal != SIGQUIT
628                             && tp->lastSignal != SIGTERM
629                             && tp->lastSignal != SIGKILL) {
630                             tb->errorSignal = tp->lastSignal;
631                             tb->lastErrorExit = FT_ApproxTime();
632                             RememberProcName(tp);
633                         }
634                         if (tp->coreName)
635                             bozo_Log("%s:%s exited on signal %d%s\n",
636                                      tb->name, tp->coreName, tp->lastSignal,
637                                      WCOREDUMP(status) ? " (core dumped)" :
638                                      "");
639                         else
640                             bozo_Log("%s exited on signal %d%s\n", tb->name,
641                                      tp->lastSignal,
642                                      WCOREDUMP(status) ? " (core dumped)" :
643                                      "");
644                         SaveCore(tb, tp);
645                     }
646                     tb->lastAnyExit = FT_ApproxTime();
647
648                     if (tb->notifier) {
649                         bozo_Log("BNODE: Notifier %s will be called\n",
650                                  tb->notifier);
651                         hdl_notifier(tp);
652                     }
653
654                     if (tb->goal && tb->rsCount++ > 10) {
655                         /* 10 in 30 seconds */
656                         if (tb->errorStopCount >= BNODE_ERROR_COUNT_MAX) {
657                             tb->errorStopDelay = 0;     /* max reached, give up. */
658                         } else {
659                             tb->errorStopCount++;
660                             if (!tb->errorStopDelay) {
661                                 tb->errorStopDelay = 1;   /* wait a second, then retry */
662                             } else {
663                                 tb->errorStopDelay *= 2;  /* ramp up the retry delays */
664                             }
665                             if (tb->errorStopDelay > BNODE_ERROR_DELAY_MAX) {
666                                 tb->errorStopDelay = BNODE_ERROR_DELAY_MAX; /* cap the delay */
667                             }
668                         }
669                         tb->flags |= BNODE_ERRORSTOP;
670                         bnode_SetGoal(tb, BSTAT_SHUTDOWN);
671                         bozo_Log
672                             ("BNODE '%s' repeatedly failed to start, perhaps missing executable.\n",
673                              tb->name);
674                     }
675                     BOP_PROCEXIT(tb, tp);
676                     bnode_Check(tb);
677                     bnode_Release(tb);  /* bnode delete can happen here */
678                     opr_queue_Remove(&tp->q);
679                     free(tp);
680                 } else
681                     bnode_stats.weirdPids++;
682             }
683         }
684     }
685     return NULL;
686 }
687
688 static afs_int32
689 SendNotifierData(int fd, struct bnode_proc *tp)
690 {
691     struct bnode *tb = tp->bnode;
692     char buffer[1000], *bufp = buffer, *buf1;
693     int len;
694
695     /*
696      * First sent out the bnode_proc struct
697      */
698     (void)sprintf(bufp, "BEGIN bnode_proc\n");
699     bufp += strlen(bufp);
700     (void)sprintf(bufp, "comLine: %s\n", tp->comLine);
701     bufp += strlen(bufp);
702     if (!(buf1 = tp->coreName))
703         buf1 = "(null)";
704     (void)sprintf(bufp, "coreName: %s\n", buf1);
705     bufp += strlen(bufp);
706     (void)sprintf(bufp, "pid: %ld\n", afs_printable_int32_ld(tp->pid));
707     bufp += strlen(bufp);
708     (void)sprintf(bufp, "lastExit: %ld\n", afs_printable_int32_ld(tp->lastExit));
709     bufp += strlen(bufp);
710 #ifdef notdef
711     (void)sprintf(bufp, "lastSignal: %ld\n", afs_printable_int32_ld(tp->lastSignal));
712     bufp += strlen(bufp);
713 #endif
714     (void)sprintf(bufp, "flags: %ld\n", afs_printable_int32_ld(tp->flags));
715     bufp += strlen(bufp);
716     (void)sprintf(bufp, "END bnode_proc\n");
717     bufp += strlen(bufp);
718     len = (int)(bufp - buffer);
719     if (write(fd, buffer, len) < 0) {
720         return -1;
721     }
722
723     /*
724      * Now sent out the bnode struct
725      */
726     bufp = buffer;
727     (void)sprintf(bufp, "BEGIN bnode\n");
728     bufp += strlen(bufp);
729     (void)sprintf(bufp, "name: %s\n", tb->name);
730     bufp += strlen(bufp);
731     (void)sprintf(bufp, "rsTime: %ld\n", afs_printable_int32_ld(tb->rsTime));
732     bufp += strlen(bufp);
733     (void)sprintf(bufp, "rsCount: %ld\n", afs_printable_int32_ld(tb->rsCount));
734     bufp += strlen(bufp);
735     (void)sprintf(bufp, "procStartTime: %ld\n", afs_printable_int32_ld(tb->procStartTime));
736     bufp += strlen(bufp);
737     (void)sprintf(bufp, "procStarts: %ld\n", afs_printable_int32_ld(tb->procStarts));
738     bufp += strlen(bufp);
739     (void)sprintf(bufp, "lastAnyExit: %ld\n", afs_printable_int32_ld(tb->lastAnyExit));
740     bufp += strlen(bufp);
741     (void)sprintf(bufp, "lastErrorExit: %ld\n", afs_printable_int32_ld(tb->lastErrorExit));
742     bufp += strlen(bufp);
743     (void)sprintf(bufp, "errorCode: %ld\n", afs_printable_int32_ld(tb->errorCode));
744     bufp += strlen(bufp);
745     (void)sprintf(bufp, "errorSignal: %ld\n", afs_printable_int32_ld(tb->errorSignal));
746     bufp += strlen(bufp);
747 /*
748     (void) sprintf(bufp, "lastErrorName: %s\n", tb->lastErrorName);
749     bufp += strlen(bufp);
750 */
751     (void)sprintf(bufp, "goal: %d\n", tb->goal);
752     bufp += strlen(bufp);
753     (void)sprintf(bufp, "END bnode\n");
754     bufp += strlen(bufp);
755     len = (int)(bufp - buffer);
756     if (write(fd, buffer, len) < 0) {
757         return -1;
758     }
759     return 0;
760 }
761
762 int
763 hdl_notifier(struct bnode_proc *tp)
764 {
765 #ifndef AFS_NT40_ENV            /* NT notifier callout not yet implemented */
766     int pid;
767     struct stat tstat;
768
769     if (stat(tp->bnode->notifier, &tstat)) {
770         bozo_Log("BNODE: Failed to find notifier '%s'; ignored\n",
771                  tp->bnode->notifier);
772         return (1);
773     }
774     if ((pid = fork()) == 0) {
775         FILE *fout;
776         struct bnode *tb = tp->bnode;
777
778 #if defined(AFS_HPUX_ENV) || defined(AFS_SUN5_ENV) || defined(AFS_SGI51_ENV)
779         setsid();
780 #elif defined(AFS_DARWIN90_ENV)
781         setpgid(0, 0);
782 #elif defined(AFS_LINUX20_ENV) || defined(AFS_AIX_ENV)
783         setpgrp();
784 #else
785         setpgrp(0, 0);
786 #endif
787         fout = popen(tb->notifier, "w");
788         if (fout == NULL) {
789             bozo_Log("BNODE: Failed to find notifier '%s'; ignored\n",
790                      tb->notifier);
791             perror(tb->notifier);
792             exit(1);
793         }
794         SendNotifierData(fileno(fout), tp);
795         pclose(fout);
796         exit(0);
797     } else if (pid < 0) {
798         bozo_Log("Failed to fork creating process to handle notifier '%s'\n",
799                  tp->bnode->notifier);
800         return -1;
801     }
802 #endif /* AFS_NT40_ENV */
803     return (0);
804 }
805
806 /* Called by IOMGR at low priority on IOMGR's stack shortly after a SIGCHLD
807  * occurs.  Wakes up bproc do redo things */
808 void *
809 bnode_SoftInt(void *param)
810 {
811     /* int asignal = (int) param; */
812
813     IOMGR_Cancel(bproc_pid);
814     return 0;
815 }
816
817 /* Called at signal interrupt level; queues function to be called
818  * when IOMGR runs again.
819  */
820 void
821 bnode_Int(int asignal)
822 {
823     if (asignal == SIGQUIT || asignal == SIGTERM) {
824         IOMGR_SoftSig(bozo_ShutdownAndExit, (void *)(intptr_t)asignal);
825     } else {
826         IOMGR_SoftSig(bnode_SoftInt, (void *)(intptr_t)asignal);
827     }
828 }
829
830
831 /* intialize the whole system */
832 int
833 bnode_Init(void)
834 {
835     PROCESS junk;
836     afs_int32 code;
837     struct sigaction newaction;
838     static int initDone = 0;
839
840     if (initDone)
841         return 0;
842     initDone = 1;
843     opr_queue_Init(&allTypes);
844     opr_queue_Init(&allProcs);
845     opr_queue_Init(&allBnodes);
846     memset(&bnode_stats, 0, sizeof(bnode_stats));
847     LWP_InitializeProcessSupport(1, &junk);     /* just in case */
848     IOMGR_Initialize();
849     code = LWP_CreateProcess(bproc, BNODE_LWP_STACKSIZE,
850                              /* priority */ 1, (void *) /* parm */ 0,
851                              "bnode-manager", &bproc_pid);
852     if (code)
853         return code;
854     memset(&newaction, 0, sizeof(newaction));
855     newaction.sa_handler = bnode_Int;
856     code = sigaction(SIGCHLD, &newaction, NULL);
857     if (code)
858         return errno;
859     code = sigaction(SIGQUIT, &newaction, NULL);
860     if (code)
861         return errno;
862     code = sigaction(SIGTERM, &newaction, NULL);
863     if (code)
864         return errno;
865     return code;
866 }
867
868 /* free token list returned by parseLine */
869 int
870 bnode_FreeTokens(struct bnode_token *alist)
871 {
872     struct bnode_token *nlist;
873     for (; alist; alist = nlist) {
874         nlist = alist->next;
875         free(alist->key);
876         free(alist);
877     }
878     return 0;
879 }
880
881 static int
882 space(int x)
883 {
884     if (x == 0 || x == ' ' || x == '\t' || x == '\n')
885         return 1;
886     else
887         return 0;
888 }
889
890 int
891 bnode_ParseLine(char *aline, struct bnode_token **alist)
892 {
893     char tbuffer[256];
894     char *tptr = NULL;
895     int inToken;
896     struct bnode_token *first, *last;
897     struct bnode_token *ttok;
898     int tc;
899
900     inToken = 0;                /* not copying token chars at start */
901     first = (struct bnode_token *)0;
902     last = (struct bnode_token *)0;
903     while (1) {
904         tc = *aline++;
905         if (tc == 0 || space(tc)) {     /* terminating null gets us in here, too */
906             if (inToken) {
907                 inToken = 0;    /* end of this token */
908                 *tptr++ = 0;
909                 ttok = malloc(sizeof(struct bnode_token));
910                 ttok->next = (struct bnode_token *)0;
911                 ttok->key = strdup(tbuffer);
912                 if (last) {
913                     last->next = ttok;
914                     last = ttok;
915                 } else
916                     last = ttok;
917                 if (!first)
918                     first = ttok;
919             }
920         } else {
921             /* an alpha character */
922             if (!inToken) {
923                 tptr = tbuffer;
924                 inToken = 1;
925             }
926             if (tptr - tbuffer >= sizeof(tbuffer))
927                 return -1;      /* token too long */
928             *tptr++ = tc;
929         }
930         if (tc == 0) {
931             /* last token flushed 'cause space(0) --> true */
932             if (last)
933                 last->next = (struct bnode_token *)0;
934             *alist = first;
935             return 0;
936         }
937     }
938 }
939
940 #define MAXVARGS            128
941 int
942 bnode_NewProc(struct bnode *abnode, char *aexecString, char *coreName,
943               struct bnode_proc **aproc)
944 {
945     struct bnode_token *tlist, *tt;
946     afs_int32 code;
947     struct bnode_proc *tp;
948     pid_t cpid;
949     char *argv[MAXVARGS];
950     int i;
951
952     code = bnode_ParseLine(aexecString, &tlist);        /* try parsing first */
953     if (code)
954         return code;
955     tp = calloc(1, sizeof(struct bnode_proc));
956     opr_queue_Init(&tp->q);
957     tp->bnode = abnode;
958     tp->comLine = aexecString;
959     tp->coreName = coreName;    /* may be null */
960     abnode->procStartTime = FT_ApproxTime();
961     abnode->procStarts++;
962
963     /* convert linked list of tokens into argv structure */
964     for (tt = tlist, i = 0; i < (MAXVARGS - 1) && tt; tt = tt->next, i++) {
965         argv[i] = tt->key;
966     }
967     argv[i] = NULL;             /* null-terminated */
968
969     cpid = spawnprocve(argv[0], argv, environ, -1);
970     osi_audit(BOSSpawnProcEvent, 0, AUD_STR, aexecString, AUD_END);
971
972     if (cpid == (pid_t) - 1) {
973         bozo_Log("Failed to spawn process for bnode '%s'\n", abnode->name);
974         bnode_FreeTokens(tlist);
975         free(tp);
976         return errno;
977     }
978     bozo_Log("%s started pid %ld: %s\n", abnode->name, cpid, aexecString);
979
980     bnode_FreeTokens(tlist);
981     opr_queue_Prepend(&allProcs, &tp->q);
982     *aproc = tp;
983     tp->pid = cpid;
984     tp->flags = BPROC_STARTED;
985     tp->flags &= ~BPROC_EXITED;
986     BOP_PROCSTARTED(abnode, tp);
987     bnode_Check(abnode);
988     return 0;
989 }
990
991 int
992 bnode_StopProc(struct bnode_proc *aproc, int asignal)
993 {
994     int code;
995     if (!(aproc->flags & BPROC_STARTED) || (aproc->flags & BPROC_EXITED))
996         return BZNOTACTIVE;
997
998     osi_audit(BOSStopProcEvent, 0, AUD_STR, (aproc ? aproc->comLine : NULL),
999               AUD_END);
1000
1001     code = kill(aproc->pid, asignal);
1002     bnode_Check(aproc->bnode);
1003     return code;
1004 }
1005
1006 #if 0
1007 int
1008 bnode_Deactivate(struct bnode *abnode)
1009 {
1010     struct opr_queue *cursor;
1011     if (!(abnode->flags & BNODE_ACTIVE))
1012         return BZNOTACTIVE;
1013
1014     if (opr_queue_IsOnQueue(&abnode->q)) {
1015         tb->flags &= ~BNODE_ACTIVE;
1016         return 0;
1017     }
1018     return BZNOENT;
1019 }
1020 #endif