vos status: report human-readable last*Time
[openafs.git] / doc / man-pages / pod8 / fileserver.pod
1 =head1 NAME
2
3 fileserver - Initializes the File Server component of the fs process
4
5 =head1 SYNOPSIS
6
7 =for html
8 <div class="synopsis">
9
10 B<fileserver> S<<< [B<-auditlog> <I<path to log file>>] >>>
11     S<<< [B<-audit-interface> (file | sysvmq)] >>>
12     S<<< [B<-d> <I<debug level>>] >>>
13     S<<< [B<-p> <I<number of processes>>] >>>
14     S<<< [B<-spare> <I<number of spare blocks>>] >>>
15     S<<< [B<-pctspare> <I<percentage spare>>] >>>
16     S<<< [B<-b> <I<buffers>>] >>>
17     S<<< [B<-l> <I<large vnodes>>] >>>
18     S<<< [B<-s> <I<small vnodes>>] >>>
19     S<<< [B<-vc> <I<volume cachesize>>] >>>
20     S<<< [B<-w> <I<call back wait interval>>] >>>
21     S<<< [B<-cb> <I<number of call backs>>] >>>
22     S<<< [B<-banner>] >>>
23     S<<< [B<-novbc>] >>>
24     S<<< [B<-implicit> <I<admin mode bits: rlidwka>>] >>>
25     S<<< [B<-readonly>] >>>
26     S<<< [B<-hr> <I<number of hours between refreshing the host cps>>] >>>
27     S<<< [B<-busyat> <I<< redirect clients when queue > n >>>] >>>
28     S<<< [B<-nobusy>] >>>
29     S<<< [B<-rxpck> <I<number of rx extra packets>>] >>>
30     S<<< [B<-rxdbg>] >>>
31     S<<< [B<-rxdbge>] >>>
32     S<<< [B<-rxmaxmtu> <I<bytes>>] >>>
33     S<<< [B<-nojumbo> >>>
34     S<<< [B<-jumbo> >>>
35     S<<< [B<-rxbind> >>>
36     S<<< [B<-allow-dotted-principals>] >>>
37     S<<< [B<-L>] >>>
38     S<<< [B<-S>] >>>
39     S<<< [B<-k> <I<stack size>>] >>>
40     S<<< [B<-realm> <I<Kerberos realm name>>] >>>
41     S<<< [B<-udpsize> <I<size of socket buffer in bytes>>] >>>
42     S<<< [B<-sendsize> <I<size of send buffer in bytes>>] >>>
43     S<<< [B<-abortthreshold> <I<abort threshold>>] >>>
44     S<<< [B<-enable_peer_stats>] >>>
45     S<<< [B<-enable_process_stats>] >>>
46     S<<< [B<-syslog> [<I< loglevel >>]] >>>
47     S<<< [B<-mrafslogs>] >>>
48     S<<< [B<-saneacls>] >>>
49     S<<< [B<-help>] >>>
50     S<<< [B<-fs-state-dont-save>] >>>
51     S<<< [B<-fs-state-dont-restore>] >>>
52     S<<< [B<-fs-state-verify>] (none | save | restore | both)] >>>
53     S<<< [B<-vhandle-setaside> <I<fds reserved for non-cache io>>] >>>
54     S<<< [B<-vhandle-max-cachesize> <I<max open files>>] >>>
55     S<<< [B<-vhandle-initial-cachesize> <I<fds reserved for non-cache io>>] >>>
56     S<<< [B<-vhashsize> <I<log(2) of number of volume hash buckets>>] >>>
57     S<<< [B<-vlrudisable>] >>>
58     S<<< [B<-vlruthresh> <I<minutes before eligibility for soft detach>>] >>>
59     S<<< [B<-vlruinterval> <I<seconds between VLRU scans>>] >>>
60     S<<< [B<-vlrumax> <I<max volumes to soft detach in one VLRU scan>>] >>>
61     S<<< [B<-unsafe-nosalvage>] >>>
62     S<<< [B<-vattachpar> <I<number of volume attach threads>>] >>>
63     S<<< [B<-m> <I<min percentage spare in partition>>] >>>
64     S<<< [B<-lock>] >>>
65
66 =for html
67 </div>
68
69 =head1 DESCRIPTION
70
71 The B<fileserver> command initializes the File Server component of the
72 C<fs> process. In the conventional configuration, its binary file is
73 located in the F</usr/afs/bin> directory on a file server machine.
74
75 The B<fileserver> command is not normally issued at the command shell
76 prompt, but rather placed into a database server machine's
77 F</usr/afs/local/BosConfig> file with the B<bos create> command. If it is
78 ever issued at the command shell prompt, the issuer must be logged onto a
79 file server machine as the local superuser C<root>.
80
81 The File Server creates the F</usr/afs/logs/FileLog> log file as it
82 initializes, if the file does not already exist. It does not write a
83 detailed trace by default, but the B<-d> option may be used to
84 increase the amount of detail. Use the B<bos getlog> command to
85 display the contents of the log file.
86
87 The command's arguments enable the administrator to control many aspects
88 of the File Server's performance, as detailed in L<OPTIONS>.  By default
89 the B<fileserver> command sets values for many arguments that are suitable
90 for a medium-sized file server machine. To set values suitable for a small
91 or large file server machine, use the B<-S> or B<-L> flag
92 respectively. The following list describes the parameters and
93 corresponding argument for which the B<fileserver> command sets default
94 values, and the table below summarizes the setting for each of the three
95 machine sizes.
96
97 =over 4
98
99 =item *
100
101 The maximum number of lightweight processes (LWPs) or pthreads 
102 the File Server uses to handle requests for data; corresponds to the 
103 B<-p> argument. The File Server always uses a minimum of 32 KB of 
104 memory for these processes.
105
106 =item *
107
108 The maximum number of directory blocks the File Server caches in memory;
109 corresponds to the B<-b> argument. Each cached directory block (buffer)
110 consumes 2,092 bytes of memory.
111
112 =item *
113
114 The maximum number of large vnodes the File Server caches in memory for
115 tracking directory elements; corresponds to the B<-l> argument. Each large
116 vnode consumes 292 bytes of memory.
117
118 =item *
119
120 The maximum number of small vnodes the File Server caches in memory for
121 tracking file elements; corresponds to the B<-s> argument.  Each small
122 vnode consumes 100 bytes of memory.
123
124 =item *
125
126 The maximum volume cache size, which determines how many volumes the File
127 Server can cache in memory before having to retrieve data from disk;
128 corresponds to the B<-vc> argument.
129
130 =item *
131
132 The maximum number of callback structures the File Server caches in
133 memory; corresponds to the B<-cb> argument. Each callback structure
134 consumes 16 bytes of memory.
135
136 =item *
137
138 The maximum number of Rx packets the File Server uses; corresponds to the
139 B<-rxpck> argument. Each packet consumes 1544 bytes of memory.
140
141 =back
142
143 The default values are:
144
145   Parameter (Argument)               Small (-S)     Medium   Large (-L)
146   ---------------------------------------------------------------------
147   Number of LWPs (-p)                        6           9          128
148   Number of cached dir blocks (-b)          70          90          120
149   Number of cached large vnodes (-l)       200         400          600
150   Number of cached small vnodes (-s)       200         400          600
151   Maximum volume cache size (-vc)          200         400          600
152   Number of callbacks (-cb)             20,000      60,000       64,000
153   Number of Rx packets (-rxpck)            100         150          200
154
155 To override any of the values, provide the indicated argument (which can
156 be combined with the B<-S> or B<-L> flag).
157
158 The amount of memory required for the File Server varies. The approximate
159 default memory usage is 751 KB when the B<-S> flag is used (small
160 configuration), 1.1 MB when all defaults are used (medium configuration),
161 and 1.4 MB when the B<-L> flag is used (large configuration). If
162 additional memory is available, increasing the value of the B<-cb> and
163 B<-vc> arguments can improve File Server performance most directly.
164
165 By default, the File Server allows a volume to exceed its quota by 1 MB
166 when an application is writing data to an existing file in a volume that
167 is full. The File Server still does not allow users to create new files in
168 a full volume. To change the default, use one of the following arguments:
169
170 =over 4
171
172 =item *
173
174 Set the B<-spare> argument to the number of extra kilobytes that the File
175 Server allows as overage. A value of C<0> allows no overage.
176
177 =item *
178
179 Set the B<-pctspare> argument to the percentage of the volume's quota the
180 File Server allows as overage.
181
182 =back
183
184 By default, the File Server implicitly grants the C<a> (administer) and
185 C<l> (lookup) permissions to system:administrators on the access control
186 list (ACL) of every directory in the volumes stored on its file server
187 machine. In other words, the group's members can exercise those two
188 permissions even when an entry for the group does not appear on an ACL. To
189 change the set of default permissions, use the B<-implicit> argument.
190
191 The File Server maintains a I<host current protection subgroup> (I<host
192 CPS>) for each client machine from which it has received a data access
193 request. Like the CPS for a user, a host CPS lists all of the Protection
194 Database groups to which the machine belongs, and the File Server compares
195 the host CPS to a directory's ACL to determine in what manner users on the
196 machine are authorized to access the directory's contents. When the B<pts
197 adduser> or B<pts removeuser> command is used to change the groups to
198 which a machine belongs, the File Server must recompute the machine's host
199 CPS in order to notice the change. By default, the File Server contacts
200 the Protection Server every two hours to recompute host CPSs, implying
201 that it can take that long for changed group memberships to become
202 effective. To change this frequency, use the B<-hr> argument.
203
204 The File Server stores volumes in partitions. A partition is a
205 filesystem or directory on the server machine that is named C</vicepX>
206 or C</vicepXX> where XX is "a" through "z" or "aa" though "iv". Up to
207 255 partitions are allowed. The File Server expects that the /vicepXX
208 directories are each on a dedicated filesystem. The File Server will
209 only use a /vicepXX if it's a mountpoint for another filesystem,
210 unless the file C</vicepXX/AlwaysAttach> exists. The data in the
211 partition is a special format that can only be access using OpenAFS
212 commands or an OpenAFS client.
213
214 The File Server generates the following message when a partition is nearly
215 full:
216
217    No space left on device
218
219 This command does not use the syntax conventions of the AFS command
220 suites. Provide the command name and all option names in full.
221
222 =head1 CAUTIONS
223
224 There are two strategies the File Server can use for attaching AFS volumes
225 at startup and handling volume salvages.  The traditional method assumes
226 all volumes are salvaged before the File Server starts and attaches all
227 volumes at start before serving files.  The newer demand-attach method
228 attaches volumes only on demand, salvaging them at that time as needed,
229 and detaches volumes that are not in use.  A demand-attach File Server can
230 also save state to disk for faster restarts.
231
232 The choice of traditional or demand-attach File Server must be made at
233 compile time, and the required setup in F<BosConfig> is different for the
234 two servers.  When changing from a traditional File Server to
235 demand-attach or vice versa, you will need to stop and remove the C<fs> or
236 C<dafs> node in F<BosConfig> and create a new node of the appropriate
237 type.  See L<bos_create(8)> for more information.
238
239 Do not use the B<-k> and B<-w> arguments, which are intended for use
240 by the OpenAFS developers only. Changing them from their default
241 values can result in unpredictable File Server behavior.  In any case,
242 on many operating systems the File Server uses native threads rather
243 than the LWP threads, so using the B<-k> argument to set the number of
244 LWP threads has no effect.
245
246 Do not specify both the B<-spare> and B<-pctspare> arguments. Doing so
247 causes the File Server to exit, leaving an error message in the
248 F</usr/afs/logs/FileLog> file.
249
250 Options that are available only on some system types, such as the B<-m>
251 and B<-lock> options, appear in the output generated by the B<-help>
252 option only on the relevant system type.
253
254 Currently, the maximum size of a volume is 2 terabytes (2^31 bytes)
255 and the maximum size of a /vicepX partition on a fileserver is 2^64
256 kilobytes. The maximum partition size in releases 1.4.7 and earlier is
257 2 terabytes (2^31 bytes). The maximum partition size for 1.5.x
258 releases 1.5.34 and earlier is 2 terabytes as well.
259
260 The maximum number of directory entries is 64,000 if all of the entries
261 have names that are 15 octets or less in length. A name that is 15 octets
262 long requires the use of only one block in the directory. Additional
263 sequential blocks are required to store entries with names that are longer
264 than 15 octets. Each additional block provides an additional length of 32
265 octets for the name of the entry. Note that if file names use an encoding
266 like UTF-8, a single character may be encoded into multiple octets.
267
268 In real world use, the maximum number of objects in an AFS directory
269 is usually between 16,000 and 25,000, depending on the average name
270 length.
271
272 =head1 OPTIONS
273
274 =over 4
275
276 =item B<-auditlog> <I<log path>>
277
278 Turns on audit logging, and sets the path for the audit log.  The audit
279 log records information about RPC calls, including the name of the RPC
280 call, the host that submitted the call, the authenticated entity (user)
281 that issued the call, the parameters for the call, and if the call
282 succeeded or failed.
283
284 =item B<-audit-interface> (file | sysvmq)
285
286 Specifies what audit interface to use. The C<file> interface writes audit
287 messages to the file passed to B<-auditlog>. The C<sysvmq> interface
288 writes audit messages to a SYSV message (see L<msgget(2)> and
289 L<msgrcv(2)>). The message queue the C<sysvmq> interface writes to has the
290 key C<ftok(path, 1)>, where C<path> is the path specified in the
291 B<-auditlog> option.
292
293 Defaults to C<file>.
294
295 =item B<-d> <I<debug level>>
296
297 Sets the detail level for the debugging trace written to the
298 F</usr/afs/logs/FileLog> file. Provide one of the following values, each
299 of which produces an increasingly detailed trace: C<0>, C<1>, C<5>, C<25>,
300 and C<125>. The default value of C<0> produces only a few messages.
301
302 =item B<-p> <I<number of processes>>
303
304 Sets the number of threads (or LWPs) to run. Provide a positive integer. 
305 The File Server creates and uses five threads for special purposes, 
306 in addition to the number specified (but if this argument specifies 
307 the maximum possible number, the File Server automatically uses five 
308 of the threads for its own purposes).
309
310 The maximum number of threads can differ in each release of OpenAFS.
311 Consult the I<OpenAFS Release Notes> for the current release.
312
313 =item B<-spare> <I<number of spare blocks>>
314
315 Specifies the number of additional kilobytes an application can store in a
316 volume after the quota is exceeded. Provide a positive integer; a value of
317 C<0> prevents the volume from ever exceeding its quota. Do not combine
318 this argument with the B<-pctspare> argument.
319
320 =item B<-pctspare> <I<percentage spare>>
321
322 Specifies the amount by which the File Server allows a volume to exceed
323 its quota, as a percentage of the quota. Provide an integer between C<0>
324 and C<99>. A value of C<0> prevents the volume from ever exceeding its
325 quota. Do not combine this argument with the B<-spare> argument.
326
327 =item B<-b> <I<buffers>>
328
329 Sets the number of directory buffers. Provide a positive integer.
330
331 =item B<-l> <I<large vnodes>>
332
333 Sets the number of large vnodes available in memory for caching directory
334 elements. Provide a positive integer.
335
336 =item B<-s> <I<small nodes>>
337
338 Sets the number of small vnodes available in memory for caching file
339 elements. Provide a positive integer.
340
341 =item B<-vc> <I<volume cachesize>>
342
343 Sets the number of volumes the File Server can cache in memory.  Provide a
344 positive integer.
345
346 =item B<-w> <I<call back wait interval>>
347
348 Sets the interval at which the daemon spawned by the File Server performs
349 its maintenance tasks. Do not use this argument; changing the default
350 value can cause unpredictable behavior.
351
352 =item B<-cb> <I<number of callbacks>>
353
354 Sets the number of callbacks the File Server can track. Provide a positive
355 integer.
356
357 =item B<-banner>
358
359 Prints the following banner to F</dev/console> about every 10 minutes.
360
361    File Server is running at I<time>.
362
363 =item B<-novbc>
364
365 Prevents the File Server from breaking the callbacks that Cache Managers
366 hold on a volume that the File Server is reattaching after the volume was
367 offline (as a result of the B<vos restore> command, for example). Use of
368 this flag is strongly discouraged.
369
370 =item B<-implicit> <I<admin mode bits>>
371
372 Defines the set of permissions granted by default to the
373 system:administrators group on the ACL of every directory in a volume
374 stored on the file server machine. Provide one or more of the standard
375 permission letters (C<rlidwka>) and auxiliary permission letters
376 (C<ABCDEFGH>), or one of the shorthand notations for groups of permissions
377 (C<all>, C<none>, C<read>, and C<write>). To review the meaning of the
378 permissions, see the B<fs setacl> reference page.
379
380 =item B<-readonly>
381
382 Don't allow writes to this fileserver.
383
384 =item B<-hr> <I<number of hours between refreshing the host cps>>
385
386 Specifies how often the File Server refreshes its knowledge of the
387 machines that belong to protection groups (refreshes the host CPSs for
388 machines). The File Server must update this information to enable users
389 from machines recently added to protection groups to access data for which
390 those machines now have the necessary ACL permissions.
391
392 =item B<-busyat> <I<< redirect clients when queue > n >>>
393
394 Defines the number of incoming RPCs that can be waiting for a response
395 from the File Server before the File Server returns the error code
396 C<VBUSY> to the Cache Manager that sent the latest RPC. In response, the
397 Cache Manager retransmits the RPC after a delay. This argument prevents
398 the accumulation of so many waiting RPCs that the File Server can never
399 process them all. Provide a positive integer.  The default value is
400 C<600>.
401
402 =item B<-rxpck> <I<number of rx extra packets>>
403
404 Controls the number of Rx packets the File Server uses to store data for
405 incoming RPCs that it is currently handling, that are waiting for a
406 response, and for replies that are not yet complete. Provide a positive
407 integer.
408
409 =item B<-rxdbg>
410
411 Writes a trace of the File Server's operations on Rx packets to the file
412 F</usr/afs/logs/rx_dbg>.
413
414 =item B<-rxdbge>
415
416 Writes a trace of the File Server's operations on Rx events (such as
417 retransmissions) to the file F</usr/afs/logs/rx_dbg>.
418
419 =item B<-rxmaxmtu> <I<bytes>>
420
421 Defines the maximum size of an MTU.  The value must be between the
422 minimum and maximum packet data sizes for Rx.
423
424 =item B<-jumbo>
425
426 Allows the server to send and receive jumbograms. A jumbogram is
427 a large-size packet composed of 2 to 4 normal Rx data packets that share
428 the same header. The fileserver does not use jumbograms by default, as some
429 routers are not capable of properly breaking the jumbogram into smaller
430 packets and reassembling them.
431
432 =item B<-nojumbo>
433
434 Deprecated; jumbograms are disabled by default.
435
436 =item B<-rxbind>
437
438 Force the fileserver to only bind to one IP address.
439
440 =item B<-allow-dotted-principals>
441
442 By default, the RXKAD security layer will disallow access by Kerberos
443 principals with a dot in the first component of their name. This is to avoid
444 the confusion where principals user/admin and user.admin are both mapped to the
445 user.admin PTS entry. Sites whose Kerberos realms don't have these collisions 
446 between principal names may disable this check by starting the server
447 with this option.
448
449 =item B<-L>
450
451 Sets values for many arguments in a manner suitable for a large file
452 server machine. Combine this flag with any option except the B<-S> flag;
453 omit both flags to set values suitable for a medium-sized file server
454 machine.
455
456 =item B<-S>
457
458 Sets values for many arguments in a manner suitable for a small file
459 server machine. Combine this flag with any option except the B<-L> flag;
460 omit both flags to set values suitable for a medium-sized file server
461 machine.
462
463 =item B<-k> <I<stack size>>
464
465 Sets the LWP stack size in units of 1 kilobyte. Do not use this argument,
466 and in particular do not specify a value less than the default of C<24>.
467
468 =item B<-realm> <I<Kerberos realm name>>
469
470 Defines the Kerberos realm name for the File Server to use. If this
471 argument is not provided, it uses the realm name corresponding to the cell
472 listed in the local F</usr/afs/etc/ThisCell> file.
473
474 =item B<-udpsize> <I<size of socket buffer in bytes>>
475
476 Sets the size of the UDP buffer, which is 64 KB by default. Provide a
477 positive integer, preferably larger than the default.
478
479 =item B<-sendsize> <I<size of send buffer in bytes>>
480
481 Sets the size of the send buffer, which is 16384 bytes by default.
482
483 =item B<-abortthreshold> <I<abort threshold>>
484
485 Sets the abort threshold, which is triggered when an AFS client sends
486 a number of FetchStatus requests in a row and all of them fail due to
487 access control or some other error. When the abort threshold is
488 reached, the file server starts to slow down the responses to the
489 problem client in order to reduce the load on the file server.
490
491 The throttling behaviour can cause issues especially for some versions
492 of the Windows OpenAFS client. When using Windows Explorer to navigate
493 the AFS directory tree, directories with only "look" access for the
494 current user may load more slowly because of the throttling. This is
495 because the Windows OpenAFS client sends FetchStatus calls one at a
496 time instead of in bulk like the Unix Open AFS client.
497
498 Setting the threshold to 0 disables the throttling behavior. This
499 option is available in OpenAFS versions 1.4.1 and later.
500
501 =item B<-enable_peer_stats>
502
503 Activates the collection of Rx statistics and allocates memory for their
504 storage. For each connection with a specific UDP port on another machine,
505 a separate record is kept for each type of RPC (FetchFile, GetStatus, and
506 so on) sent or received. To display or otherwise access the records, use
507 the Rx Monitoring API.
508
509 =item B<-enable_process_stats>
510
511 Activates the collection of Rx statistics and allocates memory for their
512 storage. A separate record is kept for each type of RPC (FetchFile,
513 GetStatus, and so on) sent or received, aggregated over all connections to
514 other machines. To display or otherwise access the records, use the Rx
515 Monitoring API.
516
517 =item B<-syslog [<loglevel>]
518
519 Use syslog instead of the normal logging location for the fileserver
520 process.  If provided, log messages are at <loglevel> instead of the
521 default LOG_USER.
522
523 =item B<-mrafslogs>
524
525 Use MR-AFS (Multi-Resident) style logging.  This option is deprecated.
526
527 =item B<-saneacls>
528
529 Offer the SANEACLS capability for the fileserver.  This option is
530 currently unimplemented.
531
532 =item B<-help>
533
534 Prints the online help for this command. All other valid options are
535 ignored.
536
537 =item B<-fs-state-dont-save>
538
539 When present, fileserver state will not be saved during shutdown.  Default
540 is to save state.
541
542 This option is only supported by the demand-attach file server.
543
544 =item B<-fs-state-dont-restore>
545
546 When present, fileserver state will not be restored during startup.
547 Default is to restore state on startup.
548
549 This option is only supported by the demand-attach file server.
550
551 =item B<-fs-state-verify> (none | save | restore | both)
552
553 This argument controls the behavior of the state verification mechanism.
554 A value of C<none> turns off all verification.  A value of C<save> only
555 performs the verification steps prior to saving state to disk.  A value
556 of C<restore> only performs the verification steps after restoring state
557 from disk.  A value of C<both> performs all verifications steps both
558 prior to save and following a restore.
559
560 The default is C<both>.
561
562 This option is only supported by the demand-attach file server.
563
564 =item B<-vhandle-setaside> <I<fds reserved for non-cache io>>
565
566 Number of file handles set aside for I/O not in the cache. Defaults to 128.
567
568 =item B<-vhandle-max-cachesize> <I<max open files>>
569
570 Maximum number of available file handles.
571
572 =item B<-vhandle-initial-cachesize> <I<initial open file cache>>
573
574 Number of file handles set aside for I/O in the cache. Defaults to 128.
575
576 =item B<-vhashsize <I<size>>
577
578 The log(2) number of of volume hash buckets.  Default is 8 (i.e., by
579 default, there are 2^8 = 256 volume hash buckets).
580
581 This option is only supported by the demand-attach file server.
582
583 =item B<-vlruthresh <I<minutes>>
584
585 The number of minutes of inactivity before a volume is eligible for soft
586 detachment.  Default is 120 minutes.
587
588 This option is only supported by the demand-attach file server.
589
590 =item B<-vlruinterval <I<seconds>>
591
592 The number of seconds between VLRU candidate queue scan.  The default is
593 120 seconds.
594
595 This option is only supported by the demand-attach file server.
596
597 =item B<-vlrumax <I<positive integer>>
598
599 The maximum number of volumes which can be soft detached in a single pass
600 of the scanner.  Default is 8 volumes.
601
602 This option is only supported by the demand-attach file server.
603
604 =item B<-unsafe-nosalvage>
605
606 This option causes the fileserver to bypass the normal safety check when
607 attaching volumes that checks the inUse field in the volume header. With
608 this option, volumes that were in use at the time of an unclean shutdown
609 will not be salvaged immediately the next time they are accessed, and thus
610 risk (possibly silent and/or irrevocable) corruption. Volumes will still
611 be salvaged when an internal inconsistency is detected or other cases
612 where a salvage would normally occur.
613
614 Due to the increased risk of data corruption, the use of this flag is
615 strongly discouraged. Only use it if you really know what you are doing.
616
617 This option is only supported by the demand-attach file server.
618
619 =item B<-vattachpar> <I<number of volume attach threads>>
620
621 The number of threads assigned to attach and detach volumes.  The default
622 is 1.  Warning: many of the I/O parallism features of Demand-Attach
623 Fileserver are turned off when the number of volume attach threads is only
624 1.
625
626 This option is only meaningful for a file server built with pthreads
627 support.
628
629 =item B<-m> <I<min percentage spare in partition>>
630
631 Specifies the percentage of each AFS server partition that the AIX version
632 of the File Server creates as a reserve. Specify an integer value between
633 C<0> and C<30>; the default is 8%. A value of C<0> means that the
634 partition can become completely full, which can have serious negative
635 consequences.  This option is not supported on platforms other than AIX.
636
637 =item B<-lock>
638
639 Prevents any portion of the fileserver binary from being paged (swapped)
640 out of memory on a file server machine running the IRIX operating system.
641 This option is not supported on platforms other than IRIX.
642
643 =back
644
645 =head1 EXAMPLES
646
647 The following B<bos create> command creates a traditional fs process on
648 the file server machine C<fs2.abc.com> that uses the large configuration
649 size, and allows volumes to exceed their quota by 10%. Type the command on
650 a single line:
651
652    % bos create -server fs2.abc.com -instance fs -type fs \
653                 -cmd "/usr/afs/bin/fileserver -pctspare 10 -L" \
654                 /usr/afs/bin/volserver /usr/afs/bin/salvager
655
656 The following is an equivalent B<bos create> command for a demand-attach
657 File Server:
658
659    % bos create -server fs2.abc.com -instance dafs -type dafs \
660                 -cmd "/usr/afs/bin/fileserver -pctspare 10 -L" \
661                 /usr/afs/bin/volserver \
662                 /usr/afs/bin/salvageserver \
663                 /usr/afs/bin/salvager
664
665 =head1 TROUBLESHOOTING
666
667 Sending process signals to the File Server Process can change its
668 behavior in the following ways:
669
670   Process          Signal       OS     Result
671   ---------------------------------------------------------------------
672
673   File Server      XCPU        Unix    Prints a list of client IP
674                                        Addresses.
675
676   File Server      USR2      Windows   Prints a list of client IP
677                                        Addresses.
678
679   File Server      POLL        HPUX    Prints a list of client IP
680                                        Addresses.
681
682   Any server       TSTP        Any     Increases Debug level by a power
683                                        of 5 -- 1,5,25,125, etc.
684                                        This has the same effect as the
685                                        -d XXX command-line option.
686
687   Any Server       HUP         Any     Resets Debug level to 0
688
689   File Server      TERM        Any     Run minor instrumentation over
690                                        the list of descriptors.
691
692   Other Servers    TERM        Any     Causes the process to quit.
693
694   File Server      QUIT        Any     Causes the File Server to Quit.
695                                        Bos Server knows this.
696
697 The basic metric of whether an AFS file server is doing well is the number
698 of connections waiting for a thread,
699 which can be found by running the following command:
700
701    % rxdebug <server> | grep waiting_for | wc -l
702
703 Each line returned by C<rxdebug> that contains the text "waiting_for"
704 represents a connection that's waiting for a file server thread.
705
706 If the blocked connection count is ever above 0, the server is having
707 problems replying to clients in a timely fashion.  If it gets above 10,
708 roughly, there will be noticeable slowness by the user.  The total number of
709 connections is a mostly irrelevant number that goes essentially
710 monotonically for as long as the server has been running and then goes back
711 down to zero when it's restarted.
712
713 The most common cause of blocked connections rising on a server is some
714 process somewhere performing an abnormal number of accesses to that server
715 and its volumes.  If multiple servers have a blocked connection count, the
716 most likely explanation is that there is a volume replicated between those
717 servers that is absorbing an abnormally high access rate.
718
719 To get an access count on all the volumes on a server, run:
720
721    % vos listvol <server> -long
722
723 and save the output in a file.  The results will look like a bunch of B<vos
724 examine> output for each volume on the server.  Look for lines like:
725
726    40065 accesses in the past day (i.e., vnode references)
727
728 and look for volumes with an abnormally high number of accesses.  Anything
729 over 10,000 is fairly high, but some volumes like root.cell and other
730 volumes close to the root of the cell will have that many hits routinely.
731 Anything over 100,000 is generally abnormally high.  The count resets about
732 once a day.
733
734 Another approach that can be used to narrow the possibilities for a
735 replicated volume, when multiple servers are having trouble, is to find all
736 replicated volumes for that server.  Run:
737
738    % vos listvldb -server <server>
739
740 where <server> is one of the servers having problems to refresh the VLDB
741 cache, and then run:
742
743    % vos listvldb -server <server> -part <partition>
744
745 to get a list of all volumes on that server and partition, including every
746 other server with replicas.
747
748 Once the volume causing the problem has been identified, the best way to
749 deal with the problem is to move that volume to another server with a low
750 load or to stop any runaway programs that are accessing that volume
751 unnecessarily.  Often the volume will be enough information to tell what's
752 going on.
753
754 If you still need additional information about who's hitting that server,
755 sometimes you can guess at that information from the failed callbacks in the
756 F<FileLog> log in F</var/log/afs> on the server, or from the output of:
757
758    % /usr/afsws/etc/rxdebug <server> -rxstats
759
760 but the best way is to turn on debugging output from the file server.
761 (Warning: This generates a lot of output into FileLog on the AFS server.)
762 To do this, log on to the AFS server, find the PID of the fileserver
763 process, and do:
764
765     kill -TSTP <pid>
766
767 where <pid> is the PID of the file server process.  This will raise the
768 debugging level so that you'll start seeing what people are actually doing
769 on the server.  You can do this up to three more times to get even more
770 output if needed.  To reset the debugging level back to normal, use (The
771 following command will NOT terminate the file server):
772
773     kill -HUP <pid>
774
775 The debugging setting on the File Server should be reset back to normal when
776 debugging is no longer needed.  Otherwise, the AFS server may well fill its
777 disks with debugging output.
778
779 The lines of the debugging output that are most useful for debugging load
780 problems are:
781
782     SAFS_FetchStatus,  Fid = 2003828163.77154.82248, Host 171.64.15.76
783     SRXAFS_FetchData, Fid = 2003828163.77154.82248
784
785 (The example above is partly truncated to highlight the interesting
786 information).  The Fid identifies the volume and inode within the volume;
787 the volume is the first long number.  So, for example, this was:
788
789    % vos examine 2003828163
790    pubsw.matlab61                   2003828163 RW    1040060 K  On-line
791        afssvr5.Stanford.EDU /vicepa 
792        RWrite 2003828163 ROnly 2003828164 Backup 2003828165 
793        MaxQuota    3000000 K 
794        Creation    Mon Aug  6 16:40:55 2001
795        Last Update Tue Jul 30 19:00:25 2002
796        86181 accesses in the past day (i.e., vnode references)
797
798        RWrite: 2003828163    ROnly: 2003828164    Backup: 2003828165
799        number of sites -> 3
800           server afssvr5.Stanford.EDU partition /vicepa RW Site 
801           server afssvr11.Stanford.EDU partition /vicepd RO Site 
802           server afssvr5.Stanford.EDU partition /vicepa RO Site 
803
804 and from the Host information one can tell what system is accessing that
805 volume.
806
807 Note that the output of L<vos_examine(1)> also includes the access count, so
808 once the problem has been identified, vos examine can be used to see if the
809 access count is still increasing.  Also remember that you can run vos
810 examine on the read-only replica (e.g., pubsw.matlab61.readonly) to see the
811 access counts on the read-only replica on all of the servers that it's
812 located on.
813
814 =head1 PRIVILEGE REQUIRED
815
816 The issuer must be logged in as the superuser C<root> on a file server
817 machine to issue the command at a command shell prompt.  It is conventional
818 instead to create and start the process by issuing the B<bos create>
819 command.
820
821 =head1 SEE ALSO
822
823 L<BosConfig(5)>,
824 L<FileLog(5)>,
825 L<bos_create(8)>,
826 L<bos_getlog(8)>,
827 L<fs_setacl(1)>,
828 L<msgget(2)>,
829 L<msgrcv(2)>,
830 L<salvager(8)>,
831 L<volserver(8)>,
832 L<vos_examine(1)>
833
834 =head1 COPYRIGHT
835
836 IBM Corporation 2000. <http://www.ibm.com/> All Rights Reserved.
837
838 This documentation is covered by the IBM Public License Version 1.0.  It was
839 converted from HTML to POD by software written by Chas Williams and Russ
840 Allbery, based on work by Alf Wachsmann and Elizabeth Cassell.