afs: consolidate duplicated wait-for-cache-drain code
[openafs.git] / src / afs / afs_dcache.c
1 /*
2  * Copyright 2000, International Business Machines Corporation and others.
3  * All Rights Reserved.
4  *
5  * This software has been released under the terms of the IBM Public
6  * License.  For details, see the LICENSE file in the top-level source
7  * directory or online at http://www.openafs.org/dl/license10.html
8  */
9
10 /*
11  * Implements:
12  */
13 #include <afsconfig.h>
14 #include "afs/param.h"
15
16
17 #include "afs/sysincludes.h"    /*Standard vendor system headers */
18 #include "afsincludes.h"        /*AFS-based standard headers */
19 #include "afs/afs_stats.h"      /* statistics */
20 #include "afs/afs_cbqueue.h"
21 #include "afs/afs_osidnlc.h"
22
23 #include <opr/ffs.h>
24
25 /* Forward declarations. */
26 static void afs_GetDownD(int anumber, int *aneedSpace, afs_int32 buckethint);
27 static int afs_FreeDiscardedDCache(void);
28 static void afs_DiscardDCache(struct dcache *);
29 static void afs_FreeDCache(struct dcache *);
30 /* For split cache */
31 static afs_int32 afs_DCGetBucket(struct vcache *);
32 static void afs_DCAdjustSize(struct dcache *, afs_int32, afs_int32);
33 static void afs_DCMoveBucket(struct dcache *, afs_int32, afs_int32);
34 static void afs_DCSizeInit(void);
35 static afs_int32 afs_DCWhichBucket(afs_int32, afs_int32);
36
37 /*
38  * --------------------- Exported definitions ---------------------
39  */
40 /* For split cache */
41 afs_int32 afs_blocksUsed_0;    /*!< 1K blocks in cache - in theory is zero */
42 afs_int32 afs_blocksUsed_1;    /*!< 1K blocks in cache */
43 afs_int32 afs_blocksUsed_2;    /*!< 1K blocks in cache */
44 afs_int32 afs_pct1 = -1;
45 afs_int32 afs_pct2 = -1;
46 afs_uint32 afs_tpct1 = 0;
47 afs_uint32 afs_tpct2 = 0;
48 afs_uint32 splitdcache = 0;
49
50 afs_lock_t afs_xdcache;         /*!< Lock: alloc new disk cache entries */
51 afs_int32 afs_freeDCList;       /*!< Free list for disk cache entries */
52 afs_int32 afs_freeDCCount;      /*!< Count of elts in freeDCList */
53 afs_int32 afs_discardDCList;    /*!< Discarded disk cache entries */
54 afs_int32 afs_discardDCCount;   /*!< Count of elts in discardDCList */
55 struct dcache *afs_freeDSList;  /*!< Free list for disk slots */
56 struct dcache *afs_Initial_freeDSList;  /*!< Initial list for above */
57 afs_dcache_id_t cacheInode;               /*!< Inode for CacheItems file */
58 struct osi_file *afs_cacheInodep = 0;   /*!< file for CacheItems inode */
59 struct afs_q afs_DLRU;          /*!< dcache LRU */
60 afs_int32 afs_dhashsize = 1024;
61 afs_int32 *afs_dvhashTbl;       /*!< Data cache hash table: hashed by FID + chunk number. */
62 afs_int32 *afs_dchashTbl;       /*!< Data cache hash table: hashed by FID. */
63 afs_int32 *afs_dvnextTbl;       /*!< Dcache hash table links */
64 afs_int32 *afs_dcnextTbl;       /*!< Dcache hash table links */
65 struct dcache **afs_indexTable; /*!< Pointers to dcache entries */
66 afs_hyper_t *afs_indexTimes;    /*!< Dcache entry Access times */
67 afs_int32 *afs_indexUnique;     /*!< dcache entry Fid.Unique */
68 unsigned char *afs_indexFlags;  /*!< (only one) Is there data there? */
69 afs_hyper_t afs_indexCounter;   /*!< Fake time for marking index
70                                  * entries */
71 afs_int32 afs_cacheFiles = 0;   /*!< Size of afs_indexTable */
72 afs_int32 afs_cacheBlocks;      /*!< 1K blocks in cache */
73 afs_int32 afs_cacheStats;       /*!< Stat entries in cache */
74 afs_int32 afs_blocksUsed;       /*!< Number of blocks in use */
75 afs_int32 afs_blocksDiscarded;  /*!<Blocks freed but not truncated */
76 afs_int32 afs_fsfragsize = AFS_MIN_FRAGSIZE;    /*!< Underlying Filesystem minimum unit
77                                          *of disk allocation usually 1K
78                                          *this value is (truefrag -1 ) to
79                                          *save a bunch of subtracts... */
80 #ifdef AFS_64BIT_CLIENT
81 #ifdef AFS_VM_RDWR_ENV
82 afs_size_t afs_vmMappingEnd;    /* !< For large files (>= 2GB) the VM
83                                  * mapping an 32bit addressing machines
84                                  * can only be used below the 2 GB
85                                  * line. From this point upwards we
86                                  * must do direct I/O into the cache
87                                  * files. The value should be on a
88                                  * chunk boundary. */
89 #endif /* AFS_VM_RDWR_ENV */
90 #endif /* AFS_64BIT_CLIENT */
91
92 /* The following is used to ensure that new dcache's aren't obtained when
93  * the cache is nearly full.
94  */
95 int afs_WaitForCacheDrain = 0;
96 int afs_TruncateDaemonRunning = 0;
97 int afs_CacheTooFull = 0;
98 afs_uint32 afs_CacheTooFullCount = 0;
99 afs_uint32 afs_WaitForCacheDrainCount = 0;
100
101 afs_int32 afs_dcentries;        /*!< In-memory dcache entries */
102
103
104 int dcacheDisabled = 0;
105
106 struct afs_cacheOps afs_UfsCacheOps = {
107 #ifndef HAVE_STRUCT_LABEL_SUPPORT
108     osi_UFSOpen,
109     osi_UFSTruncate,
110     afs_osi_Read,
111     afs_osi_Write,
112     osi_UFSClose,
113     afs_UFSReadUIO,
114     afs_UFSWriteUIO,
115     afs_UFSGetDSlot,
116     afs_UFSGetVolSlot,
117     afs_UFSHandleLink,
118 #else
119     .open       = osi_UFSOpen,
120     .truncate   = osi_UFSTruncate,
121     .fread      = afs_osi_Read,
122     .fwrite     = afs_osi_Write,
123     .close      = osi_UFSClose,
124     .vreadUIO   = afs_UFSReadUIO,
125     .vwriteUIO  = afs_UFSWriteUIO,
126     .GetDSlot   = afs_UFSGetDSlot,
127     .GetVolSlot = afs_UFSGetVolSlot,
128     .HandleLink = afs_UFSHandleLink,
129 #endif
130 };
131
132 struct afs_cacheOps afs_MemCacheOps = {
133 #ifndef HAVE_STRUCT_LABEL_SUPPORT
134     afs_MemCacheOpen,
135     afs_MemCacheTruncate,
136     afs_MemReadBlk,
137     afs_MemWriteBlk,
138     afs_MemCacheClose,
139     afs_MemReadUIO,
140     afs_MemWriteUIO,
141     afs_MemGetDSlot,
142     afs_MemGetVolSlot,
143     afs_MemHandleLink,
144 #else
145     .open       = afs_MemCacheOpen,
146     .truncate   = afs_MemCacheTruncate,
147     .fread      = afs_MemReadBlk,
148     .fwrite     = afs_MemWriteBlk,
149     .close      = afs_MemCacheClose,
150     .vreadUIO   = afs_MemReadUIO,
151     .vwriteUIO  = afs_MemWriteUIO,
152     .GetDSlot   = afs_MemGetDSlot,
153     .GetVolSlot = afs_MemGetVolSlot,
154     .HandleLink = afs_MemHandleLink,
155 #endif
156 };
157
158 int cacheDiskType;              /*Type of backing disk for cache */
159 struct afs_cacheOps *afs_cacheType;
160
161
162 /*
163  * The PFlush algorithm makes use of the fact that Fid.Unique is not used in
164  * below hash algorithms.  Change it if need be so that flushing algorithm
165  * doesn't move things from one hash chain to another.
166  */
167 /*Vnode, Chunk -> Hash table index */
168 int DCHash(struct VenusFid *fid, afs_int32 chunk)
169 {
170     afs_uint32 buf[3];
171
172     buf[0] = fid->Fid.Volume;
173     buf[1] = fid->Fid.Vnode;
174     buf[2] = chunk;
175     return opr_jhash(buf, 3, 0) & (afs_dhashsize - 1);
176 }
177 /*Vnode -> Other hash table index */
178 int DVHash(struct VenusFid *fid)
179 {
180     return opr_jhash_int2(fid->Fid.Volume, fid->Fid.Vnode, 0) &
181         (afs_dhashsize - 1);
182 }
183
184 /*!
185  * Where is this vcache's entry associated dcache located/
186  * \param avc The vcache entry.
187  * \return Bucket index:
188  *      1 : main
189  *      2 : RO
190  */
191 static afs_int32
192 afs_DCGetBucket(struct vcache *avc)
193 {
194     if (!splitdcache)
195         return 1;
196
197     /* This should be replaced with some sort of user configurable function */
198     if (avc->f.states & CRO) {
199         return 2;
200     } else if (avc->f.states & CBackup) {
201         return 1;
202     } else {
203         /* RW */
204     }
205     /* main bucket */
206     return 1;
207 }
208
209 /*!
210  * Readjust a dcache's size.
211  *
212  * \param adc The dcache to be adjusted.
213  * \param oldSize Old size for the dcache.
214  * \param newSize The new size to be adjusted to.
215  *
216  */
217 static void
218 afs_DCAdjustSize(struct dcache *adc, afs_int32 oldSize, afs_int32 newSize)
219 {
220     afs_int32 adjustSize = newSize - oldSize;
221
222     if (!splitdcache)
223         return;
224
225     switch (adc->bucket)
226     {
227     case 0:
228         afs_blocksUsed_0 += adjustSize;
229         afs_stats_cmperf.cacheBucket0_Discarded += oldSize;
230         break;
231     case 1:
232         afs_blocksUsed_1 += adjustSize;
233         afs_stats_cmperf.cacheBucket1_Discarded += oldSize;
234         break;
235     case 2:
236         afs_blocksUsed_2 += adjustSize;
237         afs_stats_cmperf.cacheBucket2_Discarded += oldSize;
238         break;
239     }
240
241     return;
242 }
243
244 /*!
245  * Move a dcache from one bucket to another.
246  *
247  * \param adc Operate on this dcache.
248  * \param size Size in bucket (?).
249  * \param newBucket Destination bucket.
250  *
251  */
252 static void
253 afs_DCMoveBucket(struct dcache *adc, afs_int32 size, afs_int32 newBucket)
254 {
255     if (!splitdcache)
256         return;
257
258     /* Substract size from old bucket. */
259     switch (adc->bucket)
260     {
261     case 0:
262         afs_blocksUsed_0 -= size;
263         break;
264     case 1:
265         afs_blocksUsed_1 -= size;
266         break;
267     case 2:
268         afs_blocksUsed_2 -= size;
269         break;
270     }
271
272     /* Set new bucket and increase destination bucket size. */
273     adc->bucket = newBucket;
274
275     switch (adc->bucket)
276     {
277     case 0:
278         afs_blocksUsed_0 += size;
279         break;
280     case 1:
281         afs_blocksUsed_1 += size;
282         break;
283     case 2:
284         afs_blocksUsed_2 += size;
285         break;
286     }
287
288     return;
289 }
290
291 /*!
292  * Init split caches size.
293  */
294 static void
295 afs_DCSizeInit(void)
296 {
297     afs_blocksUsed_0 = afs_blocksUsed_1 = afs_blocksUsed_2 = 0;
298 }
299
300
301 /*!
302  * \param phase
303  * \param bucket
304  */
305 static afs_int32
306 afs_DCWhichBucket(afs_int32 phase, afs_int32 bucket)
307 {
308     if (!splitdcache)
309         return 0;
310
311     afs_pct1 = afs_blocksUsed_1 / (afs_cacheBlocks / 100);
312     afs_pct2 = afs_blocksUsed_2 / (afs_cacheBlocks / 100);
313
314     /* Short cut: if we don't know about it, try to kill it */
315     if (phase < 2 && afs_blocksUsed_0)
316         return 0;
317
318     if (afs_pct1 > afs_tpct1)
319         return 1;
320     if (afs_pct2 > afs_tpct2)
321         return 2;
322     return 0; /* unlikely */
323 }
324
325
326 /*!
327  * Warn about failing to store a file.
328  *
329  * \param acode Associated error code.
330  * \param avolume Volume involved.
331  * \param aflags How to handle the output:
332  *      aflags & 1: Print out on console
333  *      aflags & 2: Print out on controlling tty
334  *
335  * \note Environment: Call this from close call when vnodeops is RCS unlocked.
336  */
337
338 void
339 afs_StoreWarn(afs_int32 acode, afs_int32 avolume,
340               afs_int32 aflags)
341 {
342     static char problem_fmt[] =
343         "afs: failed to store file in volume %d (%s)\n";
344     static char problem_fmt_w_error[] =
345         "afs: failed to store file in volume %d (error %d)\n";
346     static char netproblems[] = "network problems";
347     static char partfull[] = "partition full";
348     static char overquota[] = "over quota";
349
350     AFS_STATCNT(afs_StoreWarn);
351     if (acode < 0) {
352         /*
353          * Network problems
354          */
355         if (aflags & 1)
356             afs_warn(problem_fmt, avolume, netproblems);
357         if (aflags & 2)
358             afs_warnuser(problem_fmt, avolume, netproblems);
359     } else if (acode == ENOSPC) {
360         /*
361          * Partition full
362          */
363         if (aflags & 1)
364             afs_warn(problem_fmt, avolume, partfull);
365         if (aflags & 2)
366             afs_warnuser(problem_fmt, avolume, partfull);
367     } else
368 #ifdef  EDQUOT
369         /* EDQUOT doesn't exist on solaris and won't be sent by the server.
370          * Instead ENOSPC will be sent...
371          */
372     if (acode == EDQUOT) {
373         /*
374          * Quota exceeded
375          */
376         if (aflags & 1)
377             afs_warn(problem_fmt, avolume, overquota);
378         if (aflags & 2)
379             afs_warnuser(problem_fmt, avolume, overquota);
380     } else
381 #endif
382     {
383         /*
384          * Unknown error
385          */
386         if (aflags & 1)
387             afs_warn(problem_fmt_w_error, avolume, acode);
388         if (aflags & 2)
389             afs_warnuser(problem_fmt_w_error, avolume, acode);
390     }
391 }                               /*afs_StoreWarn */
392
393 /*!
394  * Try waking up truncation daemon, if it's worth it.
395  */
396 void
397 afs_MaybeWakeupTruncateDaemon(void)
398 {
399     if (!afs_CacheTooFull && afs_CacheIsTooFull()) {
400         afs_CacheTooFullCount++;
401         afs_CacheTooFull = 1;
402         if (!afs_TruncateDaemonRunning)
403             afs_osi_Wakeup((int *)afs_CacheTruncateDaemon);
404     } else if (!afs_TruncateDaemonRunning
405                && afs_blocksDiscarded > CM_MAXDISCARDEDCHUNKS) {
406         afs_osi_Wakeup((int *)afs_CacheTruncateDaemon);
407     }
408 }
409
410 /*!
411  * Wait for cache drain if conditions warrant.
412  *   */
413 void
414 afs_MaybeWaitForCacheDrain(void)
415 {
416     if (afs_blocksUsed - afs_blocksDiscarded >
417         PERCENT(CM_WAITFORDRAINPCT, afs_cacheBlocks)) {
418         if (afs_WaitForCacheDrain == 0)
419             afs_WaitForCacheDrainCount++;
420         afs_WaitForCacheDrain = 1;
421         afs_osi_Sleep(&afs_WaitForCacheDrain);
422     }
423 }
424
425 /*!
426  * /struct CTD_stats
427  *
428  * Keep statistics on run time for afs_CacheTruncateDaemon. This is a
429  * struct so we need only export one symbol for AIX.
430  */
431 static struct CTD_stats {
432     osi_timeval32_t CTD_beforeSleep;
433     osi_timeval32_t CTD_afterSleep;
434     osi_timeval32_t CTD_sleepTime;
435     osi_timeval32_t CTD_runTime;
436     int CTD_nSleeps;
437 } CTD_stats;
438
439 u_int afs_min_cache = 0;
440
441 /*!
442  * If there are waiters for the cache to drain, wake them if
443  * the number of free or discarded cache blocks reaches the
444  * CM_CACHESIZEDDRAINEDPCT limit.
445  *
446  * \note Environment:
447  *      This routine must be called with the afs_xdcache lock held
448  *      (in write mode).
449  */
450 static void
451 afs_WakeCacheWaitersIfDrained(void)
452 {
453     if (afs_WaitForCacheDrain) {
454         if ((afs_blocksUsed - afs_blocksDiscarded) <=
455             PERCENT(CM_CACHESIZEDRAINEDPCT, afs_cacheBlocks)) {
456             afs_WaitForCacheDrain = 0;
457             afs_osi_Wakeup(&afs_WaitForCacheDrain);
458         }
459     }
460 }
461
462 /*!
463  * Keeps the cache clean and free by truncating uneeded files, when used.
464  * \param
465  * \return
466  */
467 void
468 afs_CacheTruncateDaemon(void)
469 {
470     osi_timeval32_t CTD_tmpTime;
471     u_int counter;
472     u_int cb_lowat;
473     u_int dc_hiwat =
474         PERCENT((100 - CM_DCACHECOUNTFREEPCT + CM_DCACHEEXTRAPCT), afs_cacheFiles);
475     afs_min_cache =
476         (((10 * AFS_CHUNKSIZE(0)) + afs_fsfragsize) & ~afs_fsfragsize) >> 10;
477
478     osi_GetTime(&CTD_stats.CTD_afterSleep);
479     afs_TruncateDaemonRunning = 1;
480     while (1) {
481         cb_lowat = PERCENT((CM_DCACHESPACEFREEPCT - CM_DCACHEEXTRAPCT), afs_cacheBlocks);
482         ObtainWriteLock(&afs_xdcache, 266);
483         if (afs_CacheTooFull || afs_WaitForCacheDrain) {
484             int space_needed, slots_needed;
485             /* if we get woken up, we should try to clean something out */
486             for (counter = 0; counter < 10; counter++) {
487                 space_needed =
488                     afs_blocksUsed - afs_blocksDiscarded - cb_lowat;
489                 if (space_needed < 0)
490                     space_needed = 0;
491                 slots_needed =
492                     dc_hiwat - afs_freeDCCount - afs_discardDCCount;
493                 if (slots_needed < 0)
494                     slots_needed = 0;
495                 if (slots_needed || space_needed)
496                     afs_GetDownD(slots_needed, &space_needed, 0);
497                 if ((space_needed <= 0) && (slots_needed <= 0)) {
498                     break;
499                 }
500                 if (afs_termState == AFSOP_STOP_TRUNCDAEMON)
501                     break;
502             }
503             if (!afs_CacheIsTooFull()) {
504                 afs_CacheTooFull = 0;
505                 afs_WakeCacheWaitersIfDrained();
506             }
507         }       /* end of cache cleanup */
508         ReleaseWriteLock(&afs_xdcache);
509
510         /*
511          * This is a defensive check to try to avoid starving threads
512          * that may need the global lock so thay can help free some
513          * cache space. If this thread won't be sleeping or truncating
514          * any cache files then give up the global lock so other
515          * threads get a chance to run.
516          */
517         if ((afs_termState != AFSOP_STOP_TRUNCDAEMON) && afs_CacheTooFull
518             && (!afs_blocksDiscarded || afs_WaitForCacheDrain)) {
519             afs_osi_Wait(100, 0, 0);    /* 100 milliseconds */
520         }
521
522         /*
523          * This is where we free the discarded cache elements.
524          */
525         while (afs_blocksDiscarded && !afs_WaitForCacheDrain
526                && (afs_termState != AFSOP_STOP_TRUNCDAEMON)) {
527             int code = afs_FreeDiscardedDCache();
528             if (code) {
529                 /* If we can't free any discarded dcache entries, that's okay.
530                  * We're just doing this in the background; if someone needs
531                  * discarded entries freed, they will try it themselves and/or
532                  * signal us that the cache is too full. In any case, we'll
533                  * try doing this again the next time we run through the loop.
534                  */
535                 break;
536             }
537         }
538
539         /* See if we need to continue to run. Someone may have
540          * signalled us while we were executing.
541          */
542         if (!afs_WaitForCacheDrain && !afs_CacheTooFull
543             && (afs_termState != AFSOP_STOP_TRUNCDAEMON)) {
544             /* Collect statistics on truncate daemon. */
545             CTD_stats.CTD_nSleeps++;
546             osi_GetTime(&CTD_stats.CTD_beforeSleep);
547             afs_stats_GetDiff(CTD_tmpTime, CTD_stats.CTD_afterSleep,
548                               CTD_stats.CTD_beforeSleep);
549             afs_stats_AddTo(CTD_stats.CTD_runTime, CTD_tmpTime);
550
551             afs_TruncateDaemonRunning = 0;
552             afs_osi_Sleep((int *)afs_CacheTruncateDaemon);
553             afs_TruncateDaemonRunning = 1;
554
555             osi_GetTime(&CTD_stats.CTD_afterSleep);
556             afs_stats_GetDiff(CTD_tmpTime, CTD_stats.CTD_beforeSleep,
557                               CTD_stats.CTD_afterSleep);
558             afs_stats_AddTo(CTD_stats.CTD_sleepTime, CTD_tmpTime);
559         }
560         if (afs_termState == AFSOP_STOP_TRUNCDAEMON) {
561             afs_termState = AFSOP_STOP_AFSDB;
562             afs_osi_Wakeup(&afs_termState);
563             break;
564         }
565     }
566 }
567
568
569 /*!
570  * Make adjustment for the new size in the disk cache entry
571  *
572  * \note Major Assumptions Here:
573  *      Assumes that frag size is an integral power of two, less one,
574  *      and that this is a two's complement machine.  I don't
575  *      know of any filesystems which violate this assumption...
576  *
577  * \param adc Ptr to dcache entry.
578  * \param anewsize New size desired.
579  *
580  */
581
582 void
583 afs_AdjustSize(struct dcache *adc, afs_int32 newSize)
584 {
585     afs_int32 oldSize;
586
587     AFS_STATCNT(afs_AdjustSize);
588
589     if (newSize > afs_OtherCSize && !(adc->f.fid.Fid.Vnode & 1)) {
590         /* No non-dir cache files should be larger than the chunk size.
591          * (Directory blobs are fetched in a single chunk file, so directories
592          * can be larger.) If someone is requesting that a chunk is larger than
593          * the chunk size, something strange is happening. Log a message about
594          * it, to give a hint to subsequent strange behavior, if any occurs. */
595         static int warned;
596         if (!warned) {
597             warned = 1;
598             afs_warn("afs: Warning: dcache %d is very large (%d > %d). This "
599                      "should not happen, but trying to continue regardless. If "
600                      "AFS starts hanging or behaving strangely, this might be "
601                      "why.\n",
602                      adc->index, newSize, afs_OtherCSize);
603         }
604     }
605
606     adc->dflags |= DFEntryMod;
607     oldSize = ((adc->f.chunkBytes + afs_fsfragsize) ^ afs_fsfragsize) >> 10;    /* round up */
608     adc->f.chunkBytes = newSize;
609     if (!newSize)
610         adc->validPos = 0;
611     newSize = ((newSize + afs_fsfragsize) ^ afs_fsfragsize) >> 10;      /* round up */
612     afs_DCAdjustSize(adc, oldSize, newSize);
613     if ((newSize > oldSize) && !AFS_IS_DISCONNECTED) {
614
615         /* We're growing the file, wakeup the daemon */
616         afs_MaybeWakeupTruncateDaemon();
617     }
618     afs_blocksUsed += (newSize - oldSize);
619     afs_stats_cmperf.cacheBlocksInUse = afs_blocksUsed; /* XXX */
620 }
621
622
623 /*!
624  * This routine is responsible for moving at least one entry (but up
625  * to some number of them) from the LRU queue to the free queue.
626  *
627  * \param anumber Number of entries that should ideally be moved.
628  * \param aneedSpace How much space we need (1K blocks);
629  *
630  * \note Environment:
631  *      The anumber parameter is just a hint; at least one entry MUST be
632  *      moved, or we'll panic.  We must be called with afs_xdcache
633  *      write-locked.  We should try to satisfy both anumber and aneedspace,
634  *      whichever is more demanding - need to do several things:
635  *      1.  only grab up to anumber victims if aneedSpace <= 0, not
636  *          the whole set of MAXATONCE.
637  *      2.  dynamically choose MAXATONCE to reflect severity of
638  *          demand: something like (*aneedSpace >> (logChunk - 9))
639  *
640  *  \note N.B. if we're called with aneedSpace <= 0 and anumber > 0, that
641  *  indicates that the cache is not properly configured/tuned or
642  *  something. We should be able to automatically correct that problem.
643  */
644
645 #define MAXATONCE   16          /* max we can obtain at once */
646 static void
647 afs_GetDownD(int anumber, int *aneedSpace, afs_int32 buckethint)
648 {
649
650     struct dcache *tdc;
651     struct VenusFid *afid;
652     afs_int32 i, j;
653     afs_hyper_t vtime;
654     int skip, phase;
655     struct vcache *tvc;
656     afs_uint32 victims[MAXATONCE];
657     struct dcache *victimDCs[MAXATONCE];
658     afs_hyper_t victimTimes[MAXATONCE]; /* youngest (largest LRU time) first */
659     afs_uint32 victimPtr;       /* next free item in victim arrays */
660     afs_hyper_t maxVictimTime;  /* youngest (largest LRU time) victim */
661     afs_uint32 maxVictimPtr;    /* where it is */
662     int discard;
663     int curbucket;
664
665     AFS_STATCNT(afs_GetDownD);
666
667     if (CheckLock(&afs_xdcache) != -1)
668         osi_Panic("getdownd nolock");
669     /* decrement anumber first for all dudes in free list */
670     /* SHOULD always decrement anumber first, even if aneedSpace >0,
671      * because we should try to free space even if anumber <=0 */
672     if (!aneedSpace || *aneedSpace <= 0) {
673         anumber -= afs_freeDCCount;
674         if (anumber <= 0) {
675             return;             /* enough already free */
676         }
677     }
678
679     /* bounds check parameter */
680     if (anumber > MAXATONCE)
681         anumber = MAXATONCE;    /* all we can do */
682
683     /* rewrite so phases include a better eligiblity for gc test*/
684     /*
685      * The phase variable manages reclaims.  Set to 0, the first pass,
686      * we don't reclaim active entries, or other than target bucket.
687      * Set to 1, we reclaim even active ones in target bucket.
688      * Set to 2, we reclaim any inactive one.
689      * Set to 3, we reclaim even active ones. On Solaris, we also reclaim
690      * entries whose corresponding vcache has a nonempty multiPage list, when
691      * possible.
692      */
693     if (splitdcache) {
694         phase = 0;
695     } else {
696         phase = 4;
697     }
698
699     for (i = 0; i < afs_cacheFiles; i++)
700         /* turn off all flags */
701         afs_indexFlags[i] &= ~IFFlag;
702
703     while (anumber > 0 || (aneedSpace && *aneedSpace > 0)) {
704         /* find oldest entries for reclamation */
705         maxVictimPtr = victimPtr = 0;
706         hzero(maxVictimTime);
707         curbucket = afs_DCWhichBucket(phase, buckethint);
708         /* select victims from access time array */
709         for (i = 0; i < afs_cacheFiles; i++) {
710             if (afs_indexFlags[i] & (IFDataMod | IFFree | IFDiscarded)) {
711                 /* skip if dirty or already free */
712                 continue;
713             }
714             tdc = afs_indexTable[i];
715             if (tdc && (curbucket != tdc->bucket) && (phase < 4))
716             {
717                 /* Wrong bucket; can't use it! */
718                 continue;
719             }
720             if (tdc && (tdc->refCount != 0)) {
721                 /* Referenced; can't use it! */
722                 continue;
723             }
724             hset(vtime, afs_indexTimes[i]);
725
726             /* if we've already looked at this one, skip it */
727             if (afs_indexFlags[i] & IFFlag)
728                 continue;
729
730             if (victimPtr < MAXATONCE) {
731                 /* if there's at least one free victim slot left */
732                 victims[victimPtr] = i;
733                 hset(victimTimes[victimPtr], vtime);
734                 if (hcmp(vtime, maxVictimTime) > 0) {
735                     hset(maxVictimTime, vtime);
736                     maxVictimPtr = victimPtr;
737                 }
738                 victimPtr++;
739             } else if (hcmp(vtime, maxVictimTime) < 0) {
740                 /*
741                  * We're older than youngest victim, so we replace at
742                  * least one victim
743                  */
744                 /* find youngest (largest LRU) victim */
745                 j = maxVictimPtr;
746                 if (j == victimPtr)
747                     osi_Panic("getdownd local");
748                 victims[j] = i;
749                 hset(victimTimes[j], vtime);
750                 /* recompute maxVictimTime */
751                 hset(maxVictimTime, vtime);
752                 for (j = 0; j < victimPtr; j++)
753                     if (hcmp(maxVictimTime, victimTimes[j]) < 0) {
754                         hset(maxVictimTime, victimTimes[j]);
755                         maxVictimPtr = j;
756                     }
757             }
758         }                       /* big for loop */
759
760         /* now really reclaim the victims */
761         j = 0;                  /* flag to track if we actually got any of the victims */
762         /* first, hold all the victims, since we're going to release the lock
763          * during the truncate operation.
764          */
765         for (i = 0; i < victimPtr; i++) {
766             tdc = afs_GetValidDSlot(victims[i]);
767             /* We got tdc->tlock(R) here */
768             if (tdc && tdc->refCount == 1)
769                 victimDCs[i] = tdc;
770             else
771                 victimDCs[i] = 0;
772             if (tdc) {
773                 ReleaseReadLock(&tdc->tlock);
774                 if (!victimDCs[i])
775                     afs_PutDCache(tdc);
776             }
777         }
778         for (i = 0; i < victimPtr; i++) {
779             /* q is first elt in dcache entry */
780             tdc = victimDCs[i];
781             /* now, since we're dropping the afs_xdcache lock below, we
782              * have to verify, before proceeding, that there are no other
783              * references to this dcache entry, even now.  Note that we
784              * compare with 1, since we bumped it above when we called
785              * afs_GetValidDSlot to preserve the entry's identity.
786              */
787             if (tdc && tdc->refCount == 1) {
788                 unsigned char chunkFlags;
789                 afs_size_t tchunkoffset = 0;
790                 afid = &tdc->f.fid;
791                 /* xdcache is lower than the xvcache lock */
792                 ReleaseWriteLock(&afs_xdcache);
793                 ObtainReadLock(&afs_xvcache);
794                 tvc = afs_FindVCache(afid, 0, 0 /* no stats, no vlru */ );
795                 ReleaseReadLock(&afs_xvcache);
796                 ObtainWriteLock(&afs_xdcache, 527);
797                 skip = 0;
798                 if (tdc->refCount > 1)
799                     skip = 1;
800                 if (tvc) {
801                     tchunkoffset = AFS_CHUNKTOBASE(tdc->f.chunk);
802                     chunkFlags = afs_indexFlags[tdc->index];
803                     if (((phase & 1) == 0) && osi_Active(tvc))
804                         skip = 1;
805                     if (((phase & 1) == 1) && osi_Active(tvc)
806                         && (tvc->f.states & CDCLock)
807                         && (chunkFlags & IFAnyPages))
808                         skip = 1;
809                     if (chunkFlags & IFDataMod)
810                         skip = 1;
811                     afs_Trace4(afs_iclSetp, CM_TRACE_GETDOWND,
812                                ICL_TYPE_POINTER, tvc, ICL_TYPE_INT32, skip,
813                                ICL_TYPE_INT32, tdc->index, ICL_TYPE_OFFSET,
814                                ICL_HANDLE_OFFSET(tchunkoffset));
815
816 #if     defined(AFS_SUN5_ENV)
817                     /*
818                      * Now we try to invalidate pages.  We do this only for
819                      * Solaris.  For other platforms, it's OK to recycle a
820                      * dcache entry out from under a page, because the strategy
821                      * function can call afs_GetDCache().
822                      */
823                     if (!skip && (chunkFlags & IFAnyPages)) {
824                         int code;
825
826                         ReleaseWriteLock(&afs_xdcache);
827                         ObtainWriteLock(&tvc->vlock, 543);
828                         if (!QEmpty(&tvc->multiPage)) {
829                             if (phase < 3 || osi_VM_MultiPageConflict(tvc, tdc)) {
830                                 skip = 1;
831                                 goto endmultipage;
832                             }
833                         }
834                         /* block locking pages */
835                         tvc->vstates |= VPageCleaning;
836                         /* block getting new pages */
837                         tvc->activeV++;
838                         ReleaseWriteLock(&tvc->vlock);
839                         /* One last recheck */
840                         ObtainWriteLock(&afs_xdcache, 333);
841                         chunkFlags = afs_indexFlags[tdc->index];
842                         if (tdc->refCount > 1 || (chunkFlags & IFDataMod)
843                             || (osi_Active(tvc) && (tvc->f.states & CDCLock)
844                                 && (chunkFlags & IFAnyPages))) {
845                             skip = 1;
846                             ReleaseWriteLock(&afs_xdcache);
847                             goto endputpage;
848                         }
849                         ReleaseWriteLock(&afs_xdcache);
850
851                         code = osi_VM_GetDownD(tvc, tdc);
852
853                         ObtainWriteLock(&afs_xdcache, 269);
854                         /* we actually removed all pages, clean and dirty */
855                         if (code == 0) {
856                             afs_indexFlags[tdc->index] &=
857                                 ~(IFDirtyPages | IFAnyPages);
858                         } else
859                             skip = 1;
860                         ReleaseWriteLock(&afs_xdcache);
861                       endputpage:
862                         ObtainWriteLock(&tvc->vlock, 544);
863                         if (--tvc->activeV == 0
864                             && (tvc->vstates & VRevokeWait)) {
865                             tvc->vstates &= ~VRevokeWait;
866                             afs_osi_Wakeup((char *)&tvc->vstates);
867
868                         }
869                         if (tvc->vstates & VPageCleaning) {
870                             tvc->vstates &= ~VPageCleaning;
871                             afs_osi_Wakeup((char *)&tvc->vstates);
872                         }
873                       endmultipage:
874                         ReleaseWriteLock(&tvc->vlock);
875                     } else
876 #endif /* AFS_SUN5_ENV */
877                     {
878                         ReleaseWriteLock(&afs_xdcache);
879                     }
880
881                     afs_PutVCache(tvc); /*XXX was AFS_FAST_RELE?*/
882                     ObtainWriteLock(&afs_xdcache, 528);
883                     if (afs_indexFlags[tdc->index] &
884                         (IFDataMod | IFDirtyPages | IFAnyPages))
885                         skip = 1;
886                     if (tdc->refCount > 1)
887                         skip = 1;
888                 }
889 #if     defined(AFS_SUN5_ENV)
890                 else {
891                     /* no vnode, so IFDirtyPages is spurious (we don't
892                      * sweep dcaches on vnode recycling, so we can have
893                      * DIRTYPAGES set even when all pages are gone).  Just
894                      * clear the flag.
895                      * Hold vcache lock to prevent vnode from being
896                      * created while we're clearing IFDirtyPages.
897                      */
898                     afs_indexFlags[tdc->index] &=
899                         ~(IFDirtyPages | IFAnyPages);
900                 }
901 #endif
902                 if (skip) {
903                     /* skip this guy and mark him as recently used */
904                     afs_indexFlags[tdc->index] |= IFFlag;
905                     afs_Trace4(afs_iclSetp, CM_TRACE_GETDOWND,
906                                ICL_TYPE_POINTER, tvc, ICL_TYPE_INT32, 2,
907                                ICL_TYPE_INT32, tdc->index, ICL_TYPE_OFFSET,
908                                ICL_HANDLE_OFFSET(tchunkoffset));
909                 } else {
910                     /* flush this dude from the data cache and reclaim;
911                      * first, make sure no one will care that we damage
912                      * it, by removing it from all hash tables.  Then,
913                      * melt it down for parts.  Note that any concurrent
914                      * (new possibility!) calls to GetDownD won't touch
915                      * this guy because his reference count is > 0. */
916                     afs_Trace4(afs_iclSetp, CM_TRACE_GETDOWND,
917                                ICL_TYPE_POINTER, tvc, ICL_TYPE_INT32, 3,
918                                ICL_TYPE_INT32, tdc->index, ICL_TYPE_OFFSET,
919                                ICL_HANDLE_OFFSET(tchunkoffset));
920                     AFS_STATCNT(afs_gget);
921                     afs_HashOutDCache(tdc, 1);
922                     if (tdc->f.chunkBytes != 0) {
923                         discard = 1;
924                         if (aneedSpace)
925                             *aneedSpace -=
926                                 (tdc->f.chunkBytes + afs_fsfragsize) >> 10;
927                     } else {
928                         discard = 0;
929                     }
930                     if (discard) {
931                         afs_DiscardDCache(tdc);
932                     } else {
933                         afs_FreeDCache(tdc);
934                     }
935                     anumber--;
936                     j = 1;      /* we reclaimed at least one victim */
937                 }
938             }
939             if (tdc)
940                 afs_PutDCache(tdc);
941         }                       /* end of for victims loop */
942
943         if (phase < 5) {
944             /* Phase is 0 and no one was found, so try phase 1 (ignore
945              * osi_Active flag) */
946             if (j == 0) {
947                 phase++;
948                 for (i = 0; i < afs_cacheFiles; i++)
949                     /* turn off all flags */
950                     afs_indexFlags[i] &= ~IFFlag;
951             }
952         } else {
953             /* found no one in phases 0-5, we're hosed */
954             if (victimPtr == 0)
955                 break;
956         }
957     }                           /* big while loop */
958
959     return;
960
961 }                               /*afs_GetDownD */
962
963
964 /*!
965  * Remove adc from any hash tables that would allow it to be located
966  * again by afs_FindDCache or afs_GetDCache.
967  *
968  * \param adc Pointer to dcache entry to remove from hash tables.
969  *
970  * \note Locks: Must have the afs_xdcache lock write-locked to call this function.
971  *
972  */
973 int
974 afs_HashOutDCache(struct dcache *adc, int zap)
975 {
976     int i, us;
977
978     AFS_STATCNT(afs_glink);
979     if (zap)
980         /* we know this guy's in the LRUQ.  We'll move dude into DCQ below */
981         DZap(adc);
982     /* if this guy is in the hash table, pull him out */
983     if (adc->f.fid.Fid.Volume != 0) {
984         /* remove entry from first hash chains */
985         i = DCHash(&adc->f.fid, adc->f.chunk);
986         us = afs_dchashTbl[i];
987         if (us == adc->index) {
988             /* first dude in the list */
989             afs_dchashTbl[i] = afs_dcnextTbl[adc->index];
990         } else {
991             /* somewhere on the chain */
992             while (us != NULLIDX) {
993                 if (afs_dcnextTbl[us] == adc->index) {
994                     /* found item pointing at the one to delete */
995                     afs_dcnextTbl[us] = afs_dcnextTbl[adc->index];
996                     break;
997                 }
998                 us = afs_dcnextTbl[us];
999             }
1000             if (us == NULLIDX)
1001                 osi_Panic("dcache hc");
1002         }
1003         /* remove entry from *other* hash chain */
1004         i = DVHash(&adc->f.fid);
1005         us = afs_dvhashTbl[i];
1006         if (us == adc->index) {
1007             /* first dude in the list */
1008             afs_dvhashTbl[i] = afs_dvnextTbl[adc->index];
1009         } else {
1010             /* somewhere on the chain */
1011             while (us != NULLIDX) {
1012                 if (afs_dvnextTbl[us] == adc->index) {
1013                     /* found item pointing at the one to delete */
1014                     afs_dvnextTbl[us] = afs_dvnextTbl[adc->index];
1015                     break;
1016                 }
1017                 us = afs_dvnextTbl[us];
1018             }
1019             if (us == NULLIDX)
1020                 osi_Panic("dcache hv");
1021         }
1022     }
1023
1024     if (zap) {
1025         /* prevent entry from being found on a reboot (it is already out of
1026          * the hash table, but after a crash, we just look at fid fields of
1027          * stable (old) entries).
1028          */
1029          adc->f.fid.Fid.Volume = 0;     /* invalid */
1030
1031         /* mark entry as modified */
1032         adc->dflags |= DFEntryMod;
1033     }
1034
1035     /* all done */
1036     return 0;
1037 }                               /*afs_HashOutDCache */
1038
1039 /*!
1040  * Flush the given dcache entry, pulling it from hash chains
1041  * and truncating the associated cache file.
1042  *
1043  * \param adc Ptr to dcache entry to flush.
1044  *
1045  * \note Environment:
1046  *      This routine must be called with the afs_xdcache lock held
1047  *      (in write mode).
1048  */
1049 void
1050 afs_FlushDCache(struct dcache *adc)
1051 {
1052     AFS_STATCNT(afs_FlushDCache);
1053     /*
1054      * Bump the number of cache files flushed.
1055      */
1056     afs_stats_cmperf.cacheFlushes++;
1057
1058     /* remove from all hash tables */
1059     afs_HashOutDCache(adc, 1);
1060
1061     /* Free its space; special case null operation, since truncate operation
1062      * in UFS is slow even in this case, and this allows us to pre-truncate
1063      * these files at more convenient times with fewer locks set
1064      * (see afs_GetDownD).
1065      */
1066     if (adc->f.chunkBytes != 0) {
1067         afs_DiscardDCache(adc);
1068         afs_MaybeWakeupTruncateDaemon();
1069     } else {
1070         afs_FreeDCache(adc);
1071     }
1072 }                               /*afs_FlushDCache */
1073
1074
1075 /*!
1076  * Put a dcache entry on the free dcache entry list.
1077  *
1078  * \param adc dcache entry to free.
1079  *
1080  * \note Environment: called with afs_xdcache lock write-locked.
1081  */
1082 static void
1083 afs_FreeDCache(struct dcache *adc)
1084 {
1085     /* Thread on free list, update free list count and mark entry as
1086      * freed in its indexFlags element.  Also, ensure DCache entry gets
1087      * written out (set DFEntryMod).
1088      */
1089
1090     afs_dvnextTbl[adc->index] = afs_freeDCList;
1091     afs_freeDCList = adc->index;
1092     afs_freeDCCount++;
1093     afs_indexFlags[adc->index] |= IFFree;
1094     adc->dflags |= DFEntryMod;
1095
1096     afs_WakeCacheWaitersIfDrained();
1097 }                               /* afs_FreeDCache */
1098
1099 /*!
1100  * Discard the cache element by moving it to the discardDCList.
1101  * This puts the cache element into a quasi-freed state, where
1102  * the space may be reused, but the file has not been truncated.
1103  *
1104  * \note Major Assumptions Here:
1105  *      Assumes that frag size is an integral power of two, less one,
1106  *      and that this is a two's complement machine.  I don't
1107  *      know of any filesystems which violate this assumption...
1108  *
1109  * \param adr Ptr to dcache entry.
1110  *
1111  * \note Environment:
1112  *      Must be called with afs_xdcache write-locked.
1113  */
1114
1115 static void
1116 afs_DiscardDCache(struct dcache *adc)
1117 {
1118     afs_int32 size;
1119
1120     AFS_STATCNT(afs_DiscardDCache);
1121
1122     osi_Assert(adc->refCount == 1);
1123
1124     size = ((adc->f.chunkBytes + afs_fsfragsize) ^ afs_fsfragsize) >> 10;       /* round up */
1125     afs_blocksDiscarded += size;
1126     afs_stats_cmperf.cacheBlocksDiscarded = afs_blocksDiscarded;
1127
1128     afs_dvnextTbl[adc->index] = afs_discardDCList;
1129     afs_discardDCList = adc->index;
1130     afs_discardDCCount++;
1131
1132     adc->f.fid.Fid.Volume = 0;
1133     adc->dflags |= DFEntryMod;
1134     afs_indexFlags[adc->index] |= IFDiscarded;
1135
1136     afs_WakeCacheWaitersIfDrained();
1137 }                               /*afs_DiscardDCache */
1138
1139 /**
1140  * Get a dcache entry from the discard or free list
1141  *
1142  * @param[out] adc    On success, a dcache from the given list. Otherwise, NULL.
1143  * @param[in] indexp  A pointer to the head of the dcache free list or discard
1144  *                    list (afs_freeDCList, or afs_discardDCList)
1145  *
1146  * @return 0 on success. If there are no dcache slots available, return ENOSPC.
1147  *         If we encountered an error in disk i/o while trying to find a
1148  *         dcache, return EIO.
1149  *
1150  * @pre afs_xdcache is write-locked
1151  */
1152 static int
1153 afs_GetDSlotFromList(struct dcache **adc, afs_int32 *indexp)
1154 {
1155     struct dcache *tdc;
1156
1157     *adc = NULL;
1158
1159     if (*indexp == NULLIDX) {
1160         return ENOSPC;
1161     }
1162
1163     tdc = afs_GetUnusedDSlot(*indexp);
1164     if (tdc == NULL) {
1165         return EIO;
1166     }
1167
1168     osi_Assert(tdc->refCount == 1);
1169     ReleaseReadLock(&tdc->tlock);
1170     *indexp = afs_dvnextTbl[tdc->index];
1171     afs_dvnextTbl[tdc->index] = NULLIDX;
1172
1173     *adc = tdc;
1174     return 0;
1175 }
1176
1177 /*!
1178  * Free the next element on the list of discarded cache elements.
1179  *
1180  * Returns -1 if we encountered an error preventing us from freeing a
1181  * discarded dcache, or 0 on success.
1182  */
1183 static int
1184 afs_FreeDiscardedDCache(void)
1185 {
1186     struct dcache *tdc;
1187     struct osi_file *tfile;
1188     afs_int32 size;
1189
1190     AFS_STATCNT(afs_FreeDiscardedDCache);
1191
1192     ObtainWriteLock(&afs_xdcache, 510);
1193     if (!afs_blocksDiscarded) {
1194         ReleaseWriteLock(&afs_xdcache);
1195         return 0;
1196     }
1197
1198     /*
1199      * Get an entry from the list of discarded cache elements
1200      */
1201     (void)afs_GetDSlotFromList(&tdc, &afs_discardDCList);
1202     if (!tdc) {
1203         ReleaseWriteLock(&afs_xdcache);
1204         return -1;
1205     }
1206
1207     afs_discardDCCount--;
1208     size = ((tdc->f.chunkBytes + afs_fsfragsize) ^ afs_fsfragsize) >> 10;       /* round up */
1209     afs_blocksDiscarded -= size;
1210     afs_stats_cmperf.cacheBlocksDiscarded = afs_blocksDiscarded;
1211     /* We can lock because we just took it off the free list */
1212     ObtainWriteLock(&tdc->lock, 626);
1213     ReleaseWriteLock(&afs_xdcache);
1214
1215     /*
1216      * Truncate the element to reclaim its space
1217      */
1218     tfile = afs_CFileOpen(&tdc->f.inode);
1219     osi_Assert(tfile);
1220     afs_CFileTruncate(tfile, 0);
1221     afs_CFileClose(tfile);
1222     afs_AdjustSize(tdc, 0);
1223     afs_DCMoveBucket(tdc, 0, 0);
1224
1225     /*
1226      * Free the element we just truncated
1227      */
1228     ObtainWriteLock(&afs_xdcache, 511);
1229     afs_indexFlags[tdc->index] &= ~IFDiscarded;
1230     afs_FreeDCache(tdc);
1231     tdc->f.states &= ~(DRO|DBackup|DRW);
1232     ReleaseWriteLock(&tdc->lock);
1233     afs_PutDCache(tdc);
1234     ReleaseWriteLock(&afs_xdcache);
1235
1236     return 0;
1237 }
1238
1239 /*!
1240  * Free as many entries from the list of discarded cache elements
1241  * as we need to get the free space down below CM_WAITFORDRAINPCT (98%).
1242  *
1243  * \return 0
1244  */
1245 int
1246 afs_MaybeFreeDiscardedDCache(void)
1247 {
1248
1249     AFS_STATCNT(afs_MaybeFreeDiscardedDCache);
1250
1251     while (afs_blocksDiscarded
1252            && (afs_blocksUsed >
1253                PERCENT(CM_WAITFORDRAINPCT, afs_cacheBlocks))) {
1254         int code = afs_FreeDiscardedDCache();
1255         if (code) {
1256             /* Callers depend on us to get the afs_blocksDiscarded count down.
1257              * If we cannot do that, the callers can spin by calling us over
1258              * and over. Panic for now until we can figure out something
1259              * better. */
1260             osi_Panic("Error freeing discarded dcache");
1261         }
1262     }
1263     return 0;
1264 }
1265
1266 /*!
1267  * Try to free up a certain number of disk slots.
1268  *
1269  * \param anumber Targeted number of disk slots to free up.
1270  *
1271  * \note Environment:
1272  *      Must be called with afs_xdcache write-locked.
1273  *
1274  */
1275 static void
1276 afs_GetDownDSlot(int anumber)
1277 {
1278     struct afs_q *tq, *nq;
1279     struct dcache *tdc;
1280     int ix;
1281     unsigned int cnt;
1282
1283     AFS_STATCNT(afs_GetDownDSlot);
1284     if (cacheDiskType == AFS_FCACHE_TYPE_MEM)
1285         osi_Panic("diskless getdowndslot");
1286
1287     if (CheckLock(&afs_xdcache) != -1)
1288         osi_Panic("getdowndslot nolock");
1289
1290     /* decrement anumber first for all dudes in free list */
1291     for (tdc = afs_freeDSList; tdc; tdc = (struct dcache *)tdc->lruq.next)
1292         anumber--;
1293     if (anumber <= 0)
1294         return;                 /* enough already free */
1295
1296     for (cnt = 0, tq = afs_DLRU.prev; tq != &afs_DLRU && anumber > 0;
1297          tq = nq, cnt++) {
1298         tdc = (struct dcache *)tq;      /* q is first elt in dcache entry */
1299         nq = QPrev(tq);         /* in case we remove it */
1300         if (tdc->refCount == 0) {
1301             if ((ix = tdc->index) == NULLIDX)
1302                 osi_Panic("getdowndslot");
1303
1304             /* write-through if modified */
1305             if (tdc->dflags & DFEntryMod) {
1306 #if defined(AFS_SGI_ENV) && defined(AFS_SGI_SHORTSTACK)
1307                 /*
1308                  * ask proxy to do this for us - we don't have the stack space
1309                  */
1310                 while (tdc->dflags & DFEntryMod) {
1311                     int s;
1312                     AFS_GUNLOCK();
1313                     s = SPLOCK(afs_sgibklock);
1314                     if (afs_sgibklist == NULL) {
1315                         /* if slot is free, grab it. */
1316                         afs_sgibklist = tdc;
1317                         SV_SIGNAL(&afs_sgibksync);
1318                     }
1319                     /* wait for daemon to (start, then) finish. */
1320                     SP_WAIT(afs_sgibklock, s, &afs_sgibkwait, PINOD);
1321                     AFS_GLOCK();
1322                 }
1323 #else
1324                 int code;
1325
1326                 code = afs_WriteDCache(tdc, 1);
1327                 if (code) {
1328                     /*
1329                      * We couldn't flush it at this time; return early because
1330                      * if afs_WriteDCache() failed once it is likely to
1331                      * continue failing for subsequent dcaches.
1332                      */
1333                     return;
1334                 }
1335                 tdc->dflags &= ~DFEntryMod;
1336 #endif
1337             }
1338
1339             /* pull the entry out of the lruq and put it on the free list */
1340             QRemove(&tdc->lruq);
1341             afs_indexTable[ix] = NULL;
1342             afs_indexFlags[ix] &= ~IFEverUsed;
1343             tdc->index = NULLIDX;
1344             tdc->lruq.next = (struct afs_q *)afs_freeDSList;
1345             afs_freeDSList = tdc;
1346             anumber--;
1347         }
1348     }
1349 }                               /*afs_GetDownDSlot */
1350
1351
1352 /*
1353  * afs_RefDCache
1354  *
1355  * Description:
1356  *      Increment the reference count on a disk cache entry,
1357  *      which already has a non-zero refcount.  In order to
1358  *      increment the refcount of a zero-reference entry, you
1359  *      have to hold afs_xdcache.
1360  *
1361  * Parameters:
1362  *      adc : Pointer to the dcache entry to increment.
1363  *
1364  * Environment:
1365  *      Nothing interesting.
1366  */
1367 int
1368 afs_RefDCache(struct dcache *adc)
1369 {
1370     ObtainWriteLock(&adc->tlock, 627);
1371     if (adc->refCount < 0)
1372         osi_Panic("RefDCache: negative refcount");
1373     adc->refCount++;
1374     ReleaseWriteLock(&adc->tlock);
1375     return 0;
1376 }
1377
1378
1379 /*
1380  * afs_PutDCache
1381  *
1382  * Description:
1383  *      Decrement the reference count on a disk cache entry.
1384  *
1385  * Parameters:
1386  *      ad : Ptr to the dcache entry to decrement.
1387  *
1388  * Environment:
1389  *      Nothing interesting.
1390  */
1391 int
1392 afs_PutDCache(struct dcache *adc)
1393 {
1394     AFS_STATCNT(afs_PutDCache);
1395     ObtainWriteLock(&adc->tlock, 276);
1396     if (adc->refCount <= 0)
1397         osi_Panic("putdcache");
1398     --adc->refCount;
1399     ReleaseWriteLock(&adc->tlock);
1400     return 0;
1401 }
1402
1403
1404 /*
1405  * afs_TryToSmush
1406  *
1407  * Description:
1408  *      Try to discard all data associated with this file from the
1409  *      cache.
1410  *
1411  * Parameters:
1412  *      avc : Pointer to the cache info for the file.
1413  *
1414  * Environment:
1415  *      Both pvnLock and lock are write held.
1416  */
1417 void
1418 afs_TryToSmush(struct vcache *avc, afs_ucred_t *acred, int sync)
1419 {
1420     struct dcache *tdc;
1421     int index;
1422     int i;
1423     AFS_STATCNT(afs_TryToSmush);
1424     afs_Trace2(afs_iclSetp, CM_TRACE_TRYTOSMUSH, ICL_TYPE_POINTER, avc,
1425                ICL_TYPE_OFFSET, ICL_HANDLE_OFFSET(avc->f.m.Length));
1426     sync = 1;                   /* XX Temp testing XX */
1427
1428 #if     defined(AFS_SUN5_ENV)
1429     ObtainWriteLock(&avc->vlock, 573);
1430     avc->activeV++;             /* block new getpages */
1431     ReleaseWriteLock(&avc->vlock);
1432 #endif
1433
1434     /* Flush VM pages */
1435     osi_VM_TryToSmush(avc, acred, sync);
1436
1437     /*
1438      * Get the hash chain containing all dce's for this fid
1439      */
1440     i = DVHash(&avc->f.fid);
1441     ObtainWriteLock(&afs_xdcache, 277);
1442     for (index = afs_dvhashTbl[i]; index != NULLIDX; index = i) {
1443         i = afs_dvnextTbl[index];       /* next pointer this hash table */
1444         if (afs_indexUnique[index] == avc->f.fid.Fid.Unique) {
1445             int releaseTlock = 1;
1446             tdc = afs_GetValidDSlot(index);
1447             if (!tdc) {
1448                 /* afs_TryToSmush is best-effort; we may not actually discard
1449                  * everything, so failure to discard dcaches due to an i/o
1450                  * error is okay. */
1451                 break;
1452             }
1453             if (!FidCmp(&tdc->f.fid, &avc->f.fid)) {
1454                 if (sync) {
1455                     if ((afs_indexFlags[index] & IFDataMod) == 0
1456                         && tdc->refCount == 1) {
1457                         ReleaseReadLock(&tdc->tlock);
1458                         releaseTlock = 0;
1459                         afs_FlushDCache(tdc);
1460                     }
1461                 } else
1462                     afs_indexTable[index] = 0;
1463             }
1464             if (releaseTlock)
1465                 ReleaseReadLock(&tdc->tlock);
1466             afs_PutDCache(tdc);
1467         }
1468     }
1469 #if     defined(AFS_SUN5_ENV)
1470     ObtainWriteLock(&avc->vlock, 545);
1471     if (--avc->activeV == 0 && (avc->vstates & VRevokeWait)) {
1472         avc->vstates &= ~VRevokeWait;
1473         afs_osi_Wakeup((char *)&avc->vstates);
1474     }
1475     ReleaseWriteLock(&avc->vlock);
1476 #endif
1477     ReleaseWriteLock(&afs_xdcache);
1478     /*
1479      * It's treated like a callback so that when we do lookups we'll
1480      * invalidate the unique bit if any
1481      * trytoSmush occured during the lookup call
1482      */
1483     afs_allCBs++;
1484 }
1485
1486 /*
1487  * afs_DCacheMissingChunks
1488  *
1489  * Description
1490  *      Given the cached info for a file, return the number of chunks that
1491  *      are not available from the dcache.
1492  *
1493  * Parameters:
1494  *      avc:    Pointer to the (held) vcache entry to look in.
1495  *
1496  * Returns:
1497  *      The number of chunks which are not currently cached.
1498  *
1499  * Environment:
1500  *      The vcache entry is held upon entry.
1501  */
1502
1503 int
1504 afs_DCacheMissingChunks(struct vcache *avc)
1505 {
1506     int i, index;
1507     afs_size_t totalLength = 0;
1508     afs_uint32 totalChunks = 0;
1509     struct dcache *tdc;
1510
1511     totalLength = avc->f.m.Length;
1512     if (avc->f.truncPos < totalLength)
1513         totalLength = avc->f.truncPos;
1514
1515     /* Length is 0, no chunk missing. */
1516     if (totalLength == 0)
1517         return 0;
1518
1519     /* If totalLength is a multiple of chunksize, the last byte appears
1520      * as being part of the next chunk, which does not exist.
1521      * Decrementing totalLength by one fixes that.
1522      */
1523     totalLength--;
1524     totalChunks = (AFS_CHUNK(totalLength) + 1);
1525
1526     /* If we're a directory, we only ever have one chunk, regardless of
1527      * the size of the dir.
1528      */
1529     if (avc->f.fid.Fid.Vnode & 1 || vType(avc) == VDIR)
1530         totalChunks = 1;
1531
1532     /*
1533      printf("Should have %d chunks for %u bytes\n",
1534                 totalChunks, (totalLength + 1));
1535     */
1536     i = DVHash(&avc->f.fid);
1537     ObtainWriteLock(&afs_xdcache, 1001);
1538     for (index = afs_dvhashTbl[i]; index != NULLIDX; index = i) {
1539         i = afs_dvnextTbl[index];
1540         if (afs_indexUnique[index] == avc->f.fid.Fid.Unique) {
1541             tdc = afs_GetValidDSlot(index);
1542             if (!tdc) {
1543                 break;
1544             }
1545             if (!FidCmp(&tdc->f.fid, &avc->f.fid)) {
1546                 totalChunks--;
1547             }
1548             ReleaseReadLock(&tdc->tlock);
1549             afs_PutDCache(tdc);
1550         }
1551     }
1552     ReleaseWriteLock(&afs_xdcache);
1553
1554     /*printf("Missing %d chunks\n", totalChunks);*/
1555
1556     return (totalChunks);
1557 }
1558
1559 /*
1560  * afs_FindDCache
1561  *
1562  * Description:
1563  *      Given the cached info for a file and a byte offset into the
1564  *      file, make sure the dcache entry for that file and containing
1565  *      the given byte is available, returning it to our caller.
1566  *
1567  * Parameters:
1568  *      avc   : Pointer to the (held) vcache entry to look in.
1569  *      abyte : Which byte we want to get to.
1570  *
1571  * Returns:
1572  *      Pointer to the dcache entry covering the file & desired byte,
1573  *      or NULL if not found.
1574  *
1575  * Environment:
1576  *      The vcache entry is held upon entry.
1577  */
1578
1579 struct dcache *
1580 afs_FindDCache(struct vcache *avc, afs_size_t abyte)
1581 {
1582     afs_int32 chunk;
1583     afs_int32 i, index;
1584     struct dcache *tdc = NULL;
1585
1586     AFS_STATCNT(afs_FindDCache);
1587     chunk = AFS_CHUNK(abyte);
1588
1589     /*
1590      * Hash on the [fid, chunk] and get the corresponding dcache index
1591      * after write-locking the dcache.
1592      */
1593     i = DCHash(&avc->f.fid, chunk);
1594     ObtainWriteLock(&afs_xdcache, 278);
1595     for (index = afs_dchashTbl[i]; index != NULLIDX; index = afs_dcnextTbl[index]) {
1596         if (afs_indexUnique[index] == avc->f.fid.Fid.Unique) {
1597             tdc = afs_GetValidDSlot(index);
1598             if (!tdc) {
1599                 /* afs_FindDCache is best-effort; we may not find the given
1600                  * file/offset, so if we cannot find the given dcache due to
1601                  * i/o errors, that is okay. */
1602                 index = NULLIDX;
1603                 break;
1604             }
1605             ReleaseReadLock(&tdc->tlock);
1606             if (!FidCmp(&tdc->f.fid, &avc->f.fid) && chunk == tdc->f.chunk) {
1607                 break;          /* leaving refCount high for caller */
1608             }
1609             afs_PutDCache(tdc);
1610         }
1611     }
1612     if (index != NULLIDX) {
1613         hset(afs_indexTimes[tdc->index], afs_indexCounter);
1614         hadd32(afs_indexCounter, 1);
1615         ReleaseWriteLock(&afs_xdcache);
1616         return tdc;
1617     }
1618     ReleaseWriteLock(&afs_xdcache);
1619     return NULL;
1620 }                               /*afs_FindDCache */
1621
1622 /* only call these from afs_AllocDCache() */
1623 static int
1624 afs_AllocFreeDSlot(struct dcache **adc)
1625 {
1626     int code;
1627     struct dcache *tdc;
1628
1629     code = afs_GetDSlotFromList(&tdc, &afs_freeDCList);
1630     if (code) {
1631         return code;
1632     }
1633     afs_indexFlags[tdc->index] &= ~IFFree;
1634     ObtainWriteLock(&tdc->lock, 604);
1635     afs_freeDCCount--;
1636
1637     *adc = tdc;
1638     return 0;
1639 }
1640 static int
1641 afs_AllocDiscardDSlot(struct dcache **adc, afs_int32 lock)
1642 {
1643     int code;
1644     struct dcache *tdc;
1645     afs_uint32 size = 0;
1646     struct osi_file *file;
1647
1648     code = afs_GetDSlotFromList(&tdc, &afs_discardDCList);
1649     if (code) {
1650         return code;
1651     }
1652     afs_indexFlags[tdc->index] &= ~IFDiscarded;
1653     ObtainWriteLock(&tdc->lock, 605);
1654     afs_discardDCCount--;
1655     size =
1656         ((tdc->f.chunkBytes +
1657           afs_fsfragsize) ^ afs_fsfragsize) >> 10;
1658     tdc->f.states &= ~(DRO|DBackup|DRW);
1659     afs_DCMoveBucket(tdc, size, 0);
1660     afs_blocksDiscarded -= size;
1661     afs_stats_cmperf.cacheBlocksDiscarded = afs_blocksDiscarded;
1662     if ((lock & 2)) {
1663         /* Truncate the chunk so zeroes get filled properly */
1664         file = afs_CFileOpen(&tdc->f.inode);
1665         osi_Assert(file);
1666         afs_CFileTruncate(file, 0);
1667         afs_CFileClose(file);
1668         afs_AdjustSize(tdc, 0);
1669     }
1670
1671     *adc = tdc;
1672     return 0;
1673 }
1674
1675 /*!
1676  * Get a fresh dcache from the free or discarded list.
1677  *
1678  * \param adc Set to the new dcache on success, and NULL on error.
1679  * \param avc Who's dcache is this going to be?
1680  * \param chunk The position where it will be placed in.
1681  * \param lock How are locks held.
1682  * \param ashFid If this dcache going to be used for a shadow dir,
1683  *              this is it's fid.
1684  *
1685  * \note Required locks:
1686  *      - afs_xdcache (W)
1687  *      - avc (R if (lock & 1) set and W otherwise)
1688  * \note It write locks the new dcache. The caller must unlock it.
1689  *
1690  * \return If we're out of dslots, ENOSPC. If we encountered disk errors, EIO.
1691  *         On success, return 0.
1692  */
1693 static int
1694 afs_AllocDCache(struct dcache **adc, struct vcache *avc, afs_int32 chunk,
1695                 afs_int32 lock, struct VenusFid *ashFid)
1696 {
1697     int code;
1698     struct dcache *tdc = NULL;
1699
1700     *adc = NULL;
1701
1702     /* if (lock & 2), prefer 'free' dcaches; otherwise, prefer 'discard'
1703      * dcaches. In either case, try both if our first choice doesn't work due
1704      * to ENOSPC. */
1705     if ((lock & 2)) {
1706         code = afs_AllocFreeDSlot(&tdc);
1707         if (code == ENOSPC) {
1708             code = afs_AllocDiscardDSlot(&tdc, lock);
1709         }
1710     } else {
1711         code = afs_AllocDiscardDSlot(&tdc, lock);
1712         if (code == ENOSPC) {
1713             code = afs_AllocFreeDSlot(&tdc);
1714         }
1715     }
1716     if (code) {
1717         return code;
1718     }
1719
1720     /*
1721      * Locks held:
1722      * avc->lock(R) if setLocks
1723      * avc->lock(W) if !setLocks
1724      * tdc->lock(W)
1725      * afs_xdcache(W)
1726      */
1727
1728     /*
1729      * Fill in the newly-allocated dcache record.
1730      */
1731     afs_indexFlags[tdc->index] &= ~(IFDirtyPages | IFAnyPages);
1732     if (ashFid)
1733         /* Use shadow fid if provided. */
1734         tdc->f.fid = *ashFid;
1735     else
1736         /* Use normal vcache's fid otherwise. */
1737         tdc->f.fid = avc->f.fid;
1738     if (avc->f.states & CRO)
1739         tdc->f.states = DRO;
1740     else if (avc->f.states & CBackup)
1741         tdc->f.states = DBackup;
1742     else
1743         tdc->f.states = DRW;
1744     afs_DCMoveBucket(tdc, 0, afs_DCGetBucket(avc));
1745     afs_indexUnique[tdc->index] = tdc->f.fid.Fid.Unique;
1746     if (!ashFid)
1747         hones(tdc->f.versionNo);        /* invalid value */
1748     tdc->f.chunk = chunk;
1749     tdc->validPos = AFS_CHUNKTOBASE(chunk);
1750     /* XXX */
1751     if (tdc->lruq.prev == &tdc->lruq)
1752         osi_Panic("lruq 1");
1753
1754     *adc = tdc;
1755     return 0;
1756 }
1757
1758 static int
1759 IsDCacheSizeOK(struct dcache *adc, struct vcache *avc, afs_int32 chunk_bytes,
1760                afs_size_t file_length, afs_uint32 versionNo, int from_net)
1761 {
1762     afs_size_t expected_bytes;
1763     afs_size_t chunk_start = AFS_CHUNKTOBASE(adc->f.chunk);
1764
1765     if (vType(avc) == VDIR) {
1766         /*
1767          * Directory blobs may be constructed locally (see afs_LocalHero), and
1768          * the size of the blob may differ slightly compared to what's on the
1769          * fileserver. So, skip size checks for directories.
1770          */
1771         return 1;
1772     }
1773
1774     if ((avc->f.states & CDirty)) {
1775         /*
1776          * Our vcache may have writes that are local to our cache, but not yet
1777          * written to the fileserver. In such a situation, we may have dcaches
1778          * for that file that are "short". For example:
1779          *
1780          * Say we have a file that is 0 bytes long. A process opens that file,
1781          * and writes some data to offset 5M (keeping the file open). Another
1782          * process comes along and reads data from offset 1M. We'll try to
1783          * fetch data at offset 1M, and the fileserver will respond with 0
1784          * bytes, since our locally-written data hasn't been written to the
1785          * fileserver yet (on the fileserver, the file is still 0-bytes long).
1786          * So our dcache at offset 1M will have 0 bytes.
1787          *
1788          * So if CDirty is set, don't do any size/length checks at all, since
1789          * we have no idea if the avc length is valid.
1790          */
1791         return 1;
1792     }
1793
1794     if (!from_net && (adc->f.states & DRW)) {
1795         /*
1796          * The dcache data we're looking at is from our local cache (not from a
1797          * fileserver), and it's for data in an RW volume. For cached RW data,
1798          * there are some edge cases that can cause the below length checks to
1799          * trigger false positives.
1800          *
1801          * For example: if the local client writes 4 bytes to a new file at
1802          * offset 0, and then 4 bytes at offset 0x400000, the file will be
1803          * 0x400004 bytes long, but the first dcache chunk will only contain 4
1804          * bytes. If such a file is fetched from a fileserver, the first chunk
1805          * will have a full chunk of data (most of it zeroes), but on the
1806          * client that did the write, the sparse data will not appear in the
1807          * dcache.
1808          *
1809          * Such false positives should only be possible with RW data, since
1810          * non-RW data is never generated locally. So to avoid the false
1811          * positives, assume the dcache length is OK for RW data if the dcache
1812          * came from our local cache (and not directly from a fileserver).
1813          */
1814         return 1;
1815     }
1816
1817     if (file_length < chunk_start) {
1818         expected_bytes = 0;
1819
1820     } else {
1821         expected_bytes = file_length - chunk_start;
1822
1823         if (vType(avc) != VDIR && expected_bytes > AFS_CHUNKTOSIZE(adc->f.chunk)) {
1824             /* A non-dir chunk cannot have more bytes than the chunksize. */
1825             expected_bytes = AFS_CHUNKTOSIZE(adc->f.chunk);
1826         }
1827     }
1828
1829     if (chunk_bytes != expected_bytes) {
1830         static const afs_uint32 one_hour = 60 * 60;
1831         static afs_uint32 last_warn;
1832         afs_uint32 now = osi_Time();
1833
1834         if (now < last_warn) {
1835             /* clock went backwards */
1836             last_warn = now;
1837         }
1838
1839         if (now - last_warn > one_hour) {
1840             unsigned int mtime = adc->f.modTime;
1841
1842             last_warn = now;
1843
1844             if (from_net) {
1845                 /*
1846                  * The dcache we're looking at didn't come from the cache, but is
1847                  * being populated from the net. Don't print out its mtime in that
1848                  * case; that would be misleading since that's the mtime from the
1849                  * last time this dcache slot was written to.
1850                  */
1851                 mtime = 0;
1852             }
1853
1854             afs_warn("afs: Detected corrupt dcache for file %d.%u.%u.%u: chunk %d "
1855                      "(offset %lu) has %d bytes, but it should have %lu bytes\n",
1856                      adc->f.fid.Cell,
1857                      adc->f.fid.Fid.Volume,
1858                      adc->f.fid.Fid.Vnode,
1859                      adc->f.fid.Fid.Unique,
1860                      adc->f.chunk,
1861                      (unsigned long)chunk_start,
1862                      chunk_bytes,
1863                      (unsigned long)expected_bytes);
1864             afs_warn("afs: (dcache %p, file length %lu, DV %u, dcache mtime %u, "
1865                      "index %d, dflags 0x%x, mflags 0x%x, states 0x%x, vcache "
1866                      "states 0x%x)\n",
1867                      adc,
1868                      (unsigned long)file_length,
1869                      versionNo,
1870                      mtime,
1871                      adc->index,
1872                      (unsigned)adc->dflags,
1873                      (unsigned)adc->mflags,
1874                      (unsigned)adc->f.states,
1875                      avc->f.states);
1876             afs_warn("afs: Ignoring the dcache for now, but this may indicate "
1877                      "corruption in the AFS cache, or a bug.\n");
1878         }
1879         return 0;
1880     }
1881     return 1;
1882 }
1883
1884 /*!
1885  * Check if a dcache is "fresh". That is, if the dcache's DV matches the DV of
1886  * the vcache for that file, and the dcache looks "sane" (its length makes
1887  * sense, when considering the length of the given avc).
1888  *
1889  * \param adc The dcache to check
1890  * \param avc The vcache for adc
1891  *
1892  * \return 1 if the dcache is "fresh". 0 otherwise.
1893  */
1894 int
1895 afs_IsDCacheFresh(struct dcache *adc, struct vcache *avc)
1896 {
1897     if (!hsame(adc->f.versionNo, avc->f.m.DataVersion)) {
1898         return 0;
1899     }
1900
1901     /*
1902      * If we've reached here, the DV in adc matches the DV of our avc. Check if
1903      * the number of bytes in adc agrees with the avc file length, as a sanity
1904      * check. If they don't match, we'll pretend the DVs don't match, so the
1905      * bad dcache data will not be used, and we'll probably re-fetch the chunk
1906      * data, replacing the bad chunk.
1907      */
1908
1909     if (!IsDCacheSizeOK(adc, avc, adc->f.chunkBytes, avc->f.m.Length,
1910                         hgetlo(adc->f.versionNo), 0)) {
1911         return 0;
1912     }
1913
1914     return 1;
1915 }
1916
1917 /*
1918  * afs_GetDCache
1919  *
1920  * Description:
1921  *      This function is called to obtain a reference to data stored in
1922  *      the disk cache, locating a chunk of data containing the desired
1923  *      byte and returning a reference to the disk cache entry, with its
1924  *      reference count incremented.
1925  *
1926  * Parameters:
1927  * IN:
1928  *      avc     : Ptr to a vcache entry (unlocked)
1929  *      abyte   : Byte position in the file desired
1930  *      areq    : Request structure identifying the requesting user.
1931  *      aflags  : Settings as follows:
1932  *                      1 : Set locks
1933  *                      2 : Return after creating entry.
1934  *                      4 : called from afs_vnop_write.c
1935  *                          *alen contains length of data to be written.
1936  * OUT:
1937  *      aoffset : Set to the offset within the chunk where the resident
1938  *                byte is located.
1939  *      alen    : Set to the number of bytes of data after the desired
1940  *                byte (including the byte itself) which can be read
1941  *                from this chunk.
1942  *
1943  * Environment:
1944  *      The vcache entry pointed to by avc is unlocked upon entry.
1945  */
1946
1947 /*
1948  * Update the vnode-to-dcache hint if we can get the vnode lock
1949  * right away.  Assumes dcache entry is at least read-locked.
1950  */
1951 void
1952 updateV2DC(int lockVc, struct vcache *v, struct dcache *d, int src)
1953 {
1954     if (!lockVc || 0 == NBObtainWriteLock(&v->lock, src)) {
1955         if (afs_IsDCacheFresh(d, v) && v->callback)
1956             v->dchint = d;
1957         if (lockVc)
1958             ReleaseWriteLock(&v->lock);
1959     }
1960 }
1961
1962 /* avc - Write-locked unless aflags & 1 */
1963 struct dcache *
1964 afs_GetDCache(struct vcache *avc, afs_size_t abyte,
1965               struct vrequest *areq, afs_size_t * aoffset,
1966               afs_size_t * alen, int aflags)
1967 {
1968     afs_int32 i, code, shortcut;
1969 #if     defined(AFS_AIX32_ENV) || defined(AFS_SGI_ENV)
1970     afs_int32 adjustsize = 0;
1971 #endif
1972     int setLocks;
1973     afs_int32 index;
1974     afs_int32 us;
1975     afs_int32 chunk;
1976     afs_size_t Position = 0;
1977     afs_int32 size, tlen;       /* size of segment to transfer */
1978     struct afs_FetchOutput *tsmall = 0;
1979     struct dcache *tdc;
1980     struct osi_file *file;
1981     struct afs_conn *tc;
1982     int downDCount = 0;
1983     struct server *newCallback = NULL;
1984     char setNewCallback;
1985     char setVcacheStatus;
1986     char doVcacheUpdate;
1987     char slowPass = 0;
1988     int doAdjustSize = 0;
1989     int doReallyAdjustSize = 0;
1990     int overWriteWholeChunk = 0;
1991     struct rx_connection *rxconn;
1992
1993 #ifndef AFS_NOSTATS
1994     struct afs_stats_AccessInfo *accP;  /*Ptr to access record in stats */
1995     int fromReplica;            /*Are we reading from a replica? */
1996     int numFetchLoops;          /*# times around the fetch/analyze loop */
1997 #endif /* AFS_NOSTATS */
1998
1999     AFS_STATCNT(afs_GetDCache);
2000     if (dcacheDisabled)
2001         return NULL;
2002
2003     setLocks = aflags & 1;
2004
2005     /*
2006      * Determine the chunk number and offset within the chunk corresponding
2007      * to the desired byte.
2008      */
2009     if (avc->f.fid.Fid.Vnode & 1) {     /* if (vType(avc) == VDIR) */
2010         chunk = 0;
2011     } else {
2012         chunk = AFS_CHUNK(abyte);
2013     }
2014
2015     /* come back to here if we waited for the cache to drain. */
2016   RetryGetDCache:
2017
2018     setNewCallback = setVcacheStatus = 0;
2019
2020     if (setLocks) {
2021         if (slowPass)
2022             ObtainWriteLock(&avc->lock, 616);
2023         else
2024             ObtainReadLock(&avc->lock);
2025     }
2026
2027     /*
2028      * Locks held:
2029      * avc->lock(R) if setLocks && !slowPass
2030      * avc->lock(W) if !setLocks || slowPass
2031      */
2032
2033     shortcut = 0;
2034
2035     /* check hints first! (might could use bcmp or some such...) */
2036     if ((tdc = avc->dchint)) {
2037         int dcLocked;
2038
2039         /*
2040          * The locking order between afs_xdcache and dcache lock matters.
2041          * The hint dcache entry could be anywhere, even on the free list.
2042          * Locking afs_xdcache ensures that noone is trying to pull dcache
2043          * entries from the free list, and thereby assuming them to be not
2044          * referenced and not locked.
2045          */
2046         ObtainReadLock(&afs_xdcache);
2047         dcLocked = (0 == NBObtainSharedLock(&tdc->lock, 601));
2048
2049         if (dcLocked && (tdc->index != NULLIDX)
2050             && !FidCmp(&tdc->f.fid, &avc->f.fid) && chunk == tdc->f.chunk
2051             && !(afs_indexFlags[tdc->index] & (IFFree | IFDiscarded))) {
2052             /* got the right one.  It might not be the right version, and it
2053              * might be fetching, but it's the right dcache entry.
2054              */
2055             /* All this code should be integrated better with what follows:
2056              * I can save a good bit more time under a write lock if I do..
2057              */
2058             ObtainWriteLock(&tdc->tlock, 603);
2059             tdc->refCount++;
2060             ReleaseWriteLock(&tdc->tlock);
2061
2062             ReleaseReadLock(&afs_xdcache);
2063             shortcut = 1;
2064
2065             if (afs_IsDCacheFresh(tdc, avc)
2066                 && !(tdc->dflags & DFFetching)) {
2067
2068                 afs_stats_cmperf.dcacheHits++;
2069                 ObtainWriteLock(&afs_xdcache, 559);
2070                 QRemove(&tdc->lruq);
2071                 QAdd(&afs_DLRU, &tdc->lruq);
2072                 ReleaseWriteLock(&afs_xdcache);
2073
2074                 /* Locks held:
2075                  * avc->lock(R) if setLocks && !slowPass
2076                  * avc->lock(W) if !setLocks || slowPass
2077                  * tdc->lock(S)
2078                  */
2079                 goto done;
2080             }
2081         } else {
2082             if (dcLocked)
2083                 ReleaseSharedLock(&tdc->lock);
2084             ReleaseReadLock(&afs_xdcache);
2085         }
2086
2087         if (!shortcut)
2088             tdc = 0;
2089     }
2090
2091     /* Locks held:
2092      * avc->lock(R) if setLocks && !slowPass
2093      * avc->lock(W) if !setLocks || slowPass
2094      * tdc->lock(S) if tdc
2095      */
2096
2097     if (!tdc) {                 /* If the hint wasn't the right dcache entry */
2098         int dslot_error = 0;
2099         /*
2100          * Hash on the [fid, chunk] and get the corresponding dcache index
2101          * after write-locking the dcache.
2102          */
2103       RetryLookup:
2104
2105         /* Locks held:
2106          * avc->lock(R) if setLocks && !slowPass
2107          * avc->lock(W) if !setLocks || slowPass
2108          */
2109
2110         i = DCHash(&avc->f.fid, chunk);
2111         /* check to make sure our space is fine */
2112         afs_MaybeWakeupTruncateDaemon();
2113
2114         ObtainWriteLock(&afs_xdcache, 280);
2115         us = NULLIDX;
2116         for (index = afs_dchashTbl[i]; index != NULLIDX; us = index, index = afs_dcnextTbl[index]) {
2117             if (afs_indexUnique[index] == avc->f.fid.Fid.Unique) {
2118                 tdc = afs_GetValidDSlot(index);
2119                 if (!tdc) {
2120                     /* we got an i/o error when trying to get the given dslot.
2121                      * it's possible the dslot we're looking for is elsewhere,
2122                      * but most likely the disk cache is currently unusable, so
2123                      * all afs_GetValidDSlot calls will fail, so just bail out. */
2124                     dslot_error = 1;
2125                     index = NULLIDX;
2126                     break;
2127                 }
2128                 ReleaseReadLock(&tdc->tlock);
2129                 /*
2130                  * Locks held:
2131                  * avc->lock(R) if setLocks && !slowPass
2132                  * avc->lock(W) if !setLocks || slowPass
2133                  * afs_xdcache(W)
2134                  */
2135                 if (!FidCmp(&tdc->f.fid, &avc->f.fid) && chunk == tdc->f.chunk) {
2136                     /* Move it up in the beginning of the list */
2137                     if (afs_dchashTbl[i] != index) {
2138                         afs_dcnextTbl[us] = afs_dcnextTbl[index];
2139                         afs_dcnextTbl[index] = afs_dchashTbl[i];
2140                         afs_dchashTbl[i] = index;
2141                     }
2142                     ReleaseWriteLock(&afs_xdcache);
2143                     ObtainSharedLock(&tdc->lock, 606);
2144                     break;      /* leaving refCount high for caller */
2145                 }
2146                 afs_PutDCache(tdc);
2147                 tdc = 0;
2148             }
2149         }
2150
2151         /*
2152          * If we didn't find the entry, we'll create one.
2153          */
2154         if (index == NULLIDX) {
2155             /*
2156              * Locks held:
2157              * avc->lock(R) if setLocks
2158              * avc->lock(W) if !setLocks
2159              * afs_xdcache(W)
2160              */
2161             afs_Trace2(afs_iclSetp, CM_TRACE_GETDCACHE1, ICL_TYPE_POINTER,
2162                        avc, ICL_TYPE_INT32, chunk);
2163
2164             if (dslot_error) {
2165                 /* We couldn't find the dcache we want, but we hit some i/o
2166                  * errors when trying to find it, so we're not sure if the
2167                  * dcache we want is in the cache or not. Error out, so we
2168                  * don't try to possibly create 2 separate dcaches for the
2169                  * same exact data. */
2170                 ReleaseWriteLock(&afs_xdcache);
2171                 goto done;
2172             }
2173
2174             if (afs_discardDCList == NULLIDX && afs_freeDCList == NULLIDX) {
2175                 if (!setLocks)
2176                     avc->f.states |= CDCLock;
2177                 /* just need slots */
2178                 afs_GetDownD(5, (int *)0, afs_DCGetBucket(avc));
2179                 if (!setLocks)
2180                     avc->f.states &= ~CDCLock;
2181             }
2182             code = afs_AllocDCache(&tdc, avc, chunk, aflags, NULL);
2183             if (code) {
2184                 ReleaseWriteLock(&afs_xdcache);
2185                 if (code == ENOSPC) {
2186                     /* It looks like afs_AllocDCache failed because we don't
2187                      * have any free dslots to use. Maybe if we wait a little
2188                      * while, we'll be able to free up some slots, so try for 5
2189                      * minutes, then bail out. */
2190                     if (++downDCount > 300) {
2191                         afs_warn("afs: Unable to get free cache space for file "
2192                                  "%u:%u.%u.%u for 5 minutes; failing with an i/o error\n",
2193                                  avc->f.fid.Cell,
2194                                  avc->f.fid.Fid.Volume,
2195                                  avc->f.fid.Fid.Vnode,
2196                                  avc->f.fid.Fid.Unique);
2197                         goto done;
2198                     }
2199                     afs_osi_Wait(1000, 0, 0);
2200                     goto RetryLookup;
2201                 }
2202
2203                 /* afs_AllocDCache failed, but not because we're out of free
2204                  * dslots. Something must be screwy with the cache, so bail out
2205                  * immediately without waiting. */
2206                 afs_warn("afs: Error while alloc'ing cache slot for file "
2207                          "%u:%u.%u.%u; failing with an i/o error\n",
2208                          avc->f.fid.Cell,
2209                          avc->f.fid.Fid.Volume,
2210                          avc->f.fid.Fid.Vnode,
2211                          avc->f.fid.Fid.Unique);
2212                 goto done;
2213             }
2214
2215             /*
2216              * Locks held:
2217              * avc->lock(R) if setLocks
2218              * avc->lock(W) if !setLocks
2219              * tdc->lock(W)
2220              * afs_xdcache(W)
2221              */
2222
2223             /*
2224              * Now add to the two hash chains - note that i is still set
2225              * from the above DCHash call.
2226              */
2227             afs_dcnextTbl[tdc->index] = afs_dchashTbl[i];
2228             afs_dchashTbl[i] = tdc->index;
2229             i = DVHash(&avc->f.fid);
2230             afs_dvnextTbl[tdc->index] = afs_dvhashTbl[i];
2231             afs_dvhashTbl[i] = tdc->index;
2232             tdc->dflags = DFEntryMod;
2233             tdc->mflags = 0;
2234             afs_MaybeWakeupTruncateDaemon();
2235             ReleaseWriteLock(&afs_xdcache);
2236             ConvertWToSLock(&tdc->lock);
2237         }
2238     }
2239
2240
2241     /* vcache->dcache hint failed */
2242     /*
2243      * Locks held:
2244      * avc->lock(R) if setLocks && !slowPass
2245      * avc->lock(W) if !setLocks || slowPass
2246      * tdc->lock(S)
2247      */
2248     afs_Trace4(afs_iclSetp, CM_TRACE_GETDCACHE2, ICL_TYPE_POINTER, avc,
2249                ICL_TYPE_POINTER, tdc, ICL_TYPE_INT32,
2250                hgetlo(tdc->f.versionNo), ICL_TYPE_INT32,
2251                hgetlo(avc->f.m.DataVersion));
2252     /*
2253      * Here we have the entry in tdc, with its refCount incremented.
2254      * Note: we don't use the S-lock on avc; it costs concurrency when
2255      * storing a file back to the server.
2256      */
2257
2258     /*
2259      * Not a newly created file so we need to check the file's length and
2260      * compare data versions since someone could have changed the data or we're
2261      * reading a file written elsewhere. We only want to bypass doing no-op
2262      * read rpcs on newly created files (dv of 0) since only then we guarantee
2263      * that this chunk's data hasn't been filled by another client.
2264      */
2265     size = AFS_CHUNKSIZE(abyte);
2266     if (aflags & 4)             /* called from write */
2267         tlen = *alen;
2268     else                        /* called from read */
2269         tlen = tdc->validPos - abyte;
2270     Position = AFS_CHUNKTOBASE(chunk);
2271     afs_Trace4(afs_iclSetp, CM_TRACE_GETDCACHE3, ICL_TYPE_INT32, tlen,
2272                ICL_TYPE_INT32, aflags, ICL_TYPE_OFFSET,
2273                ICL_HANDLE_OFFSET(abyte), ICL_TYPE_OFFSET,
2274                ICL_HANDLE_OFFSET(Position));
2275     if ((aflags & 4) && (hiszero(avc->f.m.DataVersion)))
2276         doAdjustSize = 1;
2277     if ((AFS_CHUNKTOBASE(chunk) >= avc->f.m.Length) ||
2278          ((aflags & 4) && (abyte == Position) && (tlen >= size)))
2279         overWriteWholeChunk = 1;
2280     if (doAdjustSize || overWriteWholeChunk) {
2281 #if     defined(AFS_AIX32_ENV) || defined(AFS_SGI_ENV)
2282 #ifdef  AFS_SGI_ENV
2283 #ifdef AFS_SGI64_ENV
2284         if (doAdjustSize)
2285             adjustsize = NBPP;
2286 #else /* AFS_SGI64_ENV */
2287         if (doAdjustSize)
2288             adjustsize = 8192;
2289 #endif /* AFS_SGI64_ENV */
2290 #else /* AFS_SGI_ENV */
2291         if (doAdjustSize)
2292             adjustsize = 4096;
2293 #endif /* AFS_SGI_ENV */
2294         if (AFS_CHUNKTOBASE(chunk) + adjustsize >= avc->f.m.Length &&
2295 #else /* defined(AFS_AIX32_ENV) || defined(AFS_SGI_ENV) */
2296 #if     defined(AFS_SUN5_ENV)
2297         if ((doAdjustSize || (AFS_CHUNKTOBASE(chunk) >= avc->f.m.Length)) &&
2298 #else
2299         if (AFS_CHUNKTOBASE(chunk) >= avc->f.m.Length &&
2300 #endif
2301 #endif /* defined(AFS_AIX32_ENV) || defined(AFS_SGI_ENV) */
2302             !afs_IsDCacheFresh(tdc, avc))
2303             doReallyAdjustSize = 1;
2304
2305         if (doReallyAdjustSize || overWriteWholeChunk) {
2306             /* no data in file to read at this position */
2307             UpgradeSToWLock(&tdc->lock, 607);
2308             file = afs_CFileOpen(&tdc->f.inode);
2309             osi_Assert(file);
2310             afs_CFileTruncate(file, 0);
2311             afs_CFileClose(file);
2312             afs_AdjustSize(tdc, 0);
2313             hset(tdc->f.versionNo, avc->f.m.DataVersion);
2314             tdc->dflags |= DFEntryMod;
2315
2316             ConvertWToSLock(&tdc->lock);
2317         }
2318     }
2319
2320     /*
2321      * We must read in the whole chunk if the version number doesn't
2322      * match.
2323      */
2324     if (aflags & 2) {
2325         /* don't need data, just a unique dcache entry */
2326         ObtainWriteLock(&afs_xdcache, 608);
2327         hset(afs_indexTimes[tdc->index], afs_indexCounter);
2328         hadd32(afs_indexCounter, 1);
2329         ReleaseWriteLock(&afs_xdcache);
2330
2331         updateV2DC(setLocks, avc, tdc, 553);
2332         if (vType(avc) == VDIR)
2333             *aoffset = abyte;
2334         else
2335             *aoffset = AFS_CHUNKOFFSET(abyte);
2336         if (tdc->validPos < abyte)
2337             *alen = (afs_size_t) 0;
2338         else
2339             *alen = tdc->validPos - abyte;
2340         ReleaseSharedLock(&tdc->lock);
2341         if (setLocks) {
2342             if (slowPass)
2343                 ReleaseWriteLock(&avc->lock);
2344             else
2345                 ReleaseReadLock(&avc->lock);
2346         }
2347         return tdc;             /* check if we're done */
2348     }
2349
2350     /*
2351      * Locks held:
2352      * avc->lock(R) if setLocks && !slowPass
2353      * avc->lock(W) if !setLocks || slowPass
2354      * tdc->lock(S)
2355      */
2356     osi_Assert((setLocks && !slowPass) || WriteLocked(&avc->lock));
2357
2358     setNewCallback = setVcacheStatus = 0;
2359
2360     /*
2361      * Locks held:
2362      * avc->lock(R) if setLocks && !slowPass
2363      * avc->lock(W) if !setLocks || slowPass
2364      * tdc->lock(S)
2365      */
2366     if (!afs_IsDCacheFresh(tdc, avc) && !overWriteWholeChunk) {
2367         /*
2368          * Version number mismatch.
2369          */
2370         /*
2371          * If we are disconnected, then we can't do much of anything
2372          * because the data doesn't match the file.
2373          */
2374         if (AFS_IS_DISCONNECTED) {
2375             ReleaseSharedLock(&tdc->lock);
2376             if (setLocks) {
2377                 if (slowPass)
2378                     ReleaseWriteLock(&avc->lock);
2379                 else
2380                     ReleaseReadLock(&avc->lock);
2381             }
2382             /* Flush the Dcache */
2383             afs_PutDCache(tdc);
2384
2385             return NULL;
2386         }
2387         UpgradeSToWLock(&tdc->lock, 609);
2388
2389         /*
2390          * If data ever existed for this vnode, and this is a text object,
2391          * do some clearing.  Now, you'd think you need only do the flush
2392          * when VTEXT is on, but VTEXT is turned off when the text object
2393          * is freed, while pages are left lying around in memory marked
2394          * with this vnode.  If we would reactivate (create a new text
2395          * object from) this vnode, we could easily stumble upon some of
2396          * these old pages in pagein.  So, we always flush these guys.
2397          * Sun has a wonderful lack of useful invariants in this system.
2398          *
2399          * avc->flushDV is the data version # of the file at the last text
2400          * flush.  Clearly, at least, we don't have to flush the file more
2401          * often than it changes
2402          */
2403         if (hcmp(avc->flushDV, avc->f.m.DataVersion) < 0) {
2404             /*
2405              * By here, the cache entry is always write-locked.  We can
2406              * deadlock if we call osi_Flush with the cache entry locked...
2407              * Unlock the dcache too.
2408              */
2409             ReleaseWriteLock(&tdc->lock);
2410             if (setLocks && !slowPass)
2411                 ReleaseReadLock(&avc->lock);
2412             else
2413                 ReleaseWriteLock(&avc->lock);
2414
2415             osi_FlushText(avc);
2416             /*
2417              * Call osi_FlushPages in open, read/write, and map, since it
2418              * is too hard here to figure out if we should lock the
2419              * pvnLock.
2420              */
2421             if (setLocks && !slowPass)
2422                 ObtainReadLock(&avc->lock);
2423             else
2424                 ObtainWriteLock(&avc->lock, 66);
2425             ObtainWriteLock(&tdc->lock, 610);
2426         }
2427
2428         /*
2429          * Locks held:
2430          * avc->lock(R) if setLocks && !slowPass
2431          * avc->lock(W) if !setLocks || slowPass
2432          * tdc->lock(W)
2433          */
2434
2435         /* Watch for standard race condition around osi_FlushText */
2436         if (afs_IsDCacheFresh(tdc, avc)) {
2437             updateV2DC(setLocks, avc, tdc, 569);        /* set hint */
2438             afs_stats_cmperf.dcacheHits++;
2439             ConvertWToSLock(&tdc->lock);
2440             goto done;
2441         }
2442
2443         /* Sleep here when cache needs to be drained. */
2444         if (setLocks && !slowPass
2445             && (afs_blocksUsed >
2446                 PERCENT(CM_WAITFORDRAINPCT, afs_cacheBlocks))) {
2447             /* Make sure truncate daemon is running */
2448             afs_MaybeWakeupTruncateDaemon();
2449             ObtainWriteLock(&tdc->tlock, 614);
2450             tdc->refCount--;    /* we'll re-obtain the dcache when we re-try. */
2451             ReleaseWriteLock(&tdc->tlock);
2452             ReleaseWriteLock(&tdc->lock);
2453             ReleaseReadLock(&avc->lock);
2454             while ((afs_blocksUsed - afs_blocksDiscarded) >
2455                    PERCENT(CM_WAITFORDRAINPCT, afs_cacheBlocks)) {
2456                 afs_MaybeWaitForCacheDrain();
2457             }
2458             afs_MaybeFreeDiscardedDCache();
2459             /* need to check if someone else got the chunk first. */
2460             goto RetryGetDCache;
2461         }
2462
2463         Position = AFS_CHUNKBASE(abyte);
2464         if (vType(avc) == VDIR) {
2465             size = avc->f.m.Length;
2466             if (size > tdc->f.chunkBytes) {
2467                 /* pre-reserve space for file */
2468                 afs_AdjustSize(tdc, size);
2469             }
2470             size = 999999999;   /* max size for transfer */
2471         } else {
2472             afs_size_t maxGoodLength;
2473
2474             /* estimate how much data we're expecting back from the server,
2475              * and reserve space in the dcache entry for it */
2476
2477             maxGoodLength = avc->f.m.Length;
2478             if (avc->f.truncPos < maxGoodLength)
2479                 maxGoodLength = avc->f.truncPos;
2480
2481             size = AFS_CHUNKSIZE(abyte);        /* expected max size */
2482             if (Position > maxGoodLength) { /* If we're beyond EOF */
2483                 size = 0;
2484             } else if (Position + size > maxGoodLength) {
2485                 size = maxGoodLength - Position;
2486             }
2487             osi_Assert(size >= 0);
2488
2489             if (size > tdc->f.chunkBytes) {
2490                 /* pre-reserve estimated space for file */
2491                 afs_AdjustSize(tdc, size);      /* changes chunkBytes */
2492             }
2493
2494             if (size) {
2495                 /* For the actual fetch, do not limit the request to the
2496                  * length of the file. If this results in a read past EOF on
2497                  * the server, the server will just reply with less data than
2498                  * requested. If we limit ourselves to only requesting data up
2499                  * to the avc file length, we open ourselves up to races if the
2500                  * file is extended on the server at about the same time.
2501                  *
2502                  * However, we must restrict ourselves to the avc->f.truncPos
2503                  * length, since this represents an outstanding local
2504                  * truncation of the file that will be committed to the
2505                  * fileserver when we actually write the fileserver contents.
2506                  * If we do not restrict the fetch length based on
2507                  * avc->f.truncPos, a different truncate operation extending
2508                  * the file length could cause the old data after
2509                  * avc->f.truncPos to reappear, instead of extending the file
2510                  * with NUL bytes. */
2511                 size = AFS_CHUNKSIZE(abyte);
2512                 if (Position > avc->f.truncPos) {
2513                     size = 0;
2514                 } else if (Position + size > avc->f.truncPos) {
2515                     size = avc->f.truncPos - Position;
2516                 }
2517                 osi_Assert(size >= 0);
2518             }
2519         }
2520         if (afs_mariner && !tdc->f.chunk)
2521             afs_MarinerLog("fetch$Fetching", avc);      /* , Position, size, afs_indexCounter ); */
2522         /*
2523          * Right now, we only have one tool, and it's a hammer.  So, we
2524          * fetch the whole file.
2525          */
2526         DZap(tdc);      /* pages in cache may be old */
2527         file = afs_CFileOpen(&tdc->f.inode);
2528         if (!file) {
2529             /* We can't access the file in the disk cache backing this dcache;
2530              * bail out. */
2531             ReleaseWriteLock(&tdc->lock);
2532             afs_PutDCache(tdc);
2533             tdc = NULL;
2534             goto done;
2535         }
2536         afs_RemoveVCB(&avc->f.fid);
2537         tdc->f.states |= DWriting;
2538         tdc->dflags |= DFFetching;
2539         tdc->validPos = Position;       /*  which is AFS_CHUNKBASE(abyte) */
2540         if (tdc->mflags & DFFetchReq) {
2541             tdc->mflags &= ~DFFetchReq;
2542             if (afs_osi_Wakeup(&tdc->validPos) == 0)
2543                 afs_Trace4(afs_iclSetp, CM_TRACE_DCACHEWAKE, ICL_TYPE_STRING,
2544                            __FILE__, ICL_TYPE_INT32, __LINE__,
2545                            ICL_TYPE_POINTER, tdc, ICL_TYPE_INT32,
2546                            tdc->dflags);
2547         }
2548         tsmall = osi_AllocLargeSpace(sizeof(struct afs_FetchOutput));
2549         setVcacheStatus = 0;
2550 #ifndef AFS_NOSTATS
2551         /*
2552          * Remember if we are doing the reading from a replicated volume,
2553          * and how many times we've zipped around the fetch/analyze loop.
2554          */
2555         fromReplica = (avc->f.states & CRO) ? 1 : 0;
2556         numFetchLoops = 0;
2557         accP = &(afs_stats_cmfullperf.accessinf);
2558         if (fromReplica)
2559             (accP->replicatedRefs)++;
2560         else
2561             (accP->unreplicatedRefs)++;
2562 #endif /* AFS_NOSTATS */
2563         /* this is a cache miss */
2564         afs_Trace4(afs_iclSetp, CM_TRACE_FETCHPROC, ICL_TYPE_POINTER, avc,
2565                    ICL_TYPE_FID, &(avc->f.fid), ICL_TYPE_OFFSET,
2566                    ICL_HANDLE_OFFSET(Position), ICL_TYPE_INT32, size);
2567
2568         if (size)
2569             afs_stats_cmperf.dcacheMisses++;
2570         code = 0;
2571         /*
2572          * Dynamic root support:  fetch data from local memory.
2573          */
2574         if (afs_IsDynroot(avc)) {
2575             char *dynrootDir;
2576             int dynrootLen;
2577
2578             afs_GetDynroot(&dynrootDir, &dynrootLen, &tsmall->OutStatus);
2579
2580             dynrootDir += Position;
2581             dynrootLen -= Position;
2582             if (size > dynrootLen)
2583                 size = dynrootLen;
2584             if (size < 0)
2585                 size = 0;
2586             code = afs_CFileWrite(file, 0, dynrootDir, size);
2587             afs_PutDynroot();
2588
2589             if (code == size)
2590                 code = 0;
2591             else
2592                 code = -1;
2593
2594             tdc->validPos = Position + size;
2595             afs_CFileTruncate(file, size);      /* prune it */
2596         } else if (afs_IsDynrootMount(avc)) {
2597             char *dynrootDir;
2598             int dynrootLen;
2599
2600             afs_GetDynrootMount(&dynrootDir, &dynrootLen, &tsmall->OutStatus);
2601
2602             dynrootDir += Position;
2603             dynrootLen -= Position;
2604             if (size > dynrootLen)
2605                 size = dynrootLen;
2606             if (size < 0)
2607                 size = 0;
2608             code = afs_CFileWrite(file, 0, dynrootDir, size);
2609             afs_PutDynroot();
2610
2611             if (code == size)
2612                 code = 0;
2613             else
2614                 code = -1;
2615
2616             tdc->validPos = Position + size;
2617             afs_CFileTruncate(file, size);      /* prune it */
2618         } else
2619             /*
2620              * Not a dynamic vnode:  do the real fetch.
2621              */
2622             do {
2623                 /*
2624                  * Locks held:
2625                  * avc->lock(R) if setLocks && !slowPass
2626                  * avc->lock(W) if !setLocks || slowPass
2627                  * tdc->lock(W)
2628                  */
2629
2630                 tc = afs_Conn(&avc->f.fid, areq, SHARED_LOCK, &rxconn);
2631                 if (tc) {
2632 #ifndef AFS_NOSTATS
2633                     numFetchLoops++;
2634                     if (fromReplica)
2635                         (accP->numReplicasAccessed)++;
2636
2637 #endif /* AFS_NOSTATS */
2638                     if (!setLocks || slowPass) {
2639                         avc->callback = tc->parent->srvr->server;
2640                     } else {
2641                         newCallback = tc->parent->srvr->server;
2642                         setNewCallback = 1;
2643                     }
2644                     i = osi_Time();
2645                     code = afs_CacheFetchProc(tc, rxconn, file, Position, tdc,
2646                                                avc, size, tsmall);
2647                 } else
2648                    code = -1;
2649
2650                 if (code == 0) {
2651                     /* callback could have been broken (or expired) in a race here,
2652                      * but we return the data anyway.  It's as good as we knew about
2653                      * when we started. */
2654                     /*
2655                      * validPos is updated by CacheFetchProc, and can only be
2656                      * modifed under a dcache write lock, which we've blocked out
2657                      */
2658                     afs_size_t length;
2659
2660                     size = tdc->validPos - Position;    /* actual segment size */
2661                     if (size < 0)
2662                         size = 0;
2663                     afs_CFileTruncate(file, size);      /* prune it */
2664
2665                     /* Check that the amount of data that we fetched for the
2666                      * dcache makes sense. */
2667                     FillInt64(length, tsmall->OutStatus.Length_hi, tsmall->OutStatus.Length);
2668                     if (!IsDCacheSizeOK(tdc, avc, size,
2669                                         length,
2670                                         tsmall->OutStatus.DataVersion, 1)) {
2671                         code = EIO;
2672                     }
2673                 }
2674                 if (code) {
2675                     if (!setLocks || slowPass) {
2676                         afs_StaleVCacheFlags(avc, AFS_STALEVC_CLEARCB, CUnique);
2677                     } else {
2678                         /* Something lost.  Forget about performance, and go
2679                          * back with a vcache write lock.
2680                          */
2681                         afs_CFileTruncate(file, 0);
2682                         afs_AdjustSize(tdc, 0);
2683                         afs_CFileClose(file);
2684                         osi_FreeLargeSpace(tsmall);
2685                         tsmall = 0;
2686                         ReleaseWriteLock(&tdc->lock);
2687                         afs_PutDCache(tdc);
2688                         tdc = 0;
2689
2690                         /*
2691                          * Call afs_Analyze to manage the connection references
2692                          * and handle the error code (possibly mark servers
2693                          * down, etc). We are going to retry getting the
2694                          * dcache regardless, so we just ignore the retry hint
2695                          * returned by afs_Analyze on this call.
2696                          */
2697                         (void)afs_Analyze(tc, rxconn, code, &avc->f.fid, areq,
2698                                           AFS_STATS_FS_RPCIDX_FETCHDATA, SHARED_LOCK, NULL);
2699
2700                         ReleaseReadLock(&avc->lock);
2701
2702                         slowPass = 1;
2703                         goto RetryGetDCache;
2704                     }
2705                 }
2706
2707             } while (afs_Analyze
2708                      (tc, rxconn, code, &avc->f.fid, areq,
2709                       AFS_STATS_FS_RPCIDX_FETCHDATA, SHARED_LOCK, NULL));
2710
2711         /*
2712          * Locks held:
2713          * avc->lock(R) if setLocks && !slowPass
2714          * avc->lock(W) if !setLocks || slowPass
2715          * tdc->lock(W)
2716          */
2717
2718 #ifndef AFS_NOSTATS
2719         /*
2720          * In the case of replicated access, jot down info on the number of
2721          * attempts it took before we got through or gave up.
2722          */
2723         if (fromReplica) {
2724             if (numFetchLoops <= 1)
2725                 (accP->refFirstReplicaOK)++;
2726             if (numFetchLoops > accP->maxReplicasPerRef)
2727                 accP->maxReplicasPerRef = numFetchLoops;
2728         }
2729 #endif /* AFS_NOSTATS */
2730
2731         tdc->dflags &= ~DFFetching;
2732         if (afs_osi_Wakeup(&tdc->validPos) == 0)
2733             afs_Trace4(afs_iclSetp, CM_TRACE_DCACHEWAKE, ICL_TYPE_STRING,
2734                        __FILE__, ICL_TYPE_INT32, __LINE__, ICL_TYPE_POINTER,
2735                        tdc, ICL_TYPE_INT32, tdc->dflags);
2736         if (avc->execsOrWriters == 0)
2737             tdc->f.states &= ~DWriting;
2738
2739         /* now, if code != 0, we have an error and should punt.
2740          * note that we have the vcache write lock, either because
2741          * !setLocks or slowPass.
2742          */
2743         if (code) {
2744             afs_CFileTruncate(file, 0);
2745             afs_AdjustSize(tdc, 0);
2746             afs_CFileClose(file);
2747             ZapDCE(tdc);        /* sets DFEntryMod */
2748             if (vType(avc) == VDIR) {
2749                 DZap(tdc);
2750             }
2751             tdc->f.states &= ~(DRO|DBackup|DRW);
2752             afs_DCMoveBucket(tdc, 0, 0);
2753             ReleaseWriteLock(&tdc->lock);
2754             afs_PutDCache(tdc);
2755             if (!afs_IsDynroot(avc)) {
2756                 afs_StaleVCacheFlags(avc, 0, CUnique);
2757                 /*
2758                  * Locks held:
2759                  * avc->lock(W); assert(!setLocks || slowPass)
2760                  */
2761                 osi_Assert(!setLocks || slowPass);
2762             }
2763             tdc = NULL;
2764             goto done;
2765         }
2766
2767         /* otherwise we copy in the just-fetched info */
2768         afs_CFileClose(file);
2769         afs_AdjustSize(tdc, size);      /* new size */
2770         /*
2771          * Copy appropriate fields into vcache.  Status is
2772          * copied later where we selectively acquire the
2773          * vcache write lock.
2774          */
2775         if (slowPass)
2776             afs_ProcessFS(avc, &tsmall->OutStatus, areq);
2777         else
2778             setVcacheStatus = 1;
2779         hset64(tdc->f.versionNo, tsmall->OutStatus.dataVersionHigh,
2780                tsmall->OutStatus.DataVersion);
2781         tdc->dflags |= DFEntryMod;
2782         afs_indexFlags[tdc->index] |= IFEverUsed;
2783         ConvertWToSLock(&tdc->lock);
2784     } /*Data version numbers don't match */
2785     else {
2786         /*
2787          * Data version numbers match.
2788          */
2789         afs_stats_cmperf.dcacheHits++;
2790     }                           /*Data version numbers match */
2791
2792     updateV2DC(setLocks, avc, tdc, 335);        /* set hint */
2793   done:
2794     /*
2795      * Locks held:
2796      * avc->lock(R) if setLocks && !slowPass
2797      * avc->lock(W) if !setLocks || slowPass
2798      * tdc->lock(S) if tdc
2799      */
2800
2801     /*
2802      * See if this was a reference to a file in the local cell.
2803      */
2804     if (afs_IsPrimaryCellNum(avc->f.fid.Cell))
2805         afs_stats_cmperf.dlocalAccesses++;
2806     else
2807         afs_stats_cmperf.dremoteAccesses++;
2808
2809     /* Fix up LRU info */
2810
2811     if (tdc) {
2812         ObtainWriteLock(&afs_xdcache, 602);
2813         hset(afs_indexTimes[tdc->index], afs_indexCounter);
2814         hadd32(afs_indexCounter, 1);
2815         ReleaseWriteLock(&afs_xdcache);
2816
2817         /* return the data */
2818         if (vType(avc) == VDIR)
2819             *aoffset = abyte;
2820         else
2821             *aoffset = AFS_CHUNKOFFSET(abyte);
2822         *alen = (tdc->f.chunkBytes - *aoffset);
2823         ReleaseSharedLock(&tdc->lock);
2824     }
2825
2826     /*
2827      * Locks held:
2828      * avc->lock(R) if setLocks && !slowPass
2829      * avc->lock(W) if !setLocks || slowPass
2830      */
2831
2832     /* Fix up the callback and status values in the vcache */
2833     doVcacheUpdate = 0;
2834     if (setLocks && !slowPass) {
2835         /* DCLOCKXXX
2836          *
2837          * This is our dirty little secret to parallel fetches.
2838          * We don't write-lock the vcache while doing the fetch,
2839          * but potentially we'll need to update the vcache after
2840          * the fetch is done.
2841          *
2842          * Drop the read lock and try to re-obtain the write
2843          * lock.  If the vcache still has the same DV, it's
2844          * ok to go ahead and install the new data.
2845          */
2846         afs_hyper_t currentDV, statusDV;
2847
2848         hset(currentDV, avc->f.m.DataVersion);
2849
2850         if (setNewCallback && avc->callback != newCallback)
2851             doVcacheUpdate = 1;
2852
2853         if (tsmall) {
2854             hset64(statusDV, tsmall->OutStatus.dataVersionHigh,
2855                    tsmall->OutStatus.DataVersion);
2856
2857             if (setVcacheStatus && avc->f.m.Length != tsmall->OutStatus.Length)
2858                 doVcacheUpdate = 1;
2859             if (setVcacheStatus && !hsame(currentDV, statusDV))
2860                 doVcacheUpdate = 1;
2861         }
2862
2863         ReleaseReadLock(&avc->lock);
2864
2865         if (doVcacheUpdate) {
2866             ObtainWriteLock(&avc->lock, 615);
2867             if (!hsame(avc->f.m.DataVersion, currentDV)) {
2868                 /* We lose.  Someone will beat us to it. */
2869                 doVcacheUpdate = 0;
2870                 ReleaseWriteLock(&avc->lock);
2871             }
2872         }
2873     }
2874
2875     /* With slow pass, we've already done all the updates */
2876     if (slowPass) {
2877         ReleaseWriteLock(&avc->lock);
2878     }
2879
2880     /* Check if we need to perform any last-minute fixes with a write-lock */
2881     if (!setLocks || doVcacheUpdate) {
2882         if (setNewCallback)
2883             avc->callback = newCallback;
2884         if (tsmall && setVcacheStatus)
2885             afs_ProcessFS(avc, &tsmall->OutStatus, areq);
2886         if (setLocks)
2887             ReleaseWriteLock(&avc->lock);
2888     }
2889
2890     if (tsmall)
2891         osi_FreeLargeSpace(tsmall);
2892
2893     return tdc;
2894 }                               /*afs_GetDCache */
2895
2896
2897 /*
2898  * afs_WriteThroughDSlots
2899  *
2900  * Description:
2901  *      Sweep through the dcache slots and write out any modified
2902  *      in-memory data back on to our caching store.
2903  *
2904  * Parameters:
2905  *      None.
2906  *
2907  * Environment:
2908  *      The afs_xdcache is write-locked through this whole affair.
2909  */
2910 int
2911 afs_WriteThroughDSlots(void)
2912 {
2913     struct dcache *tdc;
2914     afs_int32 i, touchedit = 0;
2915     int code = 0;
2916
2917     struct afs_q DirtyQ, *tq;
2918
2919     AFS_STATCNT(afs_WriteThroughDSlots);
2920
2921     /*
2922      * Because of lock ordering, we can't grab dcache locks while
2923      * holding afs_xdcache.  So we enter xdcache, get a reference
2924      * for every dcache entry, and exit xdcache.
2925      */
2926     ObtainWriteLock(&afs_xdcache, 283);
2927     QInit(&DirtyQ);
2928     for (i = 0; i < afs_cacheFiles; i++) {
2929         tdc = afs_indexTable[i];
2930
2931         /* Grab tlock in case the existing refcount isn't zero */
2932         if (tdc && !(afs_indexFlags[i] & (IFFree | IFDiscarded))) {
2933             ObtainWriteLock(&tdc->tlock, 623);
2934             tdc->refCount++;
2935             ReleaseWriteLock(&tdc->tlock);
2936
2937             QAdd(&DirtyQ, &tdc->dirty);
2938         }
2939     }
2940     ReleaseWriteLock(&afs_xdcache);
2941
2942     /*
2943      * Now, for each dcache entry we found, check if it's dirty.
2944      * If so, get write-lock, get afs_xdcache, which protects
2945      * afs_cacheInodep, and flush it.  Don't forget to put back
2946      * the refcounts.
2947      */
2948
2949 #define DQTODC(q)       ((struct dcache *)(((char *) (q)) - sizeof(struct afs_q)))
2950
2951     for (tq = DirtyQ.prev; tq != &DirtyQ && code == 0; tq = QPrev(tq)) {
2952         tdc = DQTODC(tq);
2953         if (tdc->dflags & DFEntryMod) {
2954             int wrLock;
2955
2956             wrLock = (0 == NBObtainWriteLock(&tdc->lock, 619));
2957
2958             /* Now that we have the write lock, double-check */
2959             if (wrLock && (tdc->dflags & DFEntryMod)) {
2960                 tdc->dflags &= ~DFEntryMod;
2961                 ObtainWriteLock(&afs_xdcache, 620);
2962                 code = afs_WriteDCache(tdc, 1);
2963                 ReleaseWriteLock(&afs_xdcache);
2964                 if (code) {
2965                     /* We didn't successfully write out the dslot; make sure we
2966                      * try again later */
2967                     tdc->dflags |= DFEntryMod;
2968                 } else {
2969                     touchedit = 1;
2970                 }
2971             }
2972             if (wrLock)
2973                 ReleaseWriteLock(&tdc->lock);
2974         }
2975
2976         afs_PutDCache(tdc);
2977     }
2978
2979     if (code) {
2980         return code;
2981     }
2982
2983     ObtainWriteLock(&afs_xdcache, 617);
2984     if (!touchedit && (cacheDiskType != AFS_FCACHE_TYPE_MEM)) {
2985         /* Touch the file to make sure that the mtime on the file is kept
2986          * up-to-date to avoid losing cached files on cold starts because
2987          * their mtime seems old...
2988          */
2989         struct afs_fheader theader;
2990
2991         afs_InitFHeader(&theader);
2992         afs_osi_Write(afs_cacheInodep, 0, &theader, sizeof(theader));
2993     }
2994     ReleaseWriteLock(&afs_xdcache);
2995     return 0;
2996 }
2997
2998 /*
2999  * afs_MemGetDSlot
3000  *
3001  * Description:
3002  *      Return a pointer to an freshly initialized dcache entry using
3003  *      a memory-based cache.  The tlock will be read-locked.
3004  *
3005  * Parameters:
3006  *      aslot : Dcache slot to look at.
3007  *      type : What 'type' of dslot to get; see the dslot_state enum
3008  *
3009  * Environment:
3010  *      Must be called with afs_xdcache write-locked.
3011  */
3012
3013 struct dcache *
3014 afs_MemGetDSlot(afs_int32 aslot, dslot_state type)
3015 {
3016     struct dcache *tdc;
3017     int existing = 0;
3018
3019     AFS_STATCNT(afs_MemGetDSlot);
3020     if (CheckLock(&afs_xdcache) != -1)
3021         osi_Panic("getdslot nolock");
3022     if (aslot < 0 || aslot >= afs_cacheFiles)
3023         osi_Panic("getdslot slot %d (of %d)", aslot, afs_cacheFiles);
3024     tdc = afs_indexTable[aslot];
3025     if (tdc) {
3026         QRemove(&tdc->lruq);    /* move to queue head */
3027         QAdd(&afs_DLRU, &tdc->lruq);
3028         /* We're holding afs_xdcache, but get tlock in case refCount != 0 */
3029         ObtainWriteLock(&tdc->tlock, 624);
3030         tdc->refCount++;
3031         ConvertWToRLock(&tdc->tlock);
3032         return tdc;
3033     }
3034
3035     /* if we got here, the given slot is not in memory in our list of known
3036      * slots. for memcache, the only place a dslot can exist is in memory, so
3037      * if the caller is expecting to get back a known dslot, and we've reached
3038      * here, something is very wrong. DSLOT_NEW is the only type of dslot that
3039      * may not exist; for all others, the caller assumes the given dslot
3040      * already exists. so, 'type' had better be DSLOT_NEW here, or something is
3041      * very wrong. */
3042     osi_Assert(type == DSLOT_NEW);
3043
3044     if (!afs_freeDSList)
3045         afs_GetDownDSlot(4);
3046     if (!afs_freeDSList) {
3047         /* none free, making one is better than a panic */
3048         afs_stats_cmperf.dcacheXAllocs++;       /* count in case we have a leak */
3049         tdc = afs_osi_Alloc(sizeof(struct dcache));
3050         osi_Assert(tdc != NULL);
3051 #ifdef  KERNEL_HAVE_PIN
3052         pin((char *)tdc, sizeof(struct dcache));        /* XXX */
3053 #endif
3054     } else {
3055         tdc = afs_freeDSList;
3056         afs_freeDSList = (struct dcache *)tdc->lruq.next;
3057         existing = 1;
3058     }
3059     tdc->dflags = 0;    /* up-to-date, not in free q */
3060     tdc->mflags = 0;
3061     QAdd(&afs_DLRU, &tdc->lruq);
3062     if (tdc->lruq.prev == &tdc->lruq)
3063         osi_Panic("lruq 3");
3064
3065     /* initialize entry */
3066     tdc->f.fid.Cell = 0;
3067     tdc->f.fid.Fid.Volume = 0;
3068     tdc->f.chunk = -1;
3069     hones(tdc->f.versionNo);
3070     tdc->f.inode.mem = aslot;
3071     tdc->dflags |= DFEntryMod;
3072     tdc->refCount = 1;
3073     tdc->index = aslot;
3074     afs_indexUnique[aslot] = tdc->f.fid.Fid.Unique;
3075
3076     if (existing) {
3077         osi_Assert(0 == NBObtainWriteLock(&tdc->lock, 674));
3078         osi_Assert(0 == NBObtainWriteLock(&tdc->mflock, 675));
3079         osi_Assert(0 == NBObtainWriteLock(&tdc->tlock, 676));
3080     }
3081
3082     AFS_RWLOCK_INIT(&tdc->lock, "dcache lock");
3083     AFS_RWLOCK_INIT(&tdc->tlock, "dcache tlock");
3084     AFS_RWLOCK_INIT(&tdc->mflock, "dcache flock");
3085     ObtainReadLock(&tdc->tlock);
3086
3087     afs_indexTable[aslot] = tdc;
3088     return tdc;
3089
3090 }                               /*afs_MemGetDSlot */
3091
3092 static void
3093 LogCacheError(int aslot, int off, int code, int target_size)
3094 {
3095     struct osi_stat tstat;
3096     char *procname;
3097
3098     if (afs_osi_Stat(afs_cacheInodep, &tstat)) {
3099         tstat.size = -1;
3100     }
3101
3102     procname = osi_AllocSmallSpace(AFS_SMALLOCSIZ);
3103     if (procname != NULL) {
3104         osi_procname(procname, AFS_SMALLOCSIZ);
3105         procname[AFS_SMALLOCSIZ-1] = '\0';
3106     }
3107
3108     afs_warn("afs: disk cache read error in CacheItems slot %d "
3109              "off %d/%d code %d/%d pid %d (%s)\n",
3110              aslot, off, (int)tstat.size, code, target_size,
3111              (int)MyPidxx2Pid(MyPidxx),
3112              procname ? procname : "");
3113
3114     if (procname != NULL) {
3115         osi_FreeSmallSpace(procname);
3116         procname = NULL;
3117     }
3118 }
3119
3120 unsigned int last_error = 0, lasterrtime = 0;
3121
3122 /*
3123  * afs_UFSGetDSlot
3124  *
3125  * Description:
3126  *      Return a pointer to an freshly initialized dcache entry using
3127  *      a UFS-based disk cache.  The dcache tlock will be read-locked.
3128  *
3129  * Parameters:
3130  *      aslot : Dcache slot to look at.
3131  *      type : What 'type' of dslot to get; see the dslot_state enum
3132  *
3133  * Environment:
3134  *      afs_xdcache lock write-locked.
3135  */
3136 struct dcache *
3137 afs_UFSGetDSlot(afs_int32 aslot, dslot_state type)
3138 {
3139     afs_int32 code;
3140     struct dcache *tdc;
3141     int existing = 0;
3142     int entryok;
3143     int off;
3144
3145     AFS_STATCNT(afs_UFSGetDSlot);
3146     if (CheckLock(&afs_xdcache) != -1)
3147         osi_Panic("getdslot nolock");
3148     if (aslot < 0 || aslot >= afs_cacheFiles)
3149         osi_Panic("getdslot slot %d (of %d)", aslot, afs_cacheFiles);
3150     tdc = afs_indexTable[aslot];
3151     if (tdc) {
3152         QRemove(&tdc->lruq);    /* move to queue head */
3153         QAdd(&afs_DLRU, &tdc->lruq);
3154         /* Grab tlock in case refCount != 0 */
3155         ObtainWriteLock(&tdc->tlock, 625);
3156         tdc->refCount++;
3157         ConvertWToRLock(&tdc->tlock);
3158         return tdc;
3159     }
3160
3161     /* otherwise we should read it in from the cache file */
3162     if (!afs_freeDSList)
3163         afs_GetDownDSlot(4);
3164     if (!afs_freeDSList) {
3165         /* none free, making one is better than a panic */
3166         afs_stats_cmperf.dcacheXAllocs++;       /* count in case we have a leak */
3167         tdc = afs_osi_Alloc(sizeof(struct dcache));
3168         osi_Assert(tdc != NULL);
3169 #ifdef  KERNEL_HAVE_PIN
3170         pin((char *)tdc, sizeof(struct dcache));        /* XXX */
3171 #endif
3172     } else {
3173         tdc = afs_freeDSList;
3174         afs_freeDSList = (struct dcache *)tdc->lruq.next;
3175         existing = 1;
3176     }
3177     tdc->dflags = 0;    /* up-to-date, not in free q */
3178     tdc->mflags = 0;
3179     QAdd(&afs_DLRU, &tdc->lruq);
3180     if (tdc->lruq.prev == &tdc->lruq)
3181         osi_Panic("lruq 3");
3182
3183     /*
3184      * Seek to the aslot'th entry and read it in.
3185      */
3186     off = sizeof(struct fcache)*aslot + sizeof(struct afs_fheader);
3187     code =
3188         afs_osi_Read(afs_cacheInodep,
3189                      off, (char *)(&tdc->f),
3190                      sizeof(struct fcache));
3191     entryok = 1;
3192     if (code != sizeof(struct fcache)) {
3193         entryok = 0;
3194 #if defined(KERNEL_HAVE_UERROR)
3195         last_error = getuerror();
3196 #else
3197         last_error = code;
3198 #endif
3199         lasterrtime = osi_Time();
3200         if (type != DSLOT_NEW) {
3201             /* If we are requesting a non-DSLOT_NEW slot, this is an error.
3202              * non-DSLOT_NEW slots are supposed to already exist, so if we
3203              * failed to read in the slot, something is wrong. */
3204             LogCacheError(aslot, off, code, sizeof(struct fcache));
3205
3206             /* put tdc back on the free dslot list */
3207             QRemove(&tdc->lruq);
3208             tdc->index = NULLIDX;
3209             tdc->lruq.next = (struct afs_q *)afs_freeDSList;
3210             afs_freeDSList = tdc;
3211             return NULL;
3212         }
3213     }
3214     if (!afs_CellNumValid(tdc->f.fid.Cell)) {
3215         entryok = 0;
3216         if (type == DSLOT_VALID) {
3217             osi_Panic("afs: needed valid dcache but index %d off %d has "
3218                       "invalid cell num %d\n",
3219                       (int)aslot, off, (int)tdc->f.fid.Cell);
3220         }
3221     }
3222
3223     if (type == DSLOT_VALID && tdc->f.fid.Fid.Volume == 0) {
3224         osi_Panic("afs: invalid zero-volume dcache entry at slot %d off %d",
3225                   (int)aslot, off);
3226     }
3227
3228     if (type == DSLOT_UNUSED) {
3229         /* the requested dslot is known to exist, but contain invalid data
3230          * (this happens when we're using a dslot from the free or discard
3231          * list). be sure not to re-use the data in it, so force invalidation.
3232          */
3233         entryok = 0;
3234     }
3235
3236     if (!entryok) {
3237         tdc->f.fid.Cell = 0;
3238         tdc->f.fid.Fid.Volume = 0;
3239         tdc->f.chunk = -1;
3240         hones(tdc->f.versionNo);
3241         tdc->dflags |= DFEntryMod;
3242         afs_indexUnique[aslot] = tdc->f.fid.Fid.Unique;
3243         tdc->f.states &= ~(DRO|DBackup|DRW);
3244         afs_DCMoveBucket(tdc, 0, 0);
3245     } else {
3246         if (tdc->f.states & DRO) {
3247             afs_DCMoveBucket(tdc, 0, 2);
3248         } else if (tdc->f.states & DBackup) {
3249             afs_DCMoveBucket(tdc, 0, 1);
3250         } else {
3251             afs_DCMoveBucket(tdc, 0, 1);
3252         }
3253     }
3254     tdc->refCount = 1;
3255     tdc->index = aslot;
3256     if (tdc->f.chunk >= 0)
3257         tdc->validPos = AFS_CHUNKTOBASE(tdc->f.chunk) + tdc->f.chunkBytes;
3258     else
3259         tdc->validPos = 0;
3260
3261     if (existing) {
3262         osi_Assert(0 == NBObtainWriteLock(&tdc->lock, 674));
3263         osi_Assert(0 == NBObtainWriteLock(&tdc->mflock, 675));
3264         osi_Assert(0 == NBObtainWriteLock(&tdc->tlock, 676));
3265     }
3266
3267     AFS_RWLOCK_INIT(&tdc->lock, "dcache lock");
3268     AFS_RWLOCK_INIT(&tdc->tlock, "dcache tlock");
3269     AFS_RWLOCK_INIT(&tdc->mflock, "dcache flock");
3270     ObtainReadLock(&tdc->tlock);
3271
3272     /*
3273      * If we didn't read into a temporary dcache region, update the
3274      * slot pointer table.
3275      */
3276     afs_indexTable[aslot] = tdc;
3277     return tdc;
3278
3279 }                               /*afs_UFSGetDSlot */
3280
3281
3282
3283 /*!
3284  * Write a particular dcache entry back to its home in the
3285  * CacheInfo file.
3286  *
3287  * \param adc Pointer to the dcache entry to write.
3288  * \param atime If true, set the modtime on the file to the current time.
3289  *
3290  * \note Environment:
3291  *      Must be called with the afs_xdcache lock at least read-locked,
3292  *      and dcache entry at least read-locked.
3293  *      The reference count is not changed.
3294  */
3295
3296 int
3297 afs_WriteDCache(struct dcache *adc, int atime)
3298 {
3299     afs_int32 code;
3300
3301     if (cacheDiskType == AFS_FCACHE_TYPE_MEM)
3302         return 0;
3303     AFS_STATCNT(afs_WriteDCache);
3304     osi_Assert(WriteLocked(&afs_xdcache));
3305     if (atime)
3306         adc->f.modTime = osi_Time();
3307
3308     if ((afs_indexFlags[adc->index] & (IFFree | IFDiscarded)) == 0 &&
3309         adc->f.fid.Fid.Volume == 0) {
3310         /* If a dcache slot is not on the free or discard list, it must be
3311          * in the hash table. Thus, the volume must be non-zero, since that
3312          * is how we determine whether or not to unhash the entry when kicking
3313          * it out of the cache. Do this check now, since otherwise this can
3314          * cause hash table corruption and a panic later on after we read the
3315          * entry back in. */
3316         osi_Panic("afs_WriteDCache zero volume index %d flags 0x%x\n",
3317                   adc->index, (unsigned)afs_indexFlags[adc->index]);
3318     }
3319
3320     /*
3321      * Seek to the right dcache slot and write the in-memory image out to disk.
3322      */
3323     afs_cellname_write();
3324     code =
3325         afs_osi_Write(afs_cacheInodep,
3326                       sizeof(struct fcache) * adc->index +
3327                       sizeof(struct afs_fheader), (char *)(&adc->f),
3328                       sizeof(struct fcache));
3329     if (code != sizeof(struct fcache)) {
3330         afs_warn("afs: failed to write to CacheItems off %ld code %d/%d\n",
3331                  (long)(sizeof(struct fcache) * adc->index + sizeof(struct afs_fheader)),
3332                  (int)code, (int)sizeof(struct fcache));
3333         return EIO;
3334     }
3335     return 0;
3336 }
3337
3338
3339
3340 /*!
3341  * Wake up users of a particular file waiting for stores to take
3342  * place.
3343  *
3344  * \param avc Ptr to related vcache entry.
3345  *
3346  * \note Environment:
3347  *      Nothing interesting.
3348  */
3349 int
3350 afs_wakeup(struct vcache *avc)
3351 {
3352     int i;
3353     struct brequest *tb;
3354     tb = afs_brs;
3355     AFS_STATCNT(afs_wakeup);
3356     for (i = 0; i < NBRS; i++, tb++) {
3357         /* if request is valid and for this file, we've found it */
3358         if (tb->refCount > 0 && avc == tb->vc) {
3359
3360             /*
3361              * If CSafeStore is on, then we don't awaken the guy
3362              * waiting for the store until the whole store has finished.
3363              * Otherwise, we do it now.  Note that if CSafeStore is on,
3364              * the BStore routine actually wakes up the user, instead
3365              * of us.
3366              * I think this is redundant now because this sort of thing
3367              * is already being handled by the higher-level code.
3368              */
3369             if ((avc->f.states & CSafeStore) == 0) {
3370                 tb->code_raw = tb->code_checkcode = 0;
3371                 tb->flags |= BUVALID;
3372                 if (tb->flags & BUWAIT) {
3373                     tb->flags &= ~BUWAIT;
3374                     afs_osi_Wakeup(tb);
3375                 }
3376             }
3377             break;
3378         }
3379     }
3380     return 0;
3381 }
3382
3383 /*!
3384  * Given a file name and inode, set up that file to be an
3385  * active member in the AFS cache.  This also involves checking
3386  * the usability of its data.
3387  *
3388  * \param afile Name of the cache file to initialize.
3389  * \param ainode Inode of the file.
3390  *
3391  * \note Environment:
3392  *      This function is called only during initialization.
3393  */
3394 int
3395 afs_InitCacheFile(char *afile, ino_t ainode)
3396 {
3397     afs_int32 code;
3398     afs_int32 index;
3399     int fileIsBad;
3400     struct osi_file *tfile;
3401     struct osi_stat tstat;
3402     struct dcache *tdc;
3403
3404     AFS_STATCNT(afs_InitCacheFile);
3405     index = afs_stats_cmperf.cacheNumEntries;
3406     if (index >= afs_cacheFiles)
3407         return EINVAL;
3408
3409     ObtainWriteLock(&afs_xdcache, 282);
3410     tdc = afs_GetNewDSlot(index);
3411     ReleaseReadLock(&tdc->tlock);
3412     ReleaseWriteLock(&afs_xdcache);
3413
3414     ObtainWriteLock(&tdc->lock, 621);
3415     ObtainWriteLock(&afs_xdcache, 622);
3416     if (!afile && !ainode) {
3417         tfile = NULL;
3418         fileIsBad = 1;
3419     } else {
3420         if (afile) {
3421             code = afs_LookupInodeByPath(afile, &tdc->f.inode.ufs, NULL);
3422             if (code) {
3423                 ReleaseWriteLock(&afs_xdcache);
3424                 ReleaseWriteLock(&tdc->lock);
3425                 afs_PutDCache(tdc);
3426                 return code;
3427             }
3428         } else {
3429             /* Add any other 'complex' inode types here ... */
3430 #if !defined(AFS_LINUX26_ENV) && !defined(AFS_CACHE_VNODE_PATH)
3431             tdc->f.inode.ufs = ainode;
3432 #else
3433             osi_Panic("Can't init cache with inode numbers when complex inodes are "
3434                       "in use\n");
3435 #endif
3436         }
3437         fileIsBad = 0;
3438         if ((tdc->f.states & DWriting) || tdc->f.fid.Fid.Volume == 0)
3439             fileIsBad = 1;
3440         tfile = osi_UFSOpen(&tdc->f.inode);
3441         if (!tfile) {
3442             ReleaseWriteLock(&afs_xdcache);
3443             ReleaseWriteLock(&tdc->lock);
3444             afs_PutDCache(tdc);
3445             return ENOENT;
3446         }
3447
3448         code = afs_osi_Stat(tfile, &tstat);
3449         if (code)
3450             osi_Panic("initcachefile stat");
3451
3452         /*
3453          * If file size doesn't match the cache info file, it's probably bad.
3454          */
3455         if (tdc->f.chunkBytes != tstat.size)
3456             fileIsBad = 1;
3457         /*
3458          * If file changed within T (120?) seconds of cache info file, it's
3459          * probably bad.  In addition, if slot changed within last T seconds,
3460          * the cache info file may be incorrectly identified, and so slot
3461          * may be bad.
3462          */
3463         if (cacheInfoModTime < tstat.mtime + 120)
3464             fileIsBad = 1;
3465         if (cacheInfoModTime < tdc->f.modTime + 120)
3466             fileIsBad = 1;
3467         /* In case write through is behind, make sure cache items entry is
3468          * at least as new as the chunk.
3469          */
3470         if (tdc->f.modTime < tstat.mtime)
3471             fileIsBad = 1;
3472     }
3473     tdc->f.chunkBytes = 0;
3474
3475     if (fileIsBad) {
3476         tdc->f.fid.Fid.Volume = 0;      /* not in the hash table */
3477         if (tfile && tstat.size != 0)
3478             osi_UFSTruncate(tfile, 0);
3479         tdc->f.states &= ~(DRO|DBackup|DRW);
3480         afs_DCMoveBucket(tdc, 0, 0);
3481         /* put entry in free cache slot list */
3482         afs_dvnextTbl[tdc->index] = afs_freeDCList;
3483         afs_freeDCList = index;
3484         afs_freeDCCount++;
3485         afs_indexFlags[index] |= IFFree;
3486         afs_indexUnique[index] = 0;
3487     } else {
3488         /*
3489          * We must put this entry in the appropriate hash tables.
3490          * Note that i is still set from the above DCHash call
3491          */
3492         code = DCHash(&tdc->f.fid, tdc->f.chunk);
3493         afs_dcnextTbl[tdc->index] = afs_dchashTbl[code];
3494         afs_dchashTbl[code] = tdc->index;
3495         code = DVHash(&tdc->f.fid);
3496         afs_dvnextTbl[tdc->index] = afs_dvhashTbl[code];
3497         afs_dvhashTbl[code] = tdc->index;
3498         afs_AdjustSize(tdc, tstat.size);        /* adjust to new size */
3499         if (tstat.size > 0)
3500             /* has nontrivial amt of data */
3501             afs_indexFlags[index] |= IFEverUsed;
3502         afs_stats_cmperf.cacheFilesReused++;
3503         /*
3504          * Initialize index times to file's mod times; init indexCounter
3505          * to max thereof
3506          */
3507         hset32(afs_indexTimes[index], tstat.atime);
3508         if (hgetlo(afs_indexCounter) < tstat.atime) {
3509             hset32(afs_indexCounter, tstat.atime);
3510         }
3511         afs_indexUnique[index] = tdc->f.fid.Fid.Unique;
3512     }                           /*File is not bad */
3513
3514     if (tfile)
3515         osi_UFSClose(tfile);
3516     tdc->f.states &= ~DWriting;
3517     tdc->dflags &= ~DFEntryMod;
3518     /* don't set f.modTime; we're just cleaning up */
3519     osi_Assert(afs_WriteDCache(tdc, 0) == 0);
3520     ReleaseWriteLock(&afs_xdcache);
3521     ReleaseWriteLock(&tdc->lock);
3522     afs_PutDCache(tdc);
3523     afs_stats_cmperf.cacheNumEntries++;
3524     return 0;
3525 }
3526
3527
3528 /*Max # of struct dcache's resident at any time*/
3529 /*
3530  * If 'dchint' is enabled then in-memory dcache min is increased because of
3531  * crashes...
3532  */
3533 #define DDSIZE 200
3534