afs: Skip bulkstat if stat cache looks full
[openafs.git] / src / afs / VNOPS / afs_vnop_lookup.c
index 1a15f49..dd585e9 100644 (file)
@@ -39,7 +39,7 @@ int afs_fakestat_enable = 0;  /* 1: fakestat-all, 2: fakestat-crosscell */
  * what "@sys" is in binary... */
 #define AFS_EQ_ATSYS(name) (((name)[0]=='@')&&((name)[1]=='s')&&((name)[2]=='y')&&((name)[3]=='s')&&(!(name)[4]))
 
-/* call under write lock, evaluate mvid field from a mt pt.
+/* call under write lock, evaluate mvid.target_root field from a mt pt.
  * avc is the vnode of the mount point object; must be write-locked.
  * advc is the vnode of the containing directory (optional; if NULL and
  *   EvalMountPoint succeeds, caller must initialize *avolpp->dotdot)
@@ -58,7 +58,7 @@ EvalMountData(char type, char *data, afs_uint32 states, afs_uint32 cellnum,
     struct VenusFid tfid;
     struct cell *tcell;
     char *cpos, *volnamep = NULL;
-    char *buf, *endptr;
+    char *endptr;
     afs_int32 prefetch;                /* 1=>None  2=>RO  3=>BK */
     afs_int32 mtptCell, assocCell = 0, hac = 0;
     afs_int32 samecell, roname, len;
@@ -200,24 +200,6 @@ EvalMountData(char type, char *data, afs_uint32 states, afs_uint32 cellnum,
                                WRITE_LOCK);
     }
 
-    /* Still not found. If we are looking for the RO, then perhaps the RW 
-     * doesn't exist? Try adding ".readonly" to volname and look for that.
-     * Don't know why we do this. Would have still found it in above call - jpm.
-     */
-    if (!tvp && (prefetch == 2) && len < AFS_SMALLOCSIZ - 10) {
-       buf = (char *)osi_AllocSmallSpace(len + 10);
-
-       strcpy(buf, volnamep);
-       afs_strcat(buf, ".readonly");
-
-       tvp = afs_GetVolumeByName(buf, mtptCell, 1, areq, WRITE_LOCK);
-
-       /* Try the associated linked cell if failed */
-       if (!tvp && hac && areq->volumeError) {
-           tvp = afs_GetVolumeByName(buf, assocCell, 1, areq, WRITE_LOCK);
-       }
-       osi_FreeSmallSpace(buf);
-    }
     /* done with volname */
     if (cpos)
        *cpos = ':';
@@ -278,10 +260,6 @@ EvalMountPoint(struct vcache *avc, struct vcache *advc,
     afs_uint32 avnoid, auniq;
 
     AFS_STATCNT(EvalMountPoint);
-#ifdef notdef
-    if (avc->mvid && (avc->f.states & CMValid))
-       return 0;               /* done while racing */
-#endif
     *avolpp = NULL;
     code = afs_HandleLink(avc, areq);
     if (code)
@@ -299,13 +277,12 @@ EvalMountPoint(struct vcache *avc, struct vcache *advc,
     if (!auniq)
        auniq = 1;
 
-    if (avc->mvid == 0)
-       avc->mvid =
-           (struct VenusFid *)osi_AllocSmallSpace(sizeof(struct VenusFid));
-    avc->mvid->Cell = (*avolpp)->cell;
-    avc->mvid->Fid.Volume = (*avolpp)->volume;
-    avc->mvid->Fid.Vnode = avnoid;
-    avc->mvid->Fid.Unique = auniq;
+    if (avc->mvid.target_root == NULL)
+       avc->mvid.target_root = osi_AllocSmallSpace(sizeof(struct VenusFid));
+    avc->mvid.target_root->Cell = (*avolpp)->cell;
+    avc->mvid.target_root->Fid.Volume = (*avolpp)->volume;
+    avc->mvid.target_root->Fid.Vnode = avnoid;
+    avc->mvid.target_root->Fid.Unique = auniq;
     avc->f.states |= CMValid;
 
     /* Used to: if the mount point is stored within a backup volume,
@@ -374,7 +351,7 @@ afs_EvalFakeStat_int(struct vcache **avcp, struct afs_fakestat_state *state,
     state->did_eval = 1;
 
     tvc = *avcp;
-    if (tvc->mvstat != 1)
+    if (tvc->mvstat != AFS_MVSTAT_MTPT)
        return 0;
 
     if (canblock) {
@@ -394,25 +371,25 @@ afs_EvalFakeStat_int(struct vcache **avcp, struct afs_fakestat_state *state,
            tvolp->dotdot.Fid.Unique = tvc->f.parent.unique;
        }
     }
-    if (tvc->mvid && (tvc->f.states & CMValid)) {
+    if (tvc->mvid.target_root && (tvc->f.states & CMValid)) {
        if (!canblock) {
            afs_int32 retry;
 
            do {
                retry = 0;
-               ObtainWriteLock(&afs_xvcache, 597);
-               root_vp = afs_FindVCache(tvc->mvid, &retry, IS_WLOCK);
+               ObtainReadLock(&afs_xvcache);
+               root_vp = afs_FindVCache(tvc->mvid.target_root, &retry, 0);
                if (root_vp && retry) {
-                   ReleaseWriteLock(&afs_xvcache);
+                   ReleaseReadLock(&afs_xvcache);
                    afs_PutVCache(root_vp);
                }
            } while (root_vp && retry);
-           ReleaseWriteLock(&afs_xvcache);
+           ReleaseReadLock(&afs_xvcache);
        } else {
-           root_vp = afs_GetVCache(tvc->mvid, areq, NULL, NULL);
+           root_vp = afs_GetVCache(tvc->mvid.target_root, areq);
        }
        if (!root_vp) {
-           code = canblock ? ENOENT : 0;
+           code = canblock ? EIO : 0;
            goto done;
        }
 #ifdef AFS_DARWIN80_ENV
@@ -428,9 +405,9 @@ afs_EvalFakeStat_int(struct vcache **avcp, struct afs_fakestat_state *state,
             * NBObtainWriteLock to avoid potential deadlock.
             */
            ObtainWriteLock(&root_vp->lock, 598);
-           if (!root_vp->mvid)
-               root_vp->mvid = osi_AllocSmallSpace(sizeof(struct VenusFid));
-           *root_vp->mvid = tvolp->dotdot;
+           if (!root_vp->mvid.parent)
+               root_vp->mvid.parent = osi_AllocSmallSpace(sizeof(struct VenusFid));
+           *root_vp->mvid.parent = tvolp->dotdot;
            ReleaseWriteLock(&root_vp->lock);
        }
        state->need_release = 1;
@@ -438,7 +415,7 @@ afs_EvalFakeStat_int(struct vcache **avcp, struct afs_fakestat_state *state,
        *avcp = root_vp;
        code = 0;
     } else {
-       code = canblock ? ENOENT : 0;
+       code = canblock ? EIO : 0;
     }
 
   done:
@@ -554,7 +531,7 @@ Check_AtSys(struct vcache *avc, const char *aname,
 
     if (AFS_EQ_ATSYS(aname)) {
        state->offset = 0;
-       state->name = (char *)osi_AllocLargeSpace(MAXSYSNAME);
+       state->name = osi_AllocLargeSpace(MAXSYSNAME);
        state->allocked = 1;
        state->index =
            afs_getsysname(areq, avc, state->name, &num, sysnamelist);
@@ -586,7 +563,7 @@ Next_AtSys(struct vcache *avc, struct vrequest *areq,
 
        if ((tname > state->name + 4) && (AFS_EQ_ATSYS(tname - 4))) {
            state->offset = (tname - 4) - state->name;
-           tname = (char *)osi_AllocLargeSpace(AFS_LRALLOCSIZ);
+           tname = osi_AllocLargeSpace(AFS_LRALLOCSIZ);
            strncpy(tname, state->name, state->offset);
            state->name = tname;
            state->allocked = 1;
@@ -622,7 +599,34 @@ Next_AtSys(struct vcache *avc, struct vrequest *areq,
     return 1;
 }
 
-extern int BlobScan(struct dcache * afile, afs_int32 ablob);
+static int
+afs_CheckBulkStatus(struct afs_conn *tc, int nFids, AFSBulkStats *statParm,
+                    AFSCBs *cbParm)
+{
+    int i;
+    int code;
+
+    if (statParm->AFSBulkStats_len != nFids || cbParm->AFSCBs_len != nFids) {
+       afs_warn("afs: BulkFetchStatus length %u/%u, expected %u\n",
+                (unsigned)statParm->AFSBulkStats_len,
+                (unsigned)cbParm->AFSCBs_len, nFids);
+       afs_BadFetchStatus(tc);
+       return VBUSY;
+    }
+    for (i = 0; i < nFids; i++) {
+       if (statParm->AFSBulkStats_val[i].errorCode) {
+           continue;
+       }
+       code = afs_CheckFetchStatus(tc, &statParm->AFSBulkStats_val[i]);
+       if (code) {
+           return code;
+       }
+    }
+
+    return 0;
+}
+
+extern int BlobScan(struct dcache * afile, afs_int32 ablob, afs_int32 *ablobOut);
 
 /* called with an unlocked directory and directory cookie.  Areqp
  * describes who is making the call.
@@ -670,10 +674,12 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
     long startTime;            /* time we started the call,
                                 * for callback expiration base
                                 */
+#if defined(AFS_DARWIN_ENV)
     int ftype[4] = {VNON, VREG, VDIR, VLNK}; /* verify type is as expected */
+#endif
     afs_size_t statSeqNo = 0;  /* Valued of file size to detect races */
     int code;                  /* error code */
-    long newIndex;             /* new index in the dir */
+    afs_int32 newIndex;                /* new index in the dir */
     struct DirBuffer entry;    /* Buffer for dir manipulation */
     struct DirEntry *dirEntryp;        /* dir entry we are examining */
     int i;
@@ -685,6 +691,7 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
     struct VenusFid dotdot = {0, {0, 0, 0}};
     int flagIndex = 0;         /* First file with bulk fetch flag set */
     struct rx_connection *rxconn;
+    int attempt_i;
     XSTATS_DECLS;
     dotdot.Cell = 0;
     dotdot.Fid.Unique = 0;
@@ -713,11 +720,9 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
      * one for fids and callbacks, and one for stat info.  Well set
      * up our pointers to the memory from there, too.
      */
-    statsp = (AFSFetchStatus *) 
-           osi_Alloc(AFSCBMAX * sizeof(AFSFetchStatus));
-    fidsp = (AFSFid *) osi_AllocLargeSpace(nentries * sizeof(AFSFid));
-    cbsp = (AFSCallBack *) 
-           osi_Alloc(AFSCBMAX * sizeof(AFSCallBack));
+    statsp = osi_Alloc(AFSCBMAX * sizeof(AFSFetchStatus));
+    fidsp = osi_AllocLargeSpace(nentries * sizeof(AFSFid));
+    cbsp = osi_Alloc(AFSCBMAX * sizeof(AFSCallBack));
 
     /* next, we must iterate over the directory, starting from the specified
      * cookie offset (dirCookie), and counting out nentries file entries.
@@ -731,7 +736,7 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
 
     dcp = afs_GetDCache(adp, (afs_size_t) 0, areqp, &temp, &temp, 1);
     if (!dcp) {
-       code = ENOENT;
+       code = EIO;
        goto done2;
     }
 
@@ -747,7 +752,7 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
      */
     while ((adp->f.states & CStatd)
           && (dcp->dflags & DFFetching)
-          && hsame(adp->f.m.DataVersion, dcp->f.versionNo)) {
+          && afs_IsDCacheFresh(dcp, adp)) {
        afs_Trace4(afs_iclSetp, CM_TRACE_DCACHEWAIT, ICL_TYPE_STRING,
                   __FILE__, ICL_TYPE_INT32, __LINE__, ICL_TYPE_POINTER, dcp,
                   ICL_TYPE_INT32, dcp->dflags);
@@ -758,7 +763,7 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
        ObtainReadLock(&dcp->lock);
     }
     if (!(adp->f.states & CStatd)
-       || !hsame(adp->f.m.DataVersion, dcp->f.versionNo)) {
+       || !afs_IsDCacheFresh(dcp, adp)) {
        ReleaseReadLock(&dcp->lock);
        ReleaseReadLock(&adp->lock);
        afs_PutDCache(dcp);
@@ -780,12 +785,23 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
     /* now we have dir data in the cache, so scan the dir page */
     fidIndex = 0;
     flagIndex = 0;
-    while (1) {                        /* Should probably have some constant bound */
+
+    /*
+     * Only examine at most the next 'nentries*4' entries to find dir entries
+     * to stat. This is an arbitrary limit that we set so we don't waste time
+     * scanning an entire dir that contains stat'd entries. For example, if a
+     * dir contains 10k entries, and all or almost all of them are stat'd, then
+     * we'll examine 10k entries for no benefit. For each entry, we run
+     * afs_FindVCache, and grab and release afs_xvcache; doing this e.g. 10k
+     * times can have significant impact if the client is under a lot of load.
+     */
+    for (attempt_i = 0; attempt_i < nentries * 4; attempt_i++) {
+
        /* look for first safe entry to examine in the directory.  BlobScan
         * looks for a the 1st allocated dir after the dirCookie slot.
         */
-       newIndex = BlobScan(dcp, (dirCookie >> 5));
-       if (newIndex == 0)
+       code = BlobScan(dcp, (dirCookie >> 5), &newIndex);
+       if (code || newIndex == 0)
            break;
 
        /* remember the updated directory cookie */
@@ -817,14 +833,15 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
            tfid.Fid.Unique = ntohl(dirEntryp->fid.vunique);
            do {
                retry = 0;
-               ObtainWriteLock(&afs_xvcache, 130);
-               tvcp = afs_FindVCache(&tfid, &retry, IS_WLOCK /* no stats | LRU */ );
+               ObtainSharedLock(&afs_xvcache, 130);
+               tvcp = afs_FindVCache(&tfid, &retry, IS_SLOCK /* no stats | LRU */ );
                if (tvcp && retry) {
-                   ReleaseWriteLock(&afs_xvcache);
+                   ReleaseSharedLock(&afs_xvcache);
                    afs_PutVCache(tvcp);
                }
            } while (tvcp && retry);
            if (!tvcp) {        /* otherwise, create manually */
+               UpgradeSToWLock(&afs_xvcache, 129);
                tvcp = afs_NewBulkVCache(&tfid, hostp, statSeqNo);
                if (tvcp)
                {
@@ -837,7 +854,7 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
                    else
                        tvcp->f.m.Type = VREG;
                    /* finalize to a best guess */
-                   afs_darwin_finalizevnode(tvcp, VTOAFS(adp), NULL, 0, 1);
+                   afs_darwin_finalizevnode(tvcp, AFSTOV(adp), NULL, 0, 1);
                    /* re-acquire usecount that finalizevnode disposed of */
                    vnode_ref(AFSTOV(tvcp));
 #endif
@@ -848,7 +865,7 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
                    ReleaseWriteLock(&afs_xvcache);
                }
            } else {
-               ReleaseWriteLock(&afs_xvcache);
+               ReleaseSharedLock(&afs_xvcache);
            }
            if (!tvcp)
            {
@@ -915,7 +932,7 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
        if (temp <= 0)
            break;
        dirCookie += temp;
-    }                          /* while loop over all dir entries */
+    }                          /* for loop over dir entries */
 
     /* now release the dir lock and prepare to make the bulk RPC */
     ReleaseReadLock(&dcp->lock);
@@ -988,11 +1005,6 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
                        RXAFS_BulkStatus(rxconn, &fidParm, &statParm,
                                         &cbParm, &volSync);
                    RX_AFS_GLOCK();
-               } else if (!code) {
-                   /* The InlineBulkStatus call itself succeeded, but we
-                    * may have failed to stat the first entry. Use the error
-                    * from the first entry for processing. */
-                   code = (&statsp[0])->errorCode;
                }
            } else {
                RX_AFS_GUNLOCK();
@@ -1002,10 +1014,19 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
                RX_AFS_GLOCK();
            }
            XSTATS_END_TIME;
+
+           if (code == 0) {
+               code = afs_CheckBulkStatus(tcp, fidIndex, &statParm, &cbParm);
+           }
        } else
            code = -1;
+       /* make sure we give afs_Analyze a chance to retry,
+        * but if the RPC succeeded we may have entries to merge.
+        * if we wipe code with one entry's status we get bogus failures.
+        */
     } while (afs_Analyze
-            (tcp, rxconn, code, &adp->f.fid, areqp, AFS_STATS_FS_RPCIDX_BULKSTATUS,
+            (tcp, rxconn, code ? code : (&statsp[0])->errorCode,
+             &adp->f.fid, areqp, AFS_STATS_FS_RPCIDX_BULKSTATUS,
              SHARED_LOCK, NULL));
 
     /* now, if we didnt get the info, bail out. */
@@ -1086,7 +1107,9 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
        retry = 1;
     }
 #else
-    osi_vnhold(lruvcp, &retry);
+    if (osi_vnhold(lruvcp) != 0) {
+       retry = 1;
+    }
 #endif
     ReleaseReadLock(&afs_xvcache);     /* could be read lock */
     if (retry)
@@ -1132,7 +1155,10 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
         */
        if (!(tvcp->f.states & CBulkFetching)
            || (tvcp->f.m.Length != statSeqNo)
-           || (ftype[(&statsp[i])->FileType] != vType(tvcp))) {
+#if defined(AFS_DARWIN_ENV)
+            || (ftype[(&statsp[i])->FileType] != vType(tvcp))
+#endif
+           ) {
            flagIndex++;
            ReleaseWriteLock(&tvcp->lock);
            afs_PutVCache(tvcp);
@@ -1140,11 +1166,10 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
        }
 
        /* now copy ".." entry back out of volume structure, if necessary */
-       if (tvcp->mvstat == 2 && (dotdot.Fid.Volume != 0)) {
-           if (!tvcp->mvid)
-               tvcp->mvid = (struct VenusFid *)
-                   osi_AllocSmallSpace(sizeof(struct VenusFid));
-           *tvcp->mvid = dotdot;
+       if (tvcp->mvstat == AFS_MVSTAT_ROOT && (dotdot.Fid.Volume != 0)) {
+           if (!tvcp->mvid.parent)
+               tvcp->mvid.parent = osi_AllocSmallSpace(sizeof(struct VenusFid));
+           *tvcp->mvid.parent = dotdot;
        }
 
 #ifdef AFS_DARWIN80_ENV
@@ -1239,11 +1264,9 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
            tvcp->f.states |= CStatd;
            afs_QueueCallback(tvcp, CBHash(3600), volp);
        } else {
-           tvcp->callback = 0;
-           tvcp->f.states &= ~(CStatd | CUnique);
-           afs_DequeueCallback(tvcp);
-           if ((tvcp->f.states & CForeign) || (vType(tvcp) == VDIR))
-               osi_dnlc_purgedp(tvcp); /* if it (could be) a directory */
+           afs_StaleVCacheFlags(tvcp,
+                                AFS_STALEVC_CBLOCKED | AFS_STALEVC_CLEARCB,
+                                CUnique);
        }
 #ifdef AFS_DARWIN80_ENV
        /* reclaim->FlushVCache will need xcbhash */
@@ -1253,11 +1276,9 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
            code = afs_darwin_finalizevnode(tvcp, NULL, NULL, 0, 1);
            if (code) {
                /* It's gonna get recycled - shouldn't happen */
-               tvcp->callback = 0;
-               tvcp->f.states &= ~(CStatd | CUnique);
-               afs_DequeueCallback(tvcp);
-               if ((tvcp->f.states & CForeign) || (vType(tvcp) == VDIR))
-                   osi_dnlc_purgedp(tvcp); /* if it (could be) a directory */
+               afs_StaleVCacheFlags(tvcp,
+                                    AFS_STALEVC_CBLOCKED | AFS_STALEVC_CLEARCB,
+                                    CUnique);
            } else
                /* re-acquire the usecount that finalizevnode disposed of */
                vnode_ref(AFSTOV(tvcp));
@@ -1313,13 +1334,49 @@ afs_DoBulkStat(struct vcache *adp, long dirCookie, struct vrequest *areqp)
     return code;
 }
 
-/* was: (AFS_DEC_ENV) || defined(AFS_OSF30_ENV) || defined(AFS_NCR_ENV) */
 #ifdef AFS_DARWIN80_ENV
-int AFSDOBULK = 1;
-#else
-static int AFSDOBULK = 1;
+int AFSDOBULK = 0;
 #endif
 
+static int
+afs_ShouldTryBulkStat(struct vcache *adp)
+{
+#ifdef AFS_DARWIN80_ENV
+    if (!AFSDOBULK) {
+       return 0;
+    }
+#endif
+    if (AFS_IS_DISCONNECTED) {
+       /* We can't prefetch entries if we're offline. */
+       return 0;
+    }
+    if (adp->opens < 1) {
+       /* Don't bother prefetching entries if nobody is holding the dir open
+        * while we're doing a lookup. */
+       return 0;
+    }
+    if (afs_VCacheStressed()) {
+       /* If we already have too many vcaches, don't create more vcaches we
+        * may not even use. */
+       return 0;
+    }
+    if ((adp->f.states & CForeign)) {
+       /* Don't bulkstat for dfs xlator dirs. */
+       return 0;
+    }
+    if (afs_IsDynroot(adp)) {
+       /* Don't prefetch dynroot entries; that's pointless, since we generate
+        * those locally. */
+       return 0;
+    }
+    if (afs_InReadDir(adp)) {
+       /* Don't bulkstat if we're in the middle of servicing a readdir() in
+        * the same process. */
+       return 0;
+    }
+    return 1;
+}
+
 static_inline int
 osi_lookup_isdot(const char *aname)
 {
@@ -1346,7 +1403,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
 afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acred)
 #endif
 {
-    struct vrequest treq;
+    struct vrequest *treq = NULL;
     char *tname = NULL;
     struct vcache *tvc = 0;
     afs_int32 code;
@@ -1354,24 +1411,28 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
     int pass = 0, hit = 0;
     int force_eval = afs_fakestat_enable ? 0 : 1;
     long dirCookie;
-    extern afs_int32 afs_mariner;      /*Writing activity to log? */
     afs_hyper_t versionNo;
     int no_read_access = 0;
     struct sysname_info sysState;      /* used only for @sys checking */
     int dynrootRetry = 1;
     struct afs_fakestat_state fakestate;
     int tryEvalOnly = 0;
+
+    /* Don't allow ENOENT errors, except for a specific code path where
+     * 'enoent_prohibited' is cleared below. */
+    int enoent_prohibited = 1;
+
     OSI_VC_CONVERT(adp);
 
     AFS_STATCNT(afs_lookup);
     afs_InitFakeStat(&fakestate);
 
     AFS_DISCON_LOCK();
-    
-    if ((code = afs_InitReq(&treq, acred)))
+
+    if ((code = afs_CreateReq(&treq, acred)))
        goto done;
 
-    if (afs_fakestat_enable && adp->mvstat == 1) {
+    if (afs_fakestat_enable && adp->mvstat == AFS_MVSTAT_MTPT) {
        if (strcmp(aname, ".directory") == 0)
            tryEvalOnly = 1;
     }
@@ -1380,60 +1441,57 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
     /* Workaround for MacOSX Finder, which tries to look for
      * .DS_Store and Contents under every directory.
      */
-    if (afs_fakestat_enable && adp->mvstat == 1) {
+    if (afs_fakestat_enable && adp->mvstat == AFS_MVSTAT_MTPT) {
        if (strcmp(aname, ".DS_Store") == 0)
            tryEvalOnly = 1;
        if (strcmp(aname, "Contents") == 0)
            tryEvalOnly = 1;
     }
-    if (afs_fakestat_enable && adp->mvstat == 2) {
+    if (afs_fakestat_enable && adp->mvstat == AFS_MVSTAT_ROOT) {
        if (strncmp(aname, "._", 2) == 0)
            tryEvalOnly = 1;
     }
 #endif
 
     if (tryEvalOnly)
-       code = afs_TryEvalFakeStat(&adp, &fakestate, &treq);
+       code = afs_TryEvalFakeStat(&adp, &fakestate, treq);
     else
-       code = afs_EvalFakeStat(&adp, &fakestate, &treq);
+       code = afs_EvalFakeStat(&adp, &fakestate, treq);
 
     /*printf("Code is %d\n", code);*/
     
-    if (tryEvalOnly && adp->mvstat == 1)
-       code = ENOENT;
+    if (tryEvalOnly && adp->mvstat == AFS_MVSTAT_MTPT)
+       code = ENODEV;
     if (code)
        goto done;
 
-    *avcp = NULL;              /* Since some callers don't initialize it */
-
     /* come back to here if we encounter a non-existent object in a read-only
      * volume's directory */
-
   redo:
     *avcp = NULL;              /* Since some callers don't initialize it */
     bulkcode = 0;
 
     if (!(adp->f.states & CStatd) && !afs_InReadDir(adp)) {
-       if ((code = afs_VerifyVCache2(adp, &treq))) {
+       if ((code = afs_VerifyVCache2(adp, treq))) {
            goto done;
        }
     } else
        code = 0;
 
     /* watch for ".." in a volume root */
-    if (adp->mvstat == 2 && aname[0] == '.' && aname[1] == '.' && !aname[2]) {
+    if (adp->mvstat == AFS_MVSTAT_ROOT && aname[0] == '.' && aname[1] == '.' && !aname[2]) {
        /* looking up ".." in root via special hacks */
-       if (adp->mvid == (struct VenusFid *)0 || adp->mvid->Fid.Volume == 0) {
+       if (adp->mvid.parent == (struct VenusFid *)0 || adp->mvid.parent->Fid.Volume == 0) {
            code = ENODEV;
            goto done;
        }
        /* otherwise we have the fid here, so we use it */
        /*printf("Getting vcache\n");*/
-       tvc = afs_GetVCache(adp->mvid, &treq, NULL, NULL);
-       afs_Trace3(afs_iclSetp, CM_TRACE_GETVCDOTDOT, ICL_TYPE_FID, adp->mvid,
+       tvc = afs_GetVCache(adp->mvid.parent, treq);
+       afs_Trace3(afs_iclSetp, CM_TRACE_GETVCDOTDOT, ICL_TYPE_FID, adp->mvid.parent,
                   ICL_TYPE_POINTER, tvc, ICL_TYPE_INT32, code);
        *avcp = tvc;
-       code = (tvc ? 0 : ENOENT);
+       code = (tvc ? 0 : EIO);
        hit = 1;
        if (tvc && !VREFCOUNT_GT(tvc, 0)) {
            osi_Panic("TT1");
@@ -1445,18 +1503,18 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
     }
 
     /* now check the access */
-    if (treq.uid != adp->last_looker) {
-       if (!afs_AccessOK(adp, PRSFS_LOOKUP, &treq, CHECK_MODE_BITS)) {
+    if (treq->uid != adp->last_looker) {
+       if (!afs_AccessOK(adp, PRSFS_LOOKUP, treq, CHECK_MODE_BITS)) {
            *avcp = NULL;
            code = EACCES;
            goto done;
        } else
-           adp->last_looker = treq.uid;
+           adp->last_looker = treq->uid;
     }
 
     /* Check for read access as well.  We need read access in order to
      * stat files, but not to stat subdirectories. */
-    if (!afs_AccessOK(adp, PRSFS_READ, &treq, CHECK_MODE_BITS))
+    if (!afs_AccessOK(adp, PRSFS_READ, treq, CHECK_MODE_BITS))
        no_read_access = 1;
 
     /* special case lookup of ".".  Can we check for it sooner in this code,
@@ -1466,7 +1524,11 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
      */
     if (osi_lookup_isdot(aname)) {     /* special case */
        ObtainReadLock(&afs_xvcache);
-       osi_vnhold(adp, 0);
+       if (osi_vnhold(adp) != 0) {
+           ReleaseReadLock(&afs_xvcache);
+           code = EIO;
+           goto done;
+       }
        ReleaseReadLock(&afs_xvcache);
 #ifdef AFS_DARWIN80_ENV
         vnode_get(AFSTOV(adp));
@@ -1488,7 +1550,11 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        aname[0] == '.' && aname[1] == '.' && !aname[2]) {
 
        ObtainReadLock(&afs_xvcache);
-       osi_vnhold(afs_globalVp, 0);
+       if (osi_vnhold(afs_globalVp) != 0) {
+           ReleaseReadLock(&afs_xvcache);
+           code = EIO;
+           goto done;
+       }
        ReleaseReadLock(&afs_xvcache);
 #ifdef AFS_DARWIN80_ENV
         vnode_get(AFSTOV(afs_globalVp));
@@ -1509,7 +1575,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        struct VenusFid tfid;
        afs_uint32 cellidx, volid, vnoid, uniq;
 
-       code = EvalMountData('%', aname, 0, 0, NULL, &treq, &cellidx, &volid, &vnoid, &uniq);
+       code = EvalMountData('%', aname, 0, 0, NULL, treq, &cellidx, &volid, &vnoid, &uniq);
        if (code)
            goto done;
        /* If a vnode was returned, it's not a real mount point */
@@ -1525,8 +1591,8 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
            tfid.Fid.Vnode = VNUM_FROM_TYPEID(VN_TYPE_MOUNT, cellidx << 2);
            tfid.Fid.Unique = volid;
        }
-       *avcp = tvc = afs_GetVCache(&tfid, &treq, NULL, NULL);
-       code = (tvc ? 0 : ENOENT);
+       *avcp = tvc = afs_GetVCache(&tfid, treq);
+       code = (tvc ? 0 : EIO);
        hit = 1;
        goto done;
     }
@@ -1541,14 +1607,14 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        struct VenusFid tfid;
 
        afs_GetDynrootMountFid(&tfid);
-       *avcp = tvc = afs_GetVCache(&tfid, &treq, NULL, NULL);
+       *avcp = tvc = afs_GetVCache(&tfid, treq);
        code = 0;
        hit = 1;
        goto done;
     }
 #endif
 
-    Check_AtSys(adp, aname, &sysState, &treq);
+    Check_AtSys(adp, aname, &sysState, treq);
     tname = sysState.name;
 
     /* 1st Check_AtSys and lookup by tname is required here, for now,
@@ -1569,7 +1635,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
            goto done;
        }
 #ifdef AFS_LINUX22_ENV
-       if (tvc->mvstat == 2) { /* we don't trust the dnlc for root vcaches */
+       if (tvc->mvstat == AFS_MVSTAT_ROOT) {   /* we don't trust the dnlc for root vcaches */
            AFS_RELE(AFSTOV(tvc));
            *avcp = 0;
        } else {
@@ -1593,7 +1659,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        if (afs_InReadDir(adp))
            tdc = adp->dcreaddir;
        else
-           tdc = afs_GetDCache(adp, (afs_size_t) 0, &treq,
+           tdc = afs_GetDCache(adp, (afs_size_t) 0, treq,
                                &dirOffset, &dirLen, 1);
        if (!tdc) {
            *avcp = NULL;       /* redundant, but harmless */
@@ -1619,7 +1685,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        if (!afs_InReadDir(adp)) {
            while ((adp->f.states & CStatd)
                   && (tdc->dflags & DFFetching)
-                  && hsame(adp->f.m.DataVersion, tdc->f.versionNo)) {
+                  && afs_IsDCacheFresh(tdc, adp)) {
                ReleaseReadLock(&tdc->lock);
                ReleaseReadLock(&adp->lock);
                afs_osi_Sleep(&tdc->validPos);
@@ -1627,7 +1693,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
                ObtainReadLock(&tdc->lock);
            }
            if (!(adp->f.states & CStatd)
-               || !hsame(adp->f.m.DataVersion, tdc->f.versionNo)) {
+               || !afs_IsDCacheFresh(tdc, adp)) {
                ReleaseReadLock(&tdc->lock);
                ReleaseReadLock(&adp->lock);
                afs_PutDCache(tdc);
@@ -1658,7 +1724,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
                                 &dirCookie);
 
        /* If the first lookup doesn't succeed, maybe it's got @sys in the name */
-       while (code == ENOENT && Next_AtSys(adp, &treq, &sysState))
+       while (code == ENOENT && Next_AtSys(adp, treq, &sysState))
            code =
                afs_dir_LookupOffset(tdc, sysState.name, &tfid.Fid,
                                     &dirCookie);
@@ -1703,8 +1769,10 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
                   ICL_TYPE_INT32, code);
 
        if (code) {
-           if (code != ENOENT) {
-               /*printf("LOOKUP dirLookupOff -> %d\n", code);*/
+           if (code == ENOENT) {
+               /* The target name really doesn't exist (according to
+                * afs_dir_LookupOffset, anyway). */
+               enoent_prohibited = 0;
            }
            goto done;
        }
@@ -1712,9 +1780,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        /* prefetch some entries, if the dir is currently open.  The variable
         * dirCookie tells us where to start prefetching from.
         */
-       if (!AFS_IS_DISCONNECTED && 
-           AFSDOBULK && adp->opens > 0 && !(adp->f.states & CForeign)
-           && !afs_IsDynroot(adp) && !afs_InReadDir(adp)) {
+       if (afs_ShouldTryBulkStat(adp)) {
            afs_int32 retry;
            /* if the entry is not in the cache, or is in the cache,
             * but hasn't been statd, then do a bulk stat operation.
@@ -1727,7 +1793,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
            } while (tvc && retry);
 
            if (!tvc || !(tvc->f.states & CStatd))
-               bulkcode = afs_DoBulkStat(adp, dirCookie, &treq);
+               bulkcode = afs_DoBulkStat(adp, dirCookie, treq);
            else
                bulkcode = 0;
 
@@ -1749,12 +1815,11 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
         * the file has not yet been looked up.
         */
        if (!tvc) {
-           afs_int32 cached = 0;
            if (!tfid.Fid.Unique && (adp->f.states & CForeign)) {
-               tvc = afs_LookupVCache(&tfid, &treq, &cached, adp, tname);
+               tvc = afs_LookupVCache(&tfid, treq, adp, tname);
            }
            if (!tvc && !bulkcode) {    /* lookup failed or wasn't called */
-               tvc = afs_GetVCache(&tfid, &treq, &cached, NULL);
+               tvc = afs_GetVCache(&tfid, treq);
            }
        }                       /* if !tvc */
     }                          /* sub-block just to reduce stack usage */
@@ -1766,11 +1831,11 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        tvc->f.parent.unique = adp->f.fid.Fid.Unique;
        tvc->f.states &= ~CBulkStat;
 
-       if (afs_fakestat_enable == 2 && tvc->mvstat == 1) {
+       if (afs_fakestat_enable == 2 && tvc->mvstat == AFS_MVSTAT_MTPT) {
            ObtainSharedLock(&tvc->lock, 680);
            if (!tvc->linkData) {
                UpgradeSToWLock(&tvc->lock, 681);
-               code = afs_HandleLink(tvc, &treq);
+               code = afs_HandleLink(tvc, treq);
                ConvertWToRLock(&tvc->lock);
            } else {
                ConvertSToRLock(&tvc->lock);
@@ -1780,19 +1845,19 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
                force_eval = 1;
            ReleaseReadLock(&tvc->lock);
        }
-       if (tvc->mvstat == 1 && (tvc->f.states & CMValid) && tvc->mvid != NULL)
+       if (tvc->mvstat == AFS_MVSTAT_MTPT && (tvc->f.states & CMValid) && tvc->mvid.target_root != NULL)
          force_eval = 1; /* This is now almost for free, get it correct */
 
 #if defined(UKERNEL)
        if (!(flags & AFS_LOOKUP_NOEVAL))
            /* don't eval mount points */
 #endif /* UKERNEL */
-           if (tvc->mvstat == 1 && force_eval) {
+           if (tvc->mvstat == AFS_MVSTAT_MTPT && force_eval) {
                /* a mt point, possibly unevaluated */
                struct volume *tvolp;
 
                ObtainWriteLock(&tvc->lock, 133);
-               code = EvalMountPoint(tvc, adp, &tvolp, &treq);
+               code = EvalMountPoint(tvc, adp, &tvolp, treq);
                ReleaseWriteLock(&tvc->lock);
 
                if (code) {
@@ -1803,7 +1868,7 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
                }
 
                /* next, we want to continue using the target of the mt point */
-               if (tvc->mvid && (tvc->f.states & CMValid)) {
+               if (tvc->mvid.target_root && (tvc->f.states & CMValid)) {
                    struct vcache *uvc;
                    /* now lookup target, to set .. pointer */
                    afs_Trace2(afs_iclSetp, CM_TRACE_LOOKUP1,
@@ -1814,14 +1879,14 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
                    if (tvolp && (tvolp->states & VForeign)) {
                        /* XXXX tvolp has ref cnt on but not locked! XXX */
                        tvc =
-                           afs_GetRootVCache(tvc->mvid, &treq, NULL, tvolp);
+                           afs_GetRootVCache(tvc->mvid.target_root, treq, tvolp);
                    } else {
-                       tvc = afs_GetVCache(tvc->mvid, &treq, NULL, NULL);
+                       tvc = afs_GetVCache(tvc->mvid.target_root, treq);
                    }
                    afs_PutVCache(uvc); /* we're done with it */
 
                    if (!tvc) {
-                       code = ENOENT;
+                       code = EIO;
                        if (tvolp) {
                            afs_PutVolume(tvolp, WRITE_LOCK);
                        }
@@ -1833,18 +1898,18 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
                     * ptr to point back to the appropriate place */
                    if (tvolp) {
                        ObtainWriteLock(&tvc->lock, 134);
-                       if (tvc->mvid == NULL) {
-                           tvc->mvid = (struct VenusFid *)
+                       if (tvc->mvid.parent == NULL) {
+                           tvc->mvid.parent =
                                osi_AllocSmallSpace(sizeof(struct VenusFid));
                        }
                        /* setup backpointer */
-                       *tvc->mvid = tvolp->dotdot;
+                       *tvc->mvid.parent = tvolp->dotdot;
                        ReleaseWriteLock(&tvc->lock);
                        afs_PutVolume(tvolp, WRITE_LOCK);
                    }
                } else {
                    afs_PutVCache(tvc);
-                   code = ENOENT;
+                   code = ENODEV;
                    if (tvolp)
                        afs_PutVolume(tvolp, WRITE_LOCK);
                    goto done;
@@ -1863,23 +1928,19 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
        if (!AFS_IS_DISCONNECTED) {
            if (pass == 0) {
                struct volume *tv;
-               tv = afs_GetVolume(&adp->f.fid, &treq, READ_LOCK);
+               tv = afs_GetVolume(&adp->f.fid, treq, READ_LOCK);
                if (tv) {
                    if (tv->states & VRO) {
                        pass = 1;       /* try this *once* */
-                       ObtainWriteLock(&afs_xcbhash, 495);
-                       afs_DequeueCallback(adp);
-                       /* re-stat to get later version */
-                       adp->f.states &= ~CStatd;
-                       ReleaseWriteLock(&afs_xcbhash);
-                       osi_dnlc_purgedp(adp);
+                       /* re-stat to get later version */
+                       afs_StaleVCache(adp);
                        afs_PutVolume(tv, READ_LOCK);
                        goto redo;
                    }
                    afs_PutVolume(tv, READ_LOCK);
                }
            }
-           code = ENOENT;
+           code = EIO;
        } else {
            code = ENETDOWN;
        }
@@ -1901,14 +1962,15 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
             * volume) rather than the vc of the mount point itself.  We can
             * still find the mount point's vc in the vcache by its fid. */
 #endif /* UKERNEL */
-           if (!hit && force_eval) {
+           if (!hit && (force_eval || tvc->mvstat != AFS_MVSTAT_MTPT)) {
                osi_dnlc_enter(adp, aname, tvc, &versionNo);
            } else {
 #ifdef AFS_LINUX20_ENV
                /* So Linux inode cache is up to date. */
-               code = afs_VerifyVCache(tvc, &treq);
+               code = afs_VerifyVCache(tvc, treq);
 #else
                afs_PutFakeStat(&fakestate);
+               afs_DestroyReq(treq);
                AFS_DISCON_UNLOCK();
                return 0;       /* can't have been any errors if hit and !code */
 #endif
@@ -1920,15 +1982,26 @@ afs_lookup(OSI_VC_DECL(adp), char *aname, struct vcache **avcp, afs_ucred_t *acr
     if (bulkcode)
        code = bulkcode;
 
-    code = afs_CheckCode(code, &treq, 19);
+    code = afs_CheckCode(code, treq, 19);
     if (code) {
        /* If there is an error, make sure *avcp is null.
         * Alphas panic otherwise - defect 10719.
         */
        *avcp = NULL;
     }
+    if (code == ENOENT && enoent_prohibited) {
+       /*
+        * We got an ENOENT error, but we didn't get it while looking up the
+        * dir entry in the relevant dir blob. That means we likely hit some
+        * other internal error; don't allow us to return ENOENT in this case,
+        * since some platforms cache ENOENT errors, and the target path name
+        * may actually exist.
+        */
+       code = EIO;
+    }
 
     afs_PutFakeStat(&fakestate);
+    afs_DestroyReq(treq);
     AFS_DISCON_UNLOCK();
     return code;
 }