1456bd517bb1db975c1d217b46f4898e6a239048
[openafs.git] / src / afs / afs_bypasscache.c
1 /*
2  * COPYRIGHT  ©  2000
3  * THE REGENTS OF THE UNIVERSITY OF MICHIGAN
4  * ALL RIGHTS RESERVED
5  *
6  * Permission is granted to use, copy, create derivative works
7  * and redistribute this software and such derivative works
8  * for any purpose, so long as the name of The University of
9  * Michigan is not used in any advertising or publicity
10  * pertaining to the use of distribution of this software
11  * without specific, written prior authorization.  If the
12  * above copyright notice or any other identification of the
13  * University of Michigan is included in any copy of any
14  * portion of this software, then the disclaimer below must
15  * also be included.
16  *
17  * THIS SOFTWARE IS PROVIDED AS IS, WITHOUT REPRESENTATION
18  * FROM THE UNIVERSITY OF MICHIGAN AS TO ITS FITNESS FOR ANY
19  * PURPOSE, AND WITHOUT WARRANTY BY THE UNIVERSITY O
20  * MICHIGAN OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING
21  * WITHOUT LIMITATION THE IMPLIED WARRANTIES OF
22  * MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE. THE
23  * REGENTS OF THE UNIVERSITY OF MICHIGAN SHALL NOT BE LIABLE
24  * FOR ANY DAMAGES, INCLUDING SPECIAL, INDIRECT, INCIDENTAL, OR
25  * CONSEQUENTIAL DAMAGES, WITH RESPECT TO ANY CLAIM ARISING
26  * OUT OF OR IN CONNECTION WITH THE USE OF THE SOFTWARE, EVEN
27  * IF IT HAS BEEN OR IS HEREAFTER ADVISED OF THE POSSIBILITY OF
28  * SUCH DAMAGES.
29  */
30
31  /*
32  * Portions Copyright (c) 2008
33  * The Linux Box Corporation
34  * ALL RIGHTS RESERVED
35  *
36  * Permission is granted to use, copy, create derivative works
37  * and redistribute this software and such derivative works
38  * for any purpose, so long as the name of the Linux Box
39  * Corporation is not used in any advertising or publicity
40  * pertaining to the use or distribution of this software
41  * without specific, written prior authorization.  If the
42  * above copyright notice or any other identification of the
43  * Linux Box Corporation is included in any copy of any
44  * portion of this software, then the disclaimer below must
45  * also be included.
46  *
47  * This software is provided as is, without representation
48  * from the Linux Box Corporation as to its fitness for any
49  * purpose, and without warranty by the Linux Box Corporation
50  * of any kind, either express or implied, including
51  * without limitation the implied warranties of
52  * merchantability and fitness for a particular purpose.  The
53  * Linux Box Corporation shall not be liable for any damages,
54  * including special, indirect, incidental, or consequential
55  * damages, with respect to any claim arising out of or in
56  * connection with the use of the software, even if it has been
57  * or is hereafter advised of the possibility of such damages.
58  */
59
60
61 #include <afsconfig.h>
62 #include "afs/param.h"
63 #if defined(AFS_CACHE_BYPASS) || defined(UKERNEL)
64 #include "afs/afs_bypasscache.h"
65
66 /*
67  * afs_bypasscache.c
68  *
69  */
70 #include "afs/sysincludes.h" /* Standard vendor system headers */
71 #include "afs/afsincludes.h" /* Afs-based standard headers */
72 #include "afs/afs_stats.h"   /* statistics */
73 #include "afs/nfsclient.h"
74 #include "rx/rx_globals.h"
75
76 #ifndef afs_min
77 #define afs_min(A,B) ((A)<(B)) ? (A) : (B)
78 #endif
79
80 /* conditional GLOCK macros */
81 #define COND_GLOCK(var) \
82         do { \
83                 var = ISAFS_GLOCK(); \
84                 if(!var) \
85                         RX_AFS_GLOCK(); \
86         } while(0)
87
88 #define COND_RE_GUNLOCK(var) \
89         do { \
90                 if(var) \
91                         RX_AFS_GUNLOCK(); \
92         } while(0)
93
94
95 /* conditional GUNLOCK macros */
96
97 #define COND_GUNLOCK(var) \
98         do {    \
99                 var = ISAFS_GLOCK(); \
100                 if(var) \
101                         RX_AFS_GUNLOCK(); \
102         } while(0)
103
104 #define COND_RE_GLOCK(var) \
105         do { \
106                 if(var) \
107                         RX_AFS_GLOCK(); \
108         } while(0)
109
110
111 int cache_bypass_strategy   =   NEVER_BYPASS_CACHE;
112 int cache_bypass_threshold  =   AFS_CACHE_BYPASS_DISABLED; /* file size > threshold triggers bypass */
113 int cache_bypass_prefetch = 1;  /* Should we do prefetching ? */
114
115 extern afs_rwlock_t afs_xcbhash;
116
117 /*
118  * This is almost exactly like the PFlush() routine in afs_pioctl.c,
119  * but that routine is static.  We are about to change a file from
120  * normal caching to bypass it's caching.  Therefore, we want to
121  * free up any cache space in use by the file, and throw out any
122  * existing VM pages for the file.  We keep track of the number of
123  * times we go back and forth from caching to bypass.
124  */
125 void
126 afs_TransitionToBypass(struct vcache *avc,
127                        afs_ucred_t *acred, int aflags)
128 {
129
130     afs_int32 code;
131     struct vrequest treq;
132     int setDesire = 0;
133     int setManual = 0;
134
135     if (!avc)
136         return;
137
138     if (aflags & TRANSChangeDesiredBit)
139         setDesire = 1;
140     if (aflags & TRANSSetManualBit)
141         setManual = 1;
142
143 #ifdef AFS_BOZONLOCK_ENV
144     afs_BozonLock(&avc->pvnLock, avc);  /* Since afs_TryToSmush will do a pvn_vptrunc */
145 #else
146     AFS_GLOCK();
147 #endif
148
149     ObtainWriteLock(&avc->lock, 925);
150     /*
151      * Someone may have beat us to doing the transition - we had no lock
152      * when we checked the flag earlier.  No cause to panic, just return.
153      */
154     if (avc->cachingStates & FCSBypass)
155         goto done;
156
157     /* If we never cached this, just change state */
158     if (setDesire && (!(avc->cachingStates & FCSBypass))) {
159         avc->cachingStates |= FCSBypass;
160         goto done;
161     }
162
163     /* cg2v, try to store any chunks not written 20071204 */
164     if (avc->execsOrWriters > 0) {
165         code = afs_InitReq(&treq, acred);
166         if (!code)
167             code = afs_StoreAllSegments(avc, &treq, AFS_SYNC | AFS_LASTSTORE);
168     }
169
170 #if 0
171     /* also cg2v, don't dequeue the callback */
172     ObtainWriteLock(&afs_xcbhash, 956);
173     afs_DequeueCallback(avc);
174     ReleaseWriteLock(&afs_xcbhash);
175 #endif
176     avc->f.states &= ~(CStatd | CDirty);      /* next reference will re-stat */
177     /* now find the disk cache entries */
178     afs_TryToSmush(avc, acred, 1);
179     osi_dnlc_purgedp(avc);
180     if (avc->linkData && !(avc->f.states & CCore)) {
181         afs_osi_Free(avc->linkData, strlen(avc->linkData) + 1);
182         avc->linkData = NULL;
183     }
184
185     avc->cachingStates |= FCSBypass;    /* Set the bypass flag */
186     if(setDesire)
187         avc->cachingStates |= FCSDesireBypass;
188     if(setManual)
189         avc->cachingStates |= FCSManuallySet;
190     avc->cachingTransitions++;
191
192 done:
193     ReleaseWriteLock(&avc->lock);
194 #ifdef AFS_BOZONLOCK_ENV
195     afs_BozonUnlock(&avc->pvnLock, avc);
196 #else
197     AFS_GUNLOCK();
198 #endif
199 }
200
201 /*
202  * This is almost exactly like the PFlush() routine in afs_pioctl.c,
203  * but that routine is static.  We are about to change a file from
204  * bypassing caching to normal caching.  Therefore, we want to
205  * throw out any existing VM pages for the file.  We keep track of
206  * the number of times we go back and forth from caching to bypass.
207  */
208 void
209 afs_TransitionToCaching(struct vcache *avc,
210                         afs_ucred_t *acred,
211                         int aflags)
212 {
213     int resetDesire = 0;
214     int setManual = 0;
215
216     if (!avc)
217         return;
218
219     if (aflags & TRANSChangeDesiredBit)
220         resetDesire = 1;
221     if (aflags & TRANSSetManualBit)
222         setManual = 1;
223
224 #ifdef AFS_BOZONLOCK_ENV
225     afs_BozonLock(&avc->pvnLock, avc);  /* Since afs_TryToSmush will do a pvn_vptrunc */
226 #else
227     AFS_GLOCK();
228 #endif
229     ObtainWriteLock(&avc->lock, 926);
230     /*
231      * Someone may have beat us to doing the transition - we had no lock
232      * when we checked the flag earlier.  No cause to panic, just return.
233      */
234     if (!(avc->cachingStates & FCSBypass))
235         goto done;
236
237     /* Ok, we actually do need to flush */
238     ObtainWriteLock(&afs_xcbhash, 957);
239     afs_DequeueCallback(avc);
240     avc->f.states &= ~(CStatd | CDirty);        /* next reference will re-stat cache entry */
241     ReleaseWriteLock(&afs_xcbhash);
242     /* now find the disk cache entries */
243     afs_TryToSmush(avc, acred, 1);
244     osi_dnlc_purgedp(avc);
245     if (avc->linkData && !(avc->f.states & CCore)) {
246         afs_osi_Free(avc->linkData, strlen(avc->linkData) + 1);
247         avc->linkData = NULL;
248     }
249
250     avc->cachingStates &= ~(FCSBypass);    /* Reset the bypass flag */
251     if (resetDesire)
252         avc->cachingStates &= ~(FCSDesireBypass);
253     if (setManual)
254         avc->cachingStates |= FCSManuallySet;
255     avc->cachingTransitions++;
256
257 done:
258     ReleaseWriteLock(&avc->lock);
259 #ifdef AFS_BOZONLOCK_ENV
260     afs_BozonUnlock(&avc->pvnLock, avc);
261 #else
262     AFS_GUNLOCK();
263 #endif
264 }
265
266 /* In the case where there's an error in afs_NoCacheFetchProc or
267  * afs_PrefetchNoCache, all of the pages they've been passed need
268  * to be unlocked.
269  */
270 #ifdef UKERNEL
271 typedef void * bypass_page_t;
272
273 #define unlock_and_release_pages(auio)
274 #define release_full_page(pp, pageoff)
275
276 #else
277 typedef struct page * bypass_page_t;
278
279 #define unlock_and_release_pages(auio) \
280     do { \
281         struct iovec *ciov;     \
282         bypass_page_t pp; \
283         afs_int32 iovmax; \
284         afs_int32 iovno = 0; \
285         ciov = auio->uio_iov; \
286         iovmax = auio->uio_iovcnt - 1;  \
287         pp = (bypass_page_t) ciov->iov_base;    \
288         while(1) { \
289             if (pp) { \
290                 if (PageLocked(pp)) \
291                     unlock_page(pp);    \
292                 put_page(pp); /* decrement refcount */ \
293             } \
294             iovno++; \
295             if(iovno > iovmax) \
296                 break; \
297             ciov = (auio->uio_iov + iovno);     \
298             pp = (bypass_page_t) ciov->iov_base;        \
299         } \
300     } while(0)
301
302 #define release_full_page(pp, pageoff)                  \
303     do { \
304         /* this is appropriate when no caller intends to unlock \
305          * and release the page */ \
306         SetPageUptodate(pp); \
307         if(PageLocked(pp)) \
308             unlock_page(pp); \
309         else \
310             afs_warn("afs_NoCacheFetchProc: page not locked!\n"); \
311         put_page(pp); /* decrement refcount */ \
312     } while(0)
313 #endif
314
315 static void
316 afs_bypass_copy_page(bypass_page_t pp, int pageoff, struct iovec *rxiov,
317         int iovno, int iovoff, struct uio *auio, int curiov, int partial)
318 {
319     char *address;
320     int dolen;
321
322     if (partial)
323         dolen = rxiov[iovno].iov_len - iovoff;
324     else
325         dolen = auio->uio_iov[curiov].iov_len - pageoff;
326
327 #if !defined(UKERNEL)
328     address = kmap_atomic(pp, KM_USER0);
329 #else
330     address = pp;
331 #endif
332     memcpy(address + pageoff, (char *)(rxiov[iovno].iov_base) + iovoff, dolen);
333 #if !defined(UKERNEL)
334     kunmap_atomic(address, KM_USER0);
335 #endif
336 }
337
338 /* no-cache prefetch routine */
339 static afs_int32
340 afs_NoCacheFetchProc(struct rx_call *acall,
341                      struct vcache *avc,
342                      struct uio *auio,
343                      afs_int32 release_pages,
344                      afs_int32 size)
345 {
346     afs_int32 length;
347     afs_int32 code;
348     int moredata, iovno, iovoff, iovmax, result, locked;
349     struct iovec *ciov;
350     struct iovec *rxiov;
351     int nio = 0;
352     bypass_page_t pp;
353
354     int curpage, bytes;
355     int pageoff;
356
357     rxiov = osi_AllocSmallSpace(sizeof(struct iovec) * RX_MAXIOVECS);
358     ciov = auio->uio_iov;
359     pp = (bypass_page_t) ciov->iov_base;
360     iovmax = auio->uio_iovcnt - 1;
361     iovno = iovoff = result = 0;
362
363     do {
364         COND_GUNLOCK(locked);
365         code = rx_Read(acall, (char *)&length, sizeof(afs_int32));
366         COND_RE_GLOCK(locked);
367         if (code != sizeof(afs_int32)) {
368             result = EIO;
369             afs_warn("Preread error. code: %d instead of %d\n",
370                 code, (int)sizeof(afs_int32));
371             unlock_and_release_pages(auio);
372             goto done;
373         } else
374             length = ntohl(length);
375
376         if (length > size) {
377             result = EIO;
378             afs_warn("Preread error. Got length %d, which is greater than size %d\n",
379                      length, size);
380             unlock_and_release_pages(auio);
381             goto done;
382         }
383
384         /* If we get a 0 length reply, time to cleanup and return */
385         if (length == 0) {
386             unlock_and_release_pages(auio);
387             result = 0;
388             goto done;
389         }
390
391         /*
392          * The fetch protocol is extended for the AFS/DFS translator
393          * to allow multiple blocks of data, each with its own length,
394          * to be returned. As long as the top bit is set, there are more
395          * blocks expected.
396          *
397          * We do not do this for AFS file servers because they sometimes
398          * return large negative numbers as the transfer size.
399          */
400         if (avc->f.states & CForeign) {
401             moredata = length & 0x80000000;
402             length &= ~0x80000000;
403         } else {
404             moredata = 0;
405         }
406
407         for (curpage = 0; curpage <= iovmax; curpage++) {
408             pageoff = 0;
409             /* properly, this should track uio_resid, not a fixed page size! */
410             while (pageoff < auio->uio_iov[curpage].iov_len) {
411                 /* If no more iovs, issue new read. */
412                 if (iovno >= nio) {
413                     COND_GUNLOCK(locked);
414                     bytes = rx_Readv(acall, rxiov, &nio, RX_MAXIOVECS, length);
415                     COND_RE_GLOCK(locked);
416                     if (bytes < 0) {
417                         afs_warn("afs_NoCacheFetchProc: rx_Read error. Return code was %d\n", bytes);
418                         result = bytes;
419                         unlock_and_release_pages(auio);
420                         goto done;
421                     } else if (bytes == 0) {
422                         /* we failed to read the full length */
423                         result = EIO;
424                         afs_warn("afs_NoCacheFetchProc: rx_Read returned zero. Aborting.\n");
425                         unlock_and_release_pages(auio);
426                         goto done;
427                     }
428                     size -= bytes;
429                     iovno = 0;
430                 }
431                 pp = (bypass_page_t)auio->uio_iov[curpage].iov_base;
432                 if (pageoff + (rxiov[iovno].iov_len - iovoff) <= auio->uio_iov[curpage].iov_len) {
433                     /* Copy entire (or rest of) current iovec into current page */
434                     if (pp)
435                         afs_bypass_copy_page(pp, pageoff, rxiov, iovno, iovoff, auio, curpage, 0);
436                     length -= (rxiov[iovno].iov_len - iovoff);
437                     pageoff += rxiov[iovno].iov_len - iovoff;
438                     iovno++;
439                     iovoff = 0;
440                 } else {
441                     /* Copy only what's needed to fill current page */
442                     if (pp)
443                         afs_bypass_copy_page(pp, pageoff, rxiov, iovno, iovoff, auio, curpage, 1);
444                     length -= (auio->uio_iov[curpage].iov_len - pageoff);
445                     iovoff += auio->uio_iov[curpage].iov_len - pageoff;
446                     pageoff = auio->uio_iov[curpage].iov_len;
447                 }
448
449                 /* we filled a page, or this is the last page.  conditionally release it */
450                 if (pp && ((pageoff == auio->uio_iov[curpage].iov_len &&
451                             release_pages) || (length == 0 && iovno >= nio)))
452                     release_full_page(pp, pageoff);
453
454                 if (length == 0 && iovno >= nio)
455                     goto done;
456             }
457         }
458     } while (moredata);
459
460 done:
461     osi_FreeSmallSpace(rxiov);
462     return result;
463 }
464
465
466 /* dispatch a no-cache read request */
467 afs_int32
468 afs_ReadNoCache(struct vcache *avc,
469                 struct nocache_read_request *bparms,
470                 afs_ucred_t *acred)
471 {
472     afs_int32 code;
473     afs_int32 bcnt;
474     struct brequest *breq;
475     struct vrequest *areq;
476
477     /* the reciever will free this */
478     areq = osi_Alloc(sizeof(struct vrequest));
479
480     if (avc->vc_error) {
481         code = EIO;
482         afs_warn("afs_ReadNoCache VCache Error!\n");
483         goto cleanup;
484     }
485     if ((code = afs_InitReq(areq, acred))) {
486         afs_warn("afs_ReadNoCache afs_InitReq error!\n");
487         goto cleanup;
488     }
489
490     AFS_GLOCK();
491     code = afs_VerifyVCache(avc, areq);
492     AFS_GUNLOCK();
493
494     if (code) {
495         code = afs_CheckCode(code, areq, 11);   /* failed to get it */
496         afs_warn("afs_ReadNoCache Failed to verify VCache!\n");
497         goto cleanup;
498     }
499
500     bparms->areq = areq;
501
502     /* and queue this one */
503     bcnt = 1;
504     AFS_GLOCK();
505     while(bcnt < 20) {
506         breq = afs_BQueue(BOP_FETCH_NOCACHE, avc, B_DONTWAIT, 0, acred, 1, 1,
507                           bparms, (void *)0, (void *)0);
508         if(breq != 0) {
509             code = 0;
510             break;
511         }
512         afs_osi_Wait(10 * bcnt, 0, 0);
513     }
514     AFS_GUNLOCK();
515
516     if(!breq) {
517         code = EBUSY;
518         goto cleanup;
519     }
520
521     return code;
522
523 cleanup:
524     /* If there's a problem before we queue the request, we need to
525      * do everything that would normally happen when the request was
526      * processed, like unlocking the pages and freeing memory.
527      */
528     unlock_and_release_pages(bparms->auio);
529     osi_Free(areq, sizeof(struct vrequest));
530     osi_Free(bparms->auio->uio_iov,
531              bparms->auio->uio_iovcnt * sizeof(struct iovec));
532     osi_Free(bparms->auio, sizeof(struct uio));
533     osi_Free(bparms, sizeof(struct nocache_read_request));
534     return code;
535 }
536
537
538 /* Cannot have static linkage--called from BPrefetch (afs_daemons) */
539 afs_int32
540 afs_PrefetchNoCache(struct vcache *avc,
541                     afs_ucred_t *acred,
542                     struct nocache_read_request *bparms)
543 {
544     struct uio *auio;
545 #ifndef UKERNEL
546     struct iovec *iovecp;
547 #endif
548     struct vrequest *areq;
549     afs_int32 code = 0;
550     struct rx_connection *rxconn;
551 #ifdef AFS_64BIT_CLIENT
552     afs_int32 length_hi, bytes, locked;
553 #endif
554
555     struct afs_conn *tc;
556     struct rx_call *tcall;
557     struct tlocal1 {
558         struct AFSVolSync tsync;
559         struct AFSFetchStatus OutStatus;
560         struct AFSCallBack CallBack;
561     };
562     struct tlocal1 *tcallspec;
563
564     auio = bparms->auio;
565     areq = bparms->areq;
566 #ifndef UKERNEL
567     iovecp = auio->uio_iov;
568 #endif
569
570     tcallspec = osi_Alloc(sizeof(struct tlocal1));
571     do {
572         tc = afs_Conn(&avc->f.fid, areq, SHARED_LOCK /* ignored */, &rxconn);
573         if (tc) {
574             avc->callback = tc->parent->srvr->server;
575             tcall = rx_NewCall(rxconn);
576 #ifdef AFS_64BIT_CLIENT
577             if (!afs_serverHasNo64Bit(tc)) {
578                 code = StartRXAFS_FetchData64(tcall,
579                                               (struct AFSFid *) &avc->f.fid.Fid,
580                                               auio->uio_offset,
581                                               bparms->length);
582                 if (code == 0) {
583                     COND_GUNLOCK(locked);
584                     bytes = rx_Read(tcall, (char *)&length_hi,
585                                     sizeof(afs_int32));
586                     COND_RE_GLOCK(locked);
587
588                     if (bytes != sizeof(afs_int32)) {
589                         length_hi = 0;
590                         code = rx_Error(tcall);
591                         COND_GUNLOCK(locked);
592                         code = rx_EndCall(tcall, code);
593                         COND_RE_GLOCK(locked);
594                         tcall = NULL;
595                     }
596                 }
597             } /* afs_serverHasNo64Bit */
598             if (code == RXGEN_OPCODE || afs_serverHasNo64Bit(tc)) {
599                 if (auio->uio_offset > 0x7FFFFFFF) {
600                     code = EFBIG;
601                 } else {
602                     afs_int32 pos;
603                     pos = auio->uio_offset;
604                     COND_GUNLOCK(locked);
605                     if (!tcall)
606                         tcall = rx_NewCall(rxconn);
607                     code = StartRXAFS_FetchData(tcall,
608                                         (struct AFSFid *) &avc->f.fid.Fid,
609                                         pos, bparms->length);
610                     COND_RE_GLOCK(locked);
611                 }
612                 afs_serverSetNo64Bit(tc);
613             }
614 #else
615             code = StartRXAFS_FetchData(tcall,
616                                         (struct AFSFid *) &avc->f.fid.Fid,
617                                         auio->uio_offset, bparms->length);
618 #endif
619             if (code == 0) {
620                 code = afs_NoCacheFetchProc(tcall, avc, auio,
621                                             1 /* release_pages */,
622                                             bparms->length);
623             } else {
624                 afs_warn("BYPASS: StartRXAFS_FetchData failed: %d\n", code);
625                 unlock_and_release_pages(auio);
626                 goto done;
627             }
628             if (code == 0) {
629                 code = EndRXAFS_FetchData(tcall, &tcallspec->OutStatus,
630                                           &tcallspec->CallBack,
631                                           &tcallspec->tsync);
632             } else {
633                 afs_warn("BYPASS: NoCacheFetchProc failed: %d\n", code);
634             }
635             code = rx_EndCall(tcall, code);
636         } else {
637             afs_warn("BYPASS: No connection.\n");
638             code = -1;
639             unlock_and_release_pages(auio);
640             goto done;
641         }
642     } while (afs_Analyze(tc, rxconn, code, &avc->f.fid, areq,
643                                                  AFS_STATS_FS_RPCIDX_FETCHDATA,
644                                                  SHARED_LOCK,0));
645 done:
646     /*
647      * Copy appropriate fields into vcache
648      */
649
650     if (!code)
651         afs_ProcessFS(avc, &tcallspec->OutStatus, areq);
652
653     osi_Free(areq, sizeof(struct vrequest));
654     osi_Free(tcallspec, sizeof(struct tlocal1));
655     osi_Free(bparms, sizeof(struct nocache_read_request));
656 #ifndef UKERNEL
657     /* in UKERNEL, the "pages" are passed in */
658     osi_Free(iovecp, auio->uio_iovcnt * sizeof(struct iovec));
659     osi_Free(auio, sizeof(struct uio));
660 #endif
661     return code;
662 }
663 #endif