windows: native versions of ih_pread and ih_pwrite
[openafs.git] / src / vol / ihandle.h
index a14f2f7..c36acd7 100644 (file)
@@ -1,7 +1,7 @@
 /*
  * Copyright 2000, International Business Machines Corporation and others.
  * All Rights Reserved.
- * 
+ *
  * This software has been released under the terms of the IBM Public
  * License.  For details, see the LICENSE file in the top-level source
  * directory or online at http://www.openafs.org/dl/license10.html
@@ -11,7 +11,7 @@
  * pass the elements required to identify a file to the underlying file
  * systen. For the usual Vice inode operations, this is no more than the
  * usual device and inode numbers. For the user space file system used on NT
- * we also need the volume id to identify the file. 
+ * we also need the volume id to identify the file.
  *
  * An FdHandle_t is an abstraction used to associate file descroptors
  * with Inode handles. IH_OPEN is used to get a file descriptor that
 #define _IHANDLE_H_
 
 #ifdef AFS_PTHREAD_ENV
-#include <assert.h>
 #include <pthread.h>
 extern pthread_once_t ih_glock_once;
 extern pthread_mutex_t ih_glock_mutex;
 extern void ih_glock_init(void);
 #define IH_LOCK \
-    assert(pthread_once(&ih_glock_once, ih_glock_init) == 0 && \
-          pthread_mutex_lock(&ih_glock_mutex) == 0);
-#define IH_UNLOCK \
-    assert(pthread_mutex_unlock(&ih_glock_mutex) == 0);
+    do { osi_Assert(pthread_once(&ih_glock_once, ih_glock_init) == 0); \
+       MUTEX_ENTER(&ih_glock_mutex); \
+    } while (0)
+#define IH_UNLOCK MUTEX_EXIT(&ih_glock_mutex)
 #else /* AFS_PTHREAD_ENV */
 #define IH_LOCK
 #define IH_UNLOCK
@@ -108,7 +107,7 @@ extern void ih_glock_init(void);
        else                                    \
            (head) = (ptr)->next;               \
        (ptr)->next = (ptr)->prev = NULL;       \
-       assert(!(head) || !((head)->prev)); \
+       osi_Assert(!(head) || !((head)->prev)); \
     } while(0)
 
 /*
@@ -123,7 +122,7 @@ extern void ih_glock_init(void);
            (ptr)->prev->next = (ptr);           \
        else                                     \
            (head) = (ptr);                      \
-       assert((head) && ((head)->prev == NULL)); \
+       osi_Assert((head) && ((head)->prev == NULL));   \
     } while(0)
 
 #endif /* DLL_INIT_LIST */
@@ -144,7 +143,7 @@ typedef __int64 Inode;
 struct IHandle_s;
 
 /* File descriptors are HANDLE's on NT. The following typedef helps catch
- * type errors.
+ * type errors. duplicated in libadmin/vos/afs_vosAdmin.c
  */
 #ifdef AFS_NT40_ENV
 typedef HANDLE FD_t;
@@ -155,12 +154,13 @@ typedef int FD_t;
 
 /* file descriptor handle */
 typedef struct FdHandle_s {
-    int fd_status; /* status flags */
-    FD_t fd_fd; /* file descriptor */
-    struct IHandle_s *fd_ih; /* Pointer to Inode handle */
+    int fd_status;             /* status flags */
+    int fd_refcnt;             /* refcnt */
+    FD_t fd_fd;                        /* file descriptor */
+    struct IHandle_s *fd_ih;   /* Pointer to Inode handle */
     struct FdHandle_s *fd_next;        /* LRU/Avail list pointers */
     struct FdHandle_s *fd_prev;
-    struct FdHandle_s *fd_ihnext; /* Inode handle's list of file descriptors */
+    struct FdHandle_s *fd_ihnext;      /* Inode handle's list of file descriptors */
     struct FdHandle_s *fd_ihprev;
 } FdHandle_t;
 
@@ -170,17 +170,18 @@ typedef struct FdHandle_s {
 #define FD_HANDLE_INUSE                3       /* handle is open and in use */
 
 /* buffered file descriptor handle */
-#define STREAM_HANDLE_BUFSIZE  2048    /* buffer size for STR_READ/STR_WRITE */
+#define STREAM_HANDLE_BUFSIZE  2048    /* buffer size for STR_READ/STR_WRITE */
 typedef struct StreamHandle_s {
-    FD_t str_fd;                       /* file descriptor */
-    int str_direction;                 /* current read/write direction */
-    int str_buflen;                    /* bytes remaining in buffer */
-    int str_bufoff;                    /* current offset into buffer */
-    int str_error;                     /* error code */
-    int str_eof;                       /* end of file flag */
-    struct StreamHandle_s *str_next;    /* Avail list pointers */
+    FD_t str_fd;               /* file descriptor */
+    int str_direction;         /* current read/write direction */
+    afs_sfsize_t str_buflen;   /* bytes remaining in buffer */
+    afs_foff_t str_bufoff;     /* current offset into buffer */
+    afs_foff_t str_fdoff;      /* current offset into file */
+    int str_error;             /* error code */
+    int str_eof;               /* end of file flag */
+    struct StreamHandle_s *str_next;   /* Avail list pointers */
     struct StreamHandle_s *str_prev;
-    char str_buffer[STREAM_HANDLE_BUFSIZE]; /* data buffer */
+    char str_buffer[STREAM_HANDLE_BUFSIZE];    /* data buffer */
 } StreamHandle_t;
 
 #define STREAM_DIRECTION_NONE  1       /* stream is in initial mode */
@@ -192,8 +193,34 @@ typedef struct StreamHandle_s {
 #define FD_HANDLE_MALLOCSIZE   ((size_t)((4096/sizeof(FdHandle_t))))
 #define STREAM_HANDLE_MALLOCSIZE 1
 
+
+/* READ THIS.
+ *
+ * On modern platforms tuned for I/O intensive workloads, there may be
+ * thousands of file descriptors available (64K on 32-bit Solaris 7,
+ * for example), and threading in Solaris 9 and Linux 2.6 (NPTL) are
+ * tuned for (many) thousands of concurrent threads at peak.
+ *
+ * On these platforms, it makes sense to allow administrators to set
+ * appropriate limits for their hardware.  Clients may now set desired
+ * values in the exported vol_io_params, of type ih_init_params.
+ */
+
+typedef struct ih_init_params
+{
+    afs_uint32 fd_handle_setaside; /* for non-cached i/o, trad. was 128 */
+    afs_uint32 fd_initial_cachesize; /* what was 'default' */
+    afs_uint32 fd_max_cachesize; /* max open files if large-cache activated */
+} ih_init_params;
+
+
 /* Number of file descriptors needed for non-cached I/O */
-#define FD_HANDLE_SETASIDE     64
+#define FD_HANDLE_SETASIDE     128 /* Match to MAX_FILESERVER_THREAD */
+
+/* Which systems have 8-bit fileno?  On GNU/Linux systems, the
+ * fileno member of FILE is an int.  On NetBSD 5, it's a short.
+ * Ditto for OpenBSD 4.5. Through Solaris 10 8/07 it's unsigned char.
+ */
 
 /* Don't try to have more than 256 files open at once if you are planning
  * to use fopen or fdopen. The FILE structure has an eight bit field for
@@ -206,16 +233,28 @@ typedef struct StreamHandle_s {
  */
 #define FD_MAX_CACHESIZE (2000 - FD_HANDLE_SETASIDE)
 
+/* On modern platforms, this is sized higher than the note implies.
+ * For HP, see http://forums11.itrc.hp.com/service/forums/questionanswer.do?admit=109447626+1242508538748+28353475&threadId=302950
+ * On AIX, it's said to be self-tuning (sar -v)
+ * On Solaris, http://www.princeton.edu/~unix/Solaris/troubleshoot/kerntune.html
+ * says stdio limit (FILE) may exist, but then backtracks and says the 64bit
+ * solaris and POLL (rather than select) io avoid the issue.  Solaris Internals
+ * states that Solaris 7 and above deal with up to 64K on 32bit.
+ * However, extended FILE must be enabled to use this. See
+ * enable_extended_FILE_stdio(3C)
+ */
+
 /* Inode handle */
 typedef struct IHandle_s {
-    int ih_vid;        /* Parent volume id. */
-    int ih_dev;        /* device id. */
-    int ih_flags; /* Flags */
-    Inode ih_ino; /* Inode number */
-    int ih_refcnt; /* reference count */
-    struct FdHandle_s *ih_fdhead;   /* List of open file desciptors */
+    afs_uint32 ih_vid;         /* Parent volume id. */
+    int ih_dev;                        /* device id. */
+    int ih_flags;              /* Flags */
+    int ih_synced;             /* should be synced next time */
+    Inode ih_ino;              /* Inode number */
+    int ih_refcnt;             /* reference count */
+    struct FdHandle_s *ih_fdhead;      /* List of open file desciptors */
     struct FdHandle_s *ih_fdtail;
-    struct IHandle_s *ih_next;     /* Links for avail list/hash chains */
+    struct IHandle_s *ih_next; /* Links for avail list/hash chains */
     struct IHandle_s *ih_prev;
 } IHandle_t;
 
@@ -223,7 +262,8 @@ typedef struct IHandle_s {
 #define IH_REALLY_CLOSED               1
 
 /* Hash function for inode handles */
-#define I_HANDLE_HASH_SIZE     1024    /* power of 2 */
+#define I_HANDLE_HASH_SIZE     2048    /* power of 2 */
+
 /* The casts to int's ensure NT gets the xor operation correct. */
 #define IH_HASH(D, V, I) ((int)(((D)^(V)^((int)(I)))&(I_HANDLE_HASH_SIZE-1)))
 
@@ -231,8 +271,8 @@ typedef struct IHandle_s {
  * Hash buckets for inode handles
  */
 typedef struct IHashBucket_s {
-    IHandle_t          *ihash_head;
-    IHandle_t          *ihash_tail;
+    IHandle_t *ihash_head;
+    IHandle_t *ihash_tail;
 } IHashBucket_t;
 
 /* Prototypes for handle support routines. */
@@ -242,33 +282,37 @@ typedef struct IHashBucket_s {
 #else
 #include "namei_ops.h"
 #endif
-extern void ih_clear(IHandle_t *h);
-extern Inode ih_create(IHandle_t *h, int dev, char *part, Inode nI, int p1,
-                    int p2, int p3, int p4);
-extern FILE *ih_fdopen(FdHandle_t *h, char *fdperms);
+extern void ih_clear(IHandle_t * h);
+extern Inode ih_create(IHandle_t * h, int dev, char *part, Inode nI, int p1,
+                      int p2, int p3, int p4);
+extern FILE *ih_fdopen(FdHandle_t * h, char *fdperms);
 #endif /* AFS_NAMEI_ENV */
 
 /*
- * Prototypes for file descriptor cache routined
+ * Prototypes for file descriptor cache routines
  */
+extern void ih_PkgDefaults(void);
+extern void ih_Initialize(void);
 extern void ih_UseLargeCache(void);
-extern IHandle_t *ih_init(int dev, int vid, Inode ino);
-extern IHandle_t *ih_copy(IHandle_t *ihP);
-extern FdHandle_t *ih_open(IHandle_t *ihP);
-extern int fd_close(FdHandle_t *fdP);
-extern int fd_reallyclose(FdHandle_t *fdP);
+extern IHandle_t *ih_init(int /*@alt Device@ */ dev, int /*@alt VolId@ */ vid,
+                         Inode ino);
+extern IHandle_t *ih_copy(IHandle_t * ihP);
+extern FdHandle_t *ih_open(IHandle_t * ihP);
+extern int fd_close(FdHandle_t * fdP);
+extern int fd_reallyclose(FdHandle_t * fdP);
 extern StreamHandle_t *stream_fdopen(FD_t fd);
 extern StreamHandle_t *stream_open(const char *file, const char *mode);
-extern int stream_read(void *ptr, int size, int nitems,
-                      StreamHandle_t *streamP);
-extern int stream_write(void *ptr, int size, int nitems,
-                       StreamHandle_t *streamP);
-extern int stream_seek(StreamHandle_t *streamP, int offset, int whence);
-extern int stream_flush(StreamHandle_t *streamP);
-extern int stream_close(StreamHandle_t *streamP, int reallyClose);
-extern int ih_reallyclose(IHandle_t *ihP);
-extern int ih_release(IHandle_t *ihP);
-extern int ih_condsync(IHandle_t *ihP);
+extern afs_sfsize_t stream_read(void *ptr, afs_fsize_t size,
+                               afs_fsize_t nitems, StreamHandle_t * streamP);
+extern afs_sfsize_t stream_write(void *ptr, afs_fsize_t size,
+                                afs_fsize_t nitems,
+                                StreamHandle_t * streamP);
+extern int stream_aseek(StreamHandle_t * streamP, afs_foff_t offset);
+extern int stream_flush(StreamHandle_t * streamP);
+extern int stream_close(StreamHandle_t * streamP, int reallyClose);
+extern int ih_reallyclose(IHandle_t * ihP);
+extern int ih_release(IHandle_t * ihP);
+extern int ih_condsync(IHandle_t * ihP);
 
 /* Macros common to user space and inode API's. */
 #define IH_INIT(H, D, V, I) ((H) = ih_init((D), (V), (I)))
@@ -293,7 +337,7 @@ extern int ih_condsync(IHandle_t *ihP);
 
 #define STREAM_WRITE(A, B, C, H) stream_write(A, B, C, H)
 
-#define STREAM_SEEK(H, A, B) stream_seek(H, A, B)
+#define STREAM_ASEEK(H, A) stream_aseek(H, A)
 
 #define STREAM_FLUSH(H) stream_flush(H)
 
@@ -311,6 +355,26 @@ extern int ih_condsync(IHandle_t *ihP);
 
 #define IH_CONDSYNC(H) ih_condsync(H)
 
+#ifdef HAVE_PIO
+#ifdef AFS_NT40_ENV
+#define OS_PREAD(FD, B, S, O) nt_pread(FD, B, S, O)
+#define OS_PWRITE(FD, B, S, O) nt_pwrite(FD, B, S, O)
+#else
+#ifdef O_LARGEFILE
+#define OS_PREAD(FD, B, S, O) pread64(FD, B, S, O)
+#define OS_PWRITE(FD, B, S, O) pwrite64(FD, B, S, O)
+#else /* !O_LARGEFILE */
+#define OS_PREAD(FD, B, S, O) pread(FD, B, S, O)
+#define OS_PWRITE(FD, B, S, O) pwrite(FD, B, S, O)
+#endif /* !O_LARGEFILE */
+#endif /* AFS_NT40_ENV */
+#else /* !HAVE_PIO */
+extern ssize_t ih_pread(int fd, void * buf, size_t count, afs_foff_t offset);
+extern ssize_t ih_pwrite(int fd, const void * buf, size_t count, afs_foff_t offset);
+#define OS_PREAD(FD, B, S, O) ih_pread(FD, B, S, O)
+#define OS_PWRITE(FD, B, S, O) ih_pwrite(FD, B, S, O)
+#endif /* !HAVE_PIO */
+
 #ifdef AFS_NAMEI_ENV
 
 #ifdef AFS_NT40_ENV
@@ -335,29 +399,75 @@ extern int ih_condsync(IHandle_t *ihP);
 #define IH_IWRITE(H, O, B, S) nt_iwrite(H, O, B, S)
 
 #else /* AFS_NT40_ENV */
+
+/*@+fcnmacros +macrofcndecl@*/
+#ifdef S_SPLINT_S
+extern Inode IH_CREATE(IHandle_t * H, int /*@alt Device @ */ D,
+                      char *P, Inode N, int /*@alt VolumeId @ */ P1,
+                      int /*@alt VnodeId @ */ P2,
+                      int /*@alt Unique @ */ P3,
+                      int /*@alt unsigned @ */ P4);
+extern FD_t OS_IOPEN(IHandle_t * H);
+extern int OS_OPEN(const char *F, int M, mode_t P);
+extern int OS_CLOSE(int FD);
+extern ssize_t OS_READ(int FD, void *B, size_t S);
+extern ssize_t OS_WRITE(int FD, void *B, size_t S);
+extern ssize_t OS_PREAD(int FD, void *B, size_t S, afs_foff_t O);
+extern ssize_t OS_PWRITE(int FD, void *B, size_t S, afs_foff_t O);
+extern int OS_SYNC(int FD);
+extern afs_sfsize_t OS_SIZE(int FD);
+extern int IH_INC(IHandle_t * H, Inode I, int /*@alt VolId, VolumeId @ */ P);
+extern int IH_DEC(IHandle_t * H, Inode I, int /*@alt VolId, VolumeId @ */ P);
+extern afs_sfsize_t IH_IREAD(IHandle_t * H, afs_foff_t O, void *B,
+                            afs_fsize_t S);
+extern afs_sfsize_t IH_IWRITE(IHandle_t * H, afs_foff_t O, void *B,
+                             afs_fsize_t S);
+#ifdef O_LARGEFILE
+extern off64_t OS_SEEK(int FD, off64_t O, int F);
+extern int OS_TRUNC(int FD, off64_t L);
+#else /* !O_LARGEFILE */
+extern off_t OS_SEEK(int FD, off_t O, int F);
+extern int OS_TRUNC(int FD, off_t L);
+#endif /* !O_LARGEFILE */
+#endif /*S_SPLINT_S */
+
 #define IH_CREATE(H, D, P, N, P1, P2, P3, P4) \
        namei_icreate(H, P, P1, P2, P3, P4)
 
 #define OS_IOPEN(H) namei_iopen(H)
+#ifdef O_LARGEFILE
+#define OS_OPEN(F, M, P) open64(F, M, P)
+#else /* !O_LARGEFILE */
 #define OS_OPEN(F, M, P) open(F, M, P)
+#endif /* !O_LARGEFILE */
 #define OS_CLOSE(FD) close(FD)
 
 #define OS_READ(FD, B, S) read(FD, B, S)
 #define OS_WRITE(FD, B, S) write(FD, B, S)
-#define OS_SEEK(FD, O, F) lseek(FD, O, F)
+#ifdef O_LARGEFILE
+#define OS_SEEK(FD, O, F) lseek64(FD, (off64_t) (O), F)
+#else /* !O_LARGEFILE */
+#define OS_SEEK(FD, O, F) lseek(FD, (off_t) (O), F)
+#endif /* !O_LARGEFILE */
 
 #define OS_SYNC(FD) fsync(FD)
-#define OS_TRUNC(FD, L) ftruncate(FD, L)
+#ifdef O_LARGEFILE
+#define OS_TRUNC(FD, L) ftruncate64(FD, (off64_t) (L))
+#else /* !O_LARGEFILE */
+#define OS_TRUNC(FD, L) ftruncate(FD, (off_t) (L))
+#endif /* !O_LARGEFILE */
 #define OS_SIZE(FD) ih_size(FD)
+extern afs_sfsize_t ih_size(int fd);
 
 #define IH_INC(H, I, P) namei_inc(H, I, P)
 #define IH_DEC(H, I, P) namei_dec(H, I, P)
 #define IH_IREAD(H, O, B, S) namei_iread(H, O, B, S)
 #define IH_IWRITE(H, O, B, S) namei_iwrite(H, O, B, S)
+/*@=fcnmacros =macrofcndecl@*/
 #endif /* AFS_NT40_ENV */
 
 #else /* AFS_NAMEI_ENV */
-extern Inode ih_icreate(IHandle_t *ih, int dev, char *part, Inode nI, int p1,\
+extern Inode ih_icreate(IHandle_t * ih, int dev, char *part, Inode nI, int p1,
                        int p2, int p3, int p4);
 
 #define IH_CREATE(H, D, P, N, P1, P2, P3, P4) \
@@ -366,18 +476,29 @@ extern Inode ih_icreate(IHandle_t *ih, int dev, char *part, Inode nI, int p1,\
 #ifdef AFS_LINUX22_ENV
 #define OS_IOPEN(H) -1
 #else
+#ifdef O_LARGEFILE
+#define OS_IOPEN(H) (IOPEN((H)->ih_dev, (H)->ih_ino, O_RDWR|O_LARGEFILE))
+#else
 #define OS_IOPEN(H) (IOPEN((H)->ih_dev, (H)->ih_ino, O_RDWR))
 #endif
+#endif
 #define OS_OPEN(F, M, P) open(F, M, P)
 #define OS_CLOSE(FD) close(FD)
 
-#define OS_READ(FD, B, S) read(FD, B, S)
-#define OS_WRITE(FD, B, S) write(FD, B, S)
-#define OS_SEEK(FD, O, F) lseek(FD, O, F)
+#ifdef O_LARGEFILE
+#define OS_SEEK(FD, O, F) lseek64(FD, (off64_t) (O), F)
+#else /* !O_LARGEFILE */
+#define OS_SEEK(FD, O, F) lseek(FD, (off_t) (O), F)
+#endif /* !O_LARGEFILE */
 
 #define OS_SYNC(FD) fsync(FD)
-#define OS_TRUNC(FD, L) ftruncate(FD, L)
+#ifdef O_LARGEFILE
+#define OS_TRUNC(FD, L) ftruncate64(FD, (off64_t) (L))
+#else /* !O_LARGEFILE */
+#define OS_TRUNC(FD, L) ftruncate(FD, (off_t) (L))
+#endif /* !O_LARGEFILE */
 #define OS_SIZE(FD) ih_size(FD)
+extern afs_sfsize_t ih_size(int fd);
 
 #ifdef AFS_LINUX22_ENV
 #define IH_INC(H, I, P) -1
@@ -401,11 +522,18 @@ extern Inode ih_icreate(IHandle_t *ih, int dev, char *part, Inode nI, int p1,\
 #define FDH_WRITEV(H, I, N) writev((H)->fd_fd, I, N)
 #endif
 
+#ifdef HAVE_PIOV
+#define FDH_PREADV(H, I, N, O) preadv((H)->fd_fd, I, N, O)
+#define FDH_PWRITEV(H, I, N, O) pwritev((H)->fd_fd, I, N, O)
+#endif
+
+#define FDH_PREAD(H, B, S, O) OS_PREAD((H)->fd_fd, B, S, O)
+#define FDH_PWRITE(H, B, S, O) OS_PWRITE((H)->fd_fd, B, S, O)
 #define FDH_READ(H, B, S) OS_READ((H)->fd_fd, B, S)
 #define FDH_WRITE(H, B, S) OS_WRITE((H)->fd_fd, B, S)
 #define FDH_SEEK(H, O, F) OS_SEEK((H)->fd_fd, O, F)
 
-#define FDH_SYNC(H) OS_SYNC((H)->fd_fd)
+#define FDH_SYNC(H) ((H->fd_ih!=NULL) ? ( H->fd_ih->ih_synced = 1) - 1 : 1)
 #define FDH_TRUNC(H, L) OS_TRUNC((H)->fd_fd, L)
 #define FDH_SIZE(H) OS_SIZE((H)->fd_fd)