ubik: remove unused ContactQuorum_DISK_Write
[openafs.git] / src / ubik / ubik.c
index 4218365..2345fa3 100644 (file)
 
 #include <roken.h>
 
-#include <sys/types.h>
-#include <string.h>
-#include <stdarg.h>
-#include <time.h>
 
-#ifdef AFS_NT40_ENV
-#include <winsock2.h>
+#include <afs/opr.h>
+#ifdef AFS_PTHREAD_ENV
+# include <opr/lock.h>
 #else
-#include <sys/file.h>
-#include <netinet/in.h>
-#include <sys/param.h>
+# include <opr/lockstub.h>
 #endif
 
 #include <lock.h>
-#include <rx/xdr.h>
 #include <rx/rx.h>
 #include <afs/cellconfig.h>
+#include <afs/afsutil.h>
+
 
 #define UBIK_INTERNALS
 #include "ubik.h"
@@ -83,7 +79,6 @@ afs_int32 ubik_quorum = 0;
 struct ubik_dbase *ubik_dbase = 0;
 struct ubik_stats ubik_stats;
 afs_uint32 ubik_host[UBIK_MAX_INTERFACE_ADDR];
-afs_int32 ubik_epochTime = 0;
 afs_int32 urecovery_state = 0;
 int (*ubik_SyncWriterCacheProc) (void);
 struct ubik_server *ubik_servers;
@@ -111,18 +106,25 @@ static void (*buildSecClassesProc)(void *, struct rx_securityClass ***,
 static int (*checkSecurityProc)(void *, struct rx_call *) = NULL;
 static void *securityRock = NULL;
 
+struct version_data version_globals;
+
 #define        CStampVersion       1   /* meaning set ts->version */
+#define        CCheckSyncAdvertised        2   /* check if the remote knows we are the sync-site */
 
 static_inline struct rx_connection *
 Quorum_StartIO(struct ubik_trans *atrans, struct ubik_server *as)
 {
     struct rx_connection *conn;
 
+    UBIK_ADDR_LOCK;
     conn = as->disk_rxcid;
 
 #ifdef AFS_PTHREAD_ENV
     rx_GetConnection(conn);
+    UBIK_ADDR_UNLOCK;
     DBRELE(atrans->dbase);
+#else
+    UBIK_ADDR_UNLOCK;
 #endif /* AFS_PTHREAD_ENV */
 
     return conn;
@@ -162,8 +164,10 @@ ContactQuorum_iterate(struct ubik_trans *atrans, int aflags, struct ubik_server
            *conn = NULL;
            if (code) {         /* failure */
                *rcode = code;
+               UBIK_BEACON_LOCK;
                (*ts)->up = 0;          /* mark as down now; beacons will no longer be sent */
                (*ts)->beaconSinceDown = 0;
+               UBIK_BEACON_UNLOCK;
                (*ts)->currentDB = 0;
                urecovery_LostServer(*ts);      /* tell recovery to try to resend dbase later */
            } else {            /* success */
@@ -178,10 +182,16 @@ ContactQuorum_iterate(struct ubik_trans *atrans, int aflags, struct ubik_server
     }
     if (!(*ts))
        return 1;
-    if (!(*ts)->up || !(*ts)->currentDB) {
+    UBIK_BEACON_LOCK;
+    if (!(*ts)->up || !(*ts)->currentDB ||
+       /* do not call DISK_Begin until we know that lastYesState is set on the
+        * remote in question; otherwise, DISK_Begin will fail. */
+       ((aflags & CCheckSyncAdvertised) && !((*ts)->beaconSinceDown && (*ts)->lastVote))) {
+       UBIK_BEACON_UNLOCK;
        (*ts)->currentDB = 0;   /* db is no longer current; we just missed an update */
        return 0;               /* not up-to-date, don't bother.  NULL conn will tell caller not to use */
     }
+    UBIK_BEACON_UNLOCK;
     *conn = Quorum_StartIO(atrans, *ts);
     return 0;
 }
@@ -196,7 +206,7 @@ ContactQuorum_rcode(int okcalls, afs_int32 rcode)
     if (okcalls + 1 >= ubik_quorum)
        return 0;
     else
-       return rcode;
+       return (rcode != 0) ? rcode : UNOQUORUM;
 }
 
 /*!
@@ -250,26 +260,6 @@ ContactQuorum_DISK_Lock(struct ubik_trans *atrans, int aflags,afs_int32 file,
     return ContactQuorum_rcode(okcalls, rcode);
 }
 
-
-afs_int32
-ContactQuorum_DISK_Write(struct ubik_trans *atrans, int aflags,
-                        afs_int32 file, afs_int32 position, bulkdata *data)
-{
-    struct ubik_server *ts = NULL;
-    afs_int32 code = 0, rcode, okcalls;
-    struct rx_connection *conn;
-    int done;
-
-    done = ContactQuorum_iterate(atrans, aflags, &ts, &conn, &rcode, &okcalls, code);
-    while (!done) {
-       if (conn)
-           code = DISK_Write(conn, &atrans->tid, file, position, data);
-       done = ContactQuorum_iterate(atrans, aflags, &ts, &conn, &rcode, &okcalls, code);
-    }
-    return ContactQuorum_rcode(okcalls, rcode);
-}
-
-
 afs_int32
 ContactQuorum_DISK_Truncate(struct ubik_trans *atrans, int aflags,
                            afs_int32 file, afs_int32 length)
@@ -357,9 +347,10 @@ ContactQuorum_DISK_SetVersion(struct ubik_trans *atrans, int aflags,
 #if defined(AFS_PTHREAD_ENV)
 static int
 ubik_thread_create(pthread_attr_t *tattr, pthread_t *thread, void *proc) {
-    osi_Assert(pthread_attr_init(tattr) == 0);
-    osi_Assert(pthread_attr_setdetachstate(tattr, PTHREAD_CREATE_DETACHED) == 0);
-    osi_Assert(pthread_create(thread, tattr, proc, NULL) == 0);
+    opr_Verify(pthread_attr_init(tattr) == 0);
+    opr_Verify(pthread_attr_setdetachstate(tattr,
+                                          PTHREAD_CREATE_DETACHED) == 0);
+    opr_Verify(pthread_create(thread, tattr, proc, NULL) == 0);
     return 0;
 }
 #endif
@@ -377,7 +368,7 @@ ubik_thread_create(pthread_attr_t *tattr, pthread_t *thread, void *proc) {
  *
  * \see ubik_ServerInit(), ubik_ServerInitByInfo()
  */
-int
+static int
 ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
                      struct afsconf_cell *info, char clones[],
                      afs_uint32 serverList[], const char *pathName,
@@ -405,14 +396,17 @@ ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
 
     initialize_U_error_table();
 
-    tdb = (struct ubik_dbase *)malloc(sizeof(struct ubik_dbase));
-    tdb->pathName = (char *)malloc(strlen(pathName) + 1);
-    strcpy(tdb->pathName, pathName);
+    tdb = malloc(sizeof(struct ubik_dbase));
+    tdb->pathName = strdup(pathName);
     tdb->activeTrans = (struct ubik_trans *)0;
     memset(&tdb->version, 0, sizeof(struct ubik_version));
     memset(&tdb->cachedVersion, 0, sizeof(struct ubik_version));
 #ifdef AFS_PTHREAD_ENV
-    MUTEX_INIT(&tdb->versionLock, "version lock", MUTEX_DEFAULT, 0);
+    opr_mutex_init(&tdb->versionLock);
+    opr_mutex_init(&beacon_globals.beacon_lock);
+    opr_mutex_init(&vote_globals.vote_lock);
+    opr_mutex_init(&addr_globals.addr_lock);
+    opr_mutex_init(&version_globals.version_lock);
 #else
     Lock_Init(&tdb->versionLock);
 #endif
@@ -433,8 +427,8 @@ ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
     ubik_dbase = tdb;          /* for now, only one db per server; can fix later when we have names for the other dbases */
 
 #ifdef AFS_PTHREAD_ENV
-    CV_INIT(&tdb->version_cond, "version", CV_DEFAULT, 0);
-    CV_INIT(&tdb->flags_cond, "flags", CV_DEFAULT, 0);
+    opr_cv_init(&tdb->version_cond);
+    opr_cv_init(&tdb->flags_cond);
 #endif /* AFS_PTHREAD_ENV */
 
     /* initialize RX */
@@ -445,6 +439,8 @@ ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
     if (code < 0)
        return code;
 
+    ubik_callPortal = myPort;
+
     udisk_Init(ubik_nBuffers);
     ulock_Init();
 
@@ -461,7 +457,6 @@ ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
     if (code)
        return code;
 
-    ubik_callPortal = myPort;
     /* try to get an additional security object */
     if (buildSecClassesProc == NULL) {
        numClasses = 3;
@@ -485,7 +480,7 @@ ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
        rx_NewService(0, VOTE_SERVICE_ID, "VOTE", ubik_sc, numClasses,
                      VOTE_ExecuteRequest);
     if (tservice == (struct rx_service *)0) {
-       ubik_dprint("Could not create VOTE rx service!\n");
+       ViceLog(5, ("Could not create VOTE rx service!\n"));
        return -1;
     }
     rx_SetMinProcs(tservice, 2);
@@ -495,7 +490,7 @@ ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
        rx_NewService(0, DISK_SERVICE_ID, "DISK", ubik_sc, numClasses,
                      DISK_ExecuteRequest);
     if (tservice == (struct rx_service *)0) {
-       ubik_dprint("Could not create DISK rx service!\n");
+       ViceLog(5, ("Could not create DISK rx service!\n"));
        return -1;
     }
     rx_SetMinProcs(tservice, 2);
@@ -512,6 +507,11 @@ ubik_ServerInitCommon(afs_uint32 myHost, short myPort,
               NULL, "rx_ServerProc", &junk);
 #endif
 
+    /* send addrs to all other servers */
+    code = ubeacon_updateUbikNetworkAddress(ubik_host);
+    if (code)
+       return code;
+
     /* now start up async processes */
 #ifdef AFS_PTHREAD_ENV
     ubik_thread_create(&ubeacon_Interact_tattr, &ubeacon_InteractThread,
@@ -593,9 +593,9 @@ BeginTrans(struct ubik_dbase *dbase, afs_int32 transMode,
        /* it's not safe to use ubik_BeginTransReadAnyWrite without a
         * cache-syncing function; fall back to ubik_BeginTransReadAny,
         * which is safe but slower */
-       ubik_print("ubik_BeginTransReadAnyWrite called, but "
+       ViceLog(0, ("ubik_BeginTransReadAnyWrite called, but "
                   "ubik_SyncWriterCacheProc not set; pretending "
-                  "ubik_BeginTransReadAny was called instead\n");
+                  "ubik_BeginTransReadAny was called instead\n"));
        readAny = 1;
     }
 
@@ -616,7 +616,7 @@ BeginTrans(struct ubik_dbase *dbase, afs_int32 transMode,
        /* if we're writing already, wait */
        while (dbase->flags & DBWRITING) {
 #ifdef AFS_PTHREAD_ENV
-           CV_WAIT(&dbase->flags_cond, &dbase->versionLock);
+           opr_cv_wait(&dbase->flags_cond, &dbase->versionLock);
 #else
            DBRELE(dbase);
            LWP_WaitProcess(&dbase->flags);
@@ -628,15 +628,21 @@ BeginTrans(struct ubik_dbase *dbase, afs_int32 transMode,
            DBRELE(dbase);
            return UNOTSYNC;
        }
+       if (!ubeacon_SyncSiteAdvertised()) {
+           /* i am the sync-site but the remotes are not aware yet */
+           DBRELE(dbase);
+           return UNOQUORUM;
+       }
     }
 
     /* create the transaction */
     code = udisk_begin(dbase, transMode, &jt); /* can't take address of register var */
     tt = jt;                   /* move to a register */
-    if (code || tt == (struct ubik_trans *)NULL) {
+    if (code || tt == NULL) {
        DBRELE(dbase);
        return code;
     }
+    UBIK_VERSION_LOCK;
     if (readAny) {
        tt->flags |= TRREADANY;
        if (readAny > 1) {
@@ -644,16 +650,20 @@ BeginTrans(struct ubik_dbase *dbase, afs_int32 transMode,
        }
     }
     /* label trans and dbase with new tid */
-    tt->tid.epoch = ubik_epochTime;
+    tt->tid.epoch = version_globals.ubik_epochTime;
     /* bump by two, since tidCounter+1 means trans id'd by tidCounter has finished */
     tt->tid.counter = (dbase->tidCounter += 2);
 
     if (transMode == UBIK_WRITETRANS) {
        /* for a write trans, we have to keep track of the write tid counter too */
        dbase->writeTidCounter = tt->tid.counter;
+    }
 
+    UBIK_VERSION_UNLOCK;
+
+    if (transMode == UBIK_WRITETRANS) {
        /* next try to start transaction on appropriate number of machines */
-       code = ContactQuorum_NoArguments(DISK_Begin, tt, 0);
+       code = ContactQuorum_NoArguments(DISK_Begin, tt, CCheckSyncAdvertised);
        if (code) {
            /* we must abort the operation */
            udisk_abort(tt);
@@ -876,11 +886,13 @@ ubik_EndTrans(struct ubik_trans *transPtr)
         * to us, or timeout.  Put safety check in anyway */
        if (now - realStart > 10 * BIGTIME) {
            ubik_stats.escapes++;
-           ubik_print("ubik escaping from commit wait\n");
+           ViceLog(0, ("ubik escaping from commit wait\n"));
            break;
        }
        for (ts = ubik_servers; ts; ts = ts->next) {
+           UBIK_BEACON_LOCK;
            if (!ts->beaconSinceDown && now <= ts->lastBeaconSent + BIGTIME) {
+               UBIK_BEACON_UNLOCK;
 
                /* this guy could have some damaged data, wait for him */
                code = 1;
@@ -900,6 +912,7 @@ ubik_EndTrans(struct ubik_trans *transPtr)
 
                break;
            }
+           UBIK_BEACON_UNLOCK;
        }
        if (code == 0)
            break;              /* no down ones still pseudo-active */
@@ -974,11 +987,14 @@ ubik_Flush(struct ubik_trans *transPtr)
 
     if (transPtr->type != UBIK_WRITETRANS)
        return UBADTYPE;
+
+    DBHOLD(transPtr->dbase);
     if (!transPtr->iovec_info.iovec_wrt_len
-       || !transPtr->iovec_info.iovec_wrt_val)
+       || !transPtr->iovec_info.iovec_wrt_val) {
+       DBRELE(transPtr->dbase);
        return 0;
+    }
 
-    DBHOLD(transPtr->dbase);
     if (!urecovery_AllBetter(transPtr->dbase, transPtr->flags & TRREADANY))
        ERROR_EXIT(UNOQUORUM);
     if (!ubeacon_AmSyncSite()) /* only sync site can write */
@@ -1029,13 +1045,13 @@ ubik_Write(struct ubik_trans *transPtr, void *vbuffer,
        return 0;
     }
 
+    DBHOLD(transPtr->dbase);
     if (!transPtr->iovec_info.iovec_wrt_val) {
        transPtr->iovec_info.iovec_wrt_len = 0;
        transPtr->iovec_info.iovec_wrt_val =
-           (struct ubik_iovec *)malloc(IOVEC_MAXWRT *
-                                       sizeof(struct ubik_iovec));
+           malloc(IOVEC_MAXWRT * sizeof(struct ubik_iovec));
        transPtr->iovec_data.iovec_buf_len = 0;
-       transPtr->iovec_data.iovec_buf_val = (char *)malloc(IOVEC_MAXBUF);
+       transPtr->iovec_data.iovec_buf_val = malloc(IOVEC_MAXBUF);
        if (!transPtr->iovec_info.iovec_wrt_val
            || !transPtr->iovec_data.iovec_buf_val) {
            if (transPtr->iovec_info.iovec_wrt_val)
@@ -1044,6 +1060,7 @@ ubik_Write(struct ubik_trans *transPtr, void *vbuffer,
            if (transPtr->iovec_data.iovec_buf_val)
                free(transPtr->iovec_data.iovec_buf_val);
            transPtr->iovec_data.iovec_buf_val = 0;
+           DBRELE(transPtr->dbase);
            return UNOMEM;
        }
     }
@@ -1051,12 +1068,14 @@ ubik_Write(struct ubik_trans *transPtr, void *vbuffer,
     /* If this write won't fit in the structure, then flush it out and start anew */
     if ((transPtr->iovec_info.iovec_wrt_len >= IOVEC_MAXWRT)
        || ((length + transPtr->iovec_data.iovec_buf_len) > IOVEC_MAXBUF)) {
+       /* Can't hold the DB lock over ubik_Flush */
+       DBRELE(transPtr->dbase);
        code = ubik_Flush(transPtr);
        if (code)
            return (code);
+       DBHOLD(transPtr->dbase);
     }
 
-    DBHOLD(transPtr->dbase);
     if (!urecovery_AllBetter(transPtr->dbase, transPtr->flags & TRREADANY))
        ERROR_EXIT(UNOQUORUM);
     if (!ubeacon_AmSyncSite()) /* only sync site can write */
@@ -1235,7 +1254,7 @@ ubik_WaitVersion(struct ubik_dbase *adatabase,
            return 0;
        }
 #ifdef AFS_PTHREAD_ENV
-       CV_WAIT(&adatabase->version_cond, &adatabase->versionLock);
+       opr_cv_wait(&adatabase->version_cond, &adatabase->versionLock);
 #else
        DBRELE(adatabase);
        LWP_WaitProcess(&adatabase->version);   /* same vers, just wait */
@@ -1251,7 +1270,9 @@ int
 ubik_GetVersion(struct ubik_trans *atrans,
                struct ubik_version *avers)
 {
+    DBHOLD(atrans->dbase);
     *avers = atrans->dbase->version;
+    DBRELE(atrans->dbase);
     return 0;
 }
 
@@ -1352,12 +1373,12 @@ panic(char *format, ...)
     va_list ap;
 
     va_start(ap, format);
-    ubik_print("Ubik PANIC: ");
-    ubik_vprint(format, ap);
+    ViceLog(0, ("Ubik PANIC:\n"));
+    vViceLog(0, (format, ap));
     va_end(ap);
 
     abort();
-    ubik_print("BACK FROM ABORT\n");   /* shouldn't come back */
+    ViceLog(0, ("BACK FROM ABORT\n")); /* shouldn't come back */
     exit(1);                   /* never know, though  */
 }
 
@@ -1371,10 +1392,14 @@ ubikGetPrimaryInterfaceAddr(afs_uint32 addr)
     struct ubik_server *ts;
     int j;
 
+    UBIK_ADDR_LOCK;
     for (ts = ubik_servers; ts; ts = ts->next)
        for (j = 0; j < UBIK_MAX_INTERFACE_ADDR; j++)
-           if (ts->addr[j] == addr)
+           if (ts->addr[j] == addr) {
+               UBIK_ADDR_UNLOCK;
                return ts->addr[0];     /* net byte order */
+           }
+    UBIK_ADDR_UNLOCK;
     return 0;                  /* if not in server database, return error */
 }