Move combinatorial code previously in mmap-bitvec dependency

GSGerritsen · web-flow · commit 078c0076c397 · 2023-02-02T14:21:44.000-05:00
* Transplant combinatorial code from mmap-bitvec, use newly published mmap-bitvec
* Remove injection of SSH private key (no longer needed with open mmap-bitvec crate)
* Fix `cargo fmt`, clippy warnings
* Update CI Rust toolchain version to 1.60.0
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
@@ -15,14 +15,9 @@ jobs:
       - uses: actions-rs/toolchain@v1
         with:
           profile: minimal
-          toolchain: 1.40.0
+          toolchain: 1.60.0
           override: true
 
-      - name: create SSH key
-        uses: webfactory/ssh-agent@v0.2.0
-        with:
-          ssh-private-key: ${{ secrets.SSH_PRIVATE_KEY }}
-
       - name: version info
         run:  rustc --version; cargo --version;
 
@@ -41,11 +36,6 @@ jobs:
           toolchain: nightly
           override: true
 
-      - name: create SSH key
-        uses: webfactory/ssh-agent@v0.2.0
-        with:
-          ssh-private-key: ${{ secrets.SSH_PRIVATE_KEY }}
-
       - name: version info
         run:  rustc --version; cargo --version;
 
@@ -64,11 +54,6 @@ jobs:
           toolchain: stable
           override: true
 
-      - name: create SSH key
-        uses: webfactory/ssh-agent@v0.2.0
-        with:
-          ssh-private-key: ${{ secrets.SSH_PRIVATE_KEY }}
-
       - uses: actions-rs/cargo@v1
         with:
           command: fmt
@@ -86,11 +71,6 @@ jobs:
           toolchain: stable
           override: true
 
-      - name: create SSH key
-        uses: webfactory/ssh-agent@v0.2.0
-        with:
-          ssh-private-key: ${{ secrets.SSH_PRIVATE_KEY }}
-
       - uses: actions-rs/cargo@v1
         with:
           command: clippy
diff --git a/Cargo.toml b/Cargo.toml
@@ -6,9 +6,10 @@ edition = "2018"
 
 [dependencies]
 bincode = "1"
-mmap-bitvec = { git="ssh://git@github.com/onecodex/mmap-bitvec.git"  }
+mmap-bitvec = "0.4.0"
 murmurhash3 = "0.0.5"
 serde = { version = "1.0", features = ["derive"] }
+once_cell = "1.3.1"
 
 [dev-dependencies]
 criterion = "0.3"
diff --git a/src/bfield.rs b/src/bfield.rs
@@ -1,7 +1,7 @@
 use std::io;
 use std::path::{Path, PathBuf};
 
-use mmap_bitvec::combinatorial::rank;
+use crate::combinatorial::rank;
 use serde::de::DeserializeOwned;
 use serde::Serialize;
 
diff --git a/src/bfield_member.rs b/src/bfield_member.rs
@@ -5,8 +5,8 @@ use std::intrinsics;
 use std::io;
 use std::path::{Path, PathBuf};
 
+use crate::combinatorial::{rank, unrank};
 use bincode::{deserialize, serialize};
-use mmap_bitvec::combinatorial::{rank, unrank};
 use mmap_bitvec::{BitVector, MmapBitVec};
 use murmurhash3::murmurhash3_x64_128;
 use serde::de::DeserializeOwned;
@@ -43,8 +43,6 @@ fn prefetch_read(pointer: *const u8) {
         unsafe {
             arch_impl::_mm_prefetch::<{ arch_impl::_MM_HINT_NTA }>(pointer as *const i8);
         }
-
-        return;
     }
 }
 
@@ -65,6 +63,7 @@ pub(crate) struct BFieldMember<T> {
 
 /// A simple type alias to make the code more readable
 pub type BFieldVal = u32;
+/// Magic bytes used to indicate the `bfield` file type for `MmapBitvec`
 const BF_MAGIC: [u8; 2] = [0xBF, 0x1D];
 
 #[derive(Debug, PartialEq)]
@@ -95,7 +94,7 @@ impl<T: Clone + DeserializeOwned + Serialize> BFieldMember<T> {
             MmapBitVec::from_memory(size)?
         } else {
             let header: Vec<u8> = serialize(&bf_params).unwrap();
-            MmapBitVec::create(&filename, size, BF_MAGIC, &header)?
+            MmapBitVec::create(&filename, size, Some(BF_MAGIC), &header)?
         };
 
         Ok(BFieldMember {
@@ -123,7 +122,7 @@ impl<T: Clone + DeserializeOwned + Serialize> BFieldMember<T> {
         let header: Vec<u8> = serialize(&self.params).unwrap();
         self.bitvec
             .get()
-            .save_to_disk(&self.filename, BF_MAGIC, &header)?;
+            .save_to_disk(&self.filename, Some(BF_MAGIC), &header)?;
         let bitvec = BitVec::new(MmapBitVec::open(&self.filename, Some(&BF_MAGIC), false)?);
         Ok(Self {
             bitvec,
@@ -213,7 +212,7 @@ impl<T: Clone + DeserializeOwned + Serialize> BFieldMember<T> {
             let pos = marker_pos(hash, marker_ix, self.bitvec.get().size(), marker_width);
             positions[marker_ix] = pos;
             unsafe {
-                let byte_idx_st = (pos >> 3) as usize;
+                let byte_idx_st = pos >> 3;
                 let ptr: *const u8 = self.bitvec.get().mmap.as_ptr().add(byte_idx_st);
                 prefetch_read(ptr);
             }
diff --git a/src/combinatorial.rs b/src/combinatorial.rs
@@ -0,0 +1,203 @@
+use once_cell::sync::Lazy;
+use std::collections::HashMap;
+use std::convert::TryFrom;
+
+const MARKER_TABLE_SIZE: usize = 200_000;
+
+// TODO: replace with const fn when it is possible
+// (for and if are not allowed in const fn on current stable)
+// https://github.com/rust-lang/rust/issues/87575
+static MARKER_TABLES: Lazy<HashMap<u8, Vec<u128>>> = Lazy::new(|| {
+    let mut m = HashMap::new();
+    for k in 1..10u8 {
+        let mut table = vec![0u128; MARKER_TABLE_SIZE];
+        let table_size = if k == 1 {
+            128
+        } else if k == 2 {
+            8128
+        } else {
+            table.len()
+        };
+
+        table[0] = ((1 << k) - 1) as u128;
+        for i in 1..table_size {
+            table[i] = next_rank(table[i - 1]);
+        }
+        m.insert(k, table);
+    }
+    m
+});
+
+/// https://en.wikipedia.org/wiki/Combinatorial_number_system
+pub fn rank(value: usize, k: u8) -> u128 {
+    assert!(k > 0 && k < 10, "kappa needs to be less than 10");
+    // it's possible this may overflow if value > (128 choose k) or return
+    // a bad value (0) if value > (128 choose k) and k == 1 or 2
+    if value >= MARKER_TABLE_SIZE {
+        let mut marker = MARKER_TABLES[&k][MARKER_TABLE_SIZE - 1];
+        for _ in 0..(value - MARKER_TABLE_SIZE) {
+            // next_rank would overflow if we pass 0, we return it instead
+            if marker == 0 {
+                return marker;
+            }
+            marker = next_rank(marker);
+        }
+        marker
+    } else {
+        MARKER_TABLES[&k][value]
+    }
+}
+
+/// https://en.wikipedia.org/wiki/Combinatorial_number_system
+pub fn unrank(marker: u128) -> usize {
+    // val = choose(rank(0), 1) + choose(rank(1), 2) + choose(rank(2), 3) + ...
+    let mut working_marker = marker;
+    let mut value = 0u64;
+    let mut idx = 0;
+    while working_marker != 0 {
+        let rank = u64::from(working_marker.trailing_zeros());
+        working_marker -= 1 << rank;
+        idx += 1;
+        value += choose(rank, idx);
+    }
+    value as usize
+}
+
+/// (Hopefully) fast implementation of a binomial
+///
+/// This uses a preset group of equations for k < 8 and then falls back to a
+/// multiplicative implementation that tries to prevent overflows while
+/// maintaining all results as exact integers.
+#[inline]
+pub fn choose(n: u64, k: u8) -> u64 {
+    // (extra border condition for speed-up?)
+    // if n == u64::from(k) {
+    //     return 1;
+    // }
+    match k {
+        0 => 1,
+        1 => n,
+        2 => n * (n - 1) / 2,
+        3 => n * (n - 1) * (n - 2) / 6,
+        4 => n * (n - 1) * (n - 2) * (n - 3) / 24,
+        5 => n * (n - 1) * (n - 2) * (n - 3) * (n - 4) / 120,
+        6 => n * (n - 1) * (n - 2) * (n - 3) * (n - 4) * (n - 5) / 720,
+        7 => n * (n - 1) * (n - 2) * (n - 3) * (n - 4) * (n - 5) * (n - 6) / 5040,
+        _ => {
+            let mut num: u128 = 1;
+            let mut denom: u128 = 1;
+            for i in 1..=u128::from(k) {
+                num *= u128::from(n) + 1 - i;
+                if num % i == 0 {
+                    num /= i;
+                    continue;
+                }
+                denom *= i;
+                if num % denom == 0 {
+                    num /= denom;
+                    denom = 1;
+                }
+            }
+            TryFrom::try_from(num / denom)
+                .unwrap_or_else(|_| panic!("{} choose {} is greater than 2**64", n, k))
+            // (or recursively) choose(n - 1, k - 1) + choose(n-1, k)
+            // for floats, this should work since they handle fractions:
+            // (1..u64::from(k)).map(|i| (n + 1 - i) / i).product(),
+        }
+    }
+}
+
+#[inline]
+fn next_rank(marker: u128) -> u128 {
+    if marker == 0 {
+        unreachable!("Got next_rank called with marker == 0");
+    }
+    let t = marker | (marker - 1);
+    (t + 1) | (((!t & (t + 1)) - 1) >> (marker.trailing_zeros() + 1))
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+
+    #[test]
+    fn test_rank() {
+        assert_eq!(rank(0, 3), 7);
+        assert_eq!(rank(2, 3), 13);
+        assert_eq!(rank(0, 3).count_ones(), 3);
+        assert_eq!(rank(2, 3).count_ones(), 3);
+        assert_eq!(rank(35001, 4).count_ones(), 4);
+
+        // Maximum value of 64 choose 3
+        assert_eq!(rank(41663, 3).count_ones(), 3);
+    }
+
+    #[test]
+    fn test_unrank() {
+        // 3 bit markers
+        assert_eq!(unrank(7), 0);
+        assert_eq!(unrank(13), 2);
+    }
+
+    #[test]
+    fn test_rank_and_unrank() {
+        for k in 1..4u8 {
+            for value in [1 as usize, 23, 45].iter() {
+                assert_eq!(unrank(rank(*value, k)), *value);
+            }
+        }
+    }
+
+    #[test]
+    fn test_choose() {
+        assert_eq!(choose(1, 1), 1);
+        assert_eq!(choose(10, 1), 10);
+
+        assert_eq!(choose(5, 2), 10);
+
+        assert_eq!(choose(5, 3), 10);
+
+        assert_eq!(choose(5, 4), 5);
+
+        assert_eq!(choose(5, 5), 1);
+        assert_eq!(choose(20, 5), 15504);
+
+        assert_eq!(choose(20, 6), 38760);
+
+        assert_eq!(choose(20, 7), 77520);
+        assert_eq!(choose(23, 7), 245157);
+
+        // test the last branch
+        assert_eq!(choose(8, 8), 1);
+        assert_eq!(choose(9, 8), 9);
+
+        // every value of 64 choose n should work
+        assert_eq!(choose(64, 0), 1);
+        assert_eq!(choose(64, 1), 64);
+        assert_eq!(choose(64, 16), 488526937079580);
+        assert_eq!(choose(64, 32), 1832624140942590534);
+        assert_eq!(choose(64, 48), 488526937079580);
+        assert_eq!(choose(64, 63), 64);
+        assert_eq!(choose(64, 64), 1);
+
+        // super high values can overflow; these are approaching the limit
+        assert_eq!(choose(128, 11), 2433440563030400);
+        assert_eq!(choose(128, 13), 211709328983644800);
+        assert_eq!(choose(256, 9), 11288510714272000);
+    }
+
+    #[test]
+    #[should_panic(expected = "256 choose 20 is greater than 2**64")]
+    fn test_choose_overflow() {
+        assert_eq!(choose(256, 20), 11288510714272000);
+    }
+
+    #[test]
+    fn test_next_rank() {
+        assert_eq!(next_rank(0b1), 0b10);
+        assert_eq!(next_rank(0b100), 0b1000);
+
+        assert_eq!(next_rank(0b111), 0b1011);
+        assert_eq!(next_rank(0b1000101), 0b1000110);
+    }
+}
diff --git a/src/lib.rs b/src/lib.rs
@@ -5,7 +5,9 @@
 
 mod bfield;
 mod bfield_member;
+/// Some combinatorial utilities
+mod combinatorial;
 
 pub use crate::bfield::BField;
 pub use crate::bfield_member::BFieldVal;
-pub use mmap_bitvec::combinatorial::choose;
+pub use combinatorial::choose;