modules, antijoin

frankmcsherry · frankmcsherry · commit 23c4c872d0b9 · 2018-05-16T16:01:19.000+02:00
diff --git a/src/bin/graspan1.rs b/src/bin/graspan1.rs
@@ -3,9 +3,11 @@ use datalog::Iteration;
 
 fn main() {
 
+    // Make space for input data.
     let mut nodes = Vec::new();
     let mut edges = Vec::new();
 
+    // Read input data from a handy file.
     use std::io::{BufRead, BufReader};
     use std::fs::File;
 
@@ -26,21 +28,23 @@ fn main() {
         }
     }
 
+    // Create a new iteration context, ...
     let mut iteration = Iteration::new();
 
+    // .. some variables, ..
     let variable1 = iteration.variable::<(u32,u32)>("nodes");
     let variable2 = iteration.variable::<(u32,u32)>("edges");
 
+    // .. load them with some initial values, ..
     variable1.insert(nodes.into());
     variable2.insert(edges.into());
 
+    // .. and then start iterating rules!
     while iteration.changed() {
-
         // N(a,c) <-  N(a,b), E(b,c)
         variable1.from_join(&variable1, &variable2, |_b, &a, &c| (c,a));
-
     }
 
-    let reachable = variable1.complete();
+    // let _reachable = variable1.complete();
 
 }
diff --git a/src/join.rs b/src/join.rs
@@ -0,0 +1,113 @@
+use super::{Variable, Relation};
+
+pub fn join_into<Key: Ord, Val1: Ord, Val2: Ord, Result: Ord, F: Fn(&Key, &Val1, &Val2)->Result>(
+    input1: &Variable<(Key, Val1)>,
+    input2: &Variable<(Key, Val2)>,
+    output: &Variable<Result>,
+    logic: F) {
+
+    let mut results = Vec::new();
+
+    // Read-only access to each variable.
+    let tuples1 = input1.tuples.borrow();
+    let tuples2 = input2.tuples.borrow();
+
+    let recent1 = input1.recent.borrow();
+    let recent2 = input2.recent.borrow();
+
+    for batch2 in tuples2.iter() {
+        join_helper(&recent1, &batch2, |k,v1,v2| results.push(logic(k,v1,v2)));
+    }
+
+    for batch1 in tuples1.iter() {
+        join_helper(&batch1, &recent2, |k,v1,v2| results.push(logic(k,v1,v2)));
+    }
+
+    join_helper(&recent1, &recent2, |k,v1,v2| results.push(logic(k,v1,v2)));
+
+    output.insert(results.into());
+}
+
+pub fn antijoin_into<Key: Ord, Val: Ord, Result: Ord, F: Fn(&Key, &Val)->Result>(
+    input1: &Variable<(Key, Val)>,
+    input2: &Relation<Key>,
+    output: &Variable<Result>,
+    logic: F) {
+
+    let mut results = Vec::new();
+    let mut tuples2 = &input2[..];
+
+    for &(ref key, ref val) in input1.recent.borrow().iter() {
+        tuples2 = gallop(tuples2, |k| k < key);
+        if tuples2.first() == Some(key) {
+            results.push(logic(key, val));
+        }
+    }
+
+    // elements should be in-order, as just a filter.
+    let relation = Relation { elements: results };
+    output.insert(relation);
+}
+
+fn join_helper<K: Ord, V1, V2, F: FnMut(&K, &V1, &V2)>(mut slice1: &[(K,V1)], mut slice2: &[(K,V2)], mut result: F) {
+
+    while !slice1.is_empty() && !slice2.is_empty() {
+
+        if slice1[0].0 == slice2[0].0 {
+
+            let mut key1_count = 0;
+            while key1_count < slice1.len() && slice1[0].0 == slice1[key1_count].0 {
+                key1_count += 1;
+            }
+
+            let mut key2_count = 0;
+            while key2_count < slice2.len() && slice2[0].0 == slice2[key2_count].0 {
+                key2_count += 1;
+            }
+
+            for index1 in 0 .. key1_count {
+                for index2 in 0 .. key2_count {
+                    result(&slice1[0].0, &slice1[index1].1, &slice2[index2].1);
+                }
+            }
+
+            slice1 = &slice1[key1_count..];
+            slice2 = &slice2[key2_count..];
+
+        }
+        else {
+
+            if slice1[0].0 < slice2[0].0 {
+                slice1 = gallop(slice1, |x| &x.0 < &slice2[0].0);
+            }
+            else {
+                slice2 = gallop(slice2, |x| &x.0 < &slice1[0].0);
+            }
+
+        }
+    }
+}
+
+#[inline(always)]
+pub fn gallop<'a, T, F: Fn(&T)->bool>(mut slice: &'a [T], cmp: F) -> &'a [T] {
+    // if empty slice, or already >= element, return
+    if slice.len() > 0 && cmp(&slice[0]) {
+        let mut step = 1;
+        while step < slice.len() && cmp(&slice[step]) {
+            slice = &slice[step..];
+            step = step << 1;
+        }
+
+        step = step >> 1;
+        while step > 0 {
+            if step < slice.len() && cmp(&slice[step]) {
+                slice = &slice[step..];
+            }
+            step = step >> 1;
+        }
+
+        slice = &slice[1..]; // advance one, as we always stayed < value
+    }
+
+    return slice;
+}
diff --git a/src/lib.rs b/src/lib.rs
@@ -9,6 +9,9 @@
 use std::rc::Rc;
 use std::cell::RefCell;
 
+mod map;
+mod join;
+
 /// A static, ordered list of key-value pairs.
 ///
 /// A relation represents a fixed set of key-value pairs. In many places in a
@@ -100,6 +103,15 @@ impl<Tuple: Ord> Variable<Tuple> {
     {
         join::join_into(input1, input2, self, logic)
     }
+    pub fn from_antijoin<K: Ord,V: Ord, F: Fn(&K,&V)->Tuple>(
+        &self,
+        input1: &Variable<(K,V)>,
+        input2: &Relation<K>,
+        logic: F)
+    {
+        join::antijoin_into(input1, input2, self, logic)
+    }
+
     pub fn from_map<T2: Ord, F: Fn(&T2)->Tuple>(&self, input: &Variable<T2>, logic: F) {
         map::map_into(input, self, logic)
     }
@@ -177,200 +189,4 @@ impl<Tuple: Ord> VariableTrait for Variable<Tuple> {
 
         !self.recent.borrow().is_empty()
     }
-}
-
-
-// fn antijoin_into<Key: Ord, Val: Ord>(
-//     input1: &Variable<(Key, Val)>,
-//     input2: &Relation<Key>,
-//     output: &Variable<Result>) {
-
-//     let mut results = Vec::new();
-
-//     // Scoped so that we don't write to `output` while holding any borrows.
-//     {
-//         // Read-only access to each variable.
-//         let tuples1 = input1.tuples.borrow();
-//         let tuples2 = input2.tuples.borrow();
-
-//         let recent1 = input1.recent.borrow();
-//         let recent2 = input2.recent.borrow();
-
-//         // Iterate through each new input1 batch.
-//         for &(ref key1, ref val1) in recent1.iter() {
-//             for batch2 in tuples2.iter() {
-//                 for &(ref key2, ref val2) in batch2.iter() {
-//                     if key1 == key2 {
-//                         results.push(key1, val1, val2));
-//                     }
-//                 }
-//             }
-//         }
-//     }
-
-//     output.insert(results.into());
-// }
-
-// fn main() {
-
-//     let mut nodes = Vec::new();
-//     let mut edges = Vec::new();
-
-//     use std::io::{BufRead, BufReader};
-//     use std::fs::File;
-
-//     let filename = std::env::args().nth(1).unwrap();
-//     let file = BufReader::new(File::open(filename).unwrap());
-//     for readline in file.lines() {
-//         let line = readline.ok().expect("read error");
-//         if !line.starts_with('#') && line.len() > 0 {
-//             let mut elts = line[..].split_whitespace();
-//             let src: u32 = elts.next().unwrap().parse().ok().expect("malformed src");
-//             let dst: u32 = elts.next().unwrap().parse().ok().expect("malformed dst");
-//             let typ: &str = elts.next().unwrap();
-//             match typ {
-//                 "n" => { nodes.push((dst, src)); },
-//                 "e" => { edges.push((src, dst)); },
-//                 unk => { panic!("unknown type: {}", unk)},
-//             }
-//         }
-//     }
-
-//     let mut iteration = Iteration::new();
-
-//     let variable1 = iteration.variable::<(u32,u32)>("nodes");
-//     let variable2 = iteration.variable::<(u32,u32)>("edges");
-
-//     variable1.insert(nodes.into());
-//     variable2.insert(edges.into());
-
-//     while iteration.changed() {
-
-//         // N(a,c) <-  N(a,b), E(b,c)
-//         variable1.from_join(&variable1, &variable2, |_b, &a, &c| (c,a));
-
-//     }
-
-//     let reachable = variable1.complete();
-
-// }
-
-mod map {
-
-    use super::Variable;
-
-    pub fn map_into<T1: Ord, T2: Ord, F: Fn(&T1)->T2>(
-        input: &Variable<T1>,
-        output: &Variable<T2>,
-        logic: F) {
-
-        let mut results = Vec::new();
-        let recent = input.recent.borrow();
-        for tuple in recent.iter() {
-            results.push(logic(tuple));
-        }
-
-        output.insert(results.into());
-}
-
-}
-
-mod join {
-
-    use super::Variable;
-
-    pub fn join_into<Key: Ord, Val1: Ord, Val2: Ord, Result: Ord, F: Fn(&Key, &Val1, &Val2)->Result>(
-        input1: &Variable<(Key, Val1)>,
-        input2: &Variable<(Key, Val2)>,
-        output: &Variable<Result>,
-        logic: F) {
-
-        let mut results = Vec::new();
-
-        // Scoped so that we don't write to `output` while holding any borrows.
-        {
-            // Read-only access to each variable.
-            let tuples1 = input1.tuples.borrow();
-            let tuples2 = input2.tuples.borrow();
-
-            let recent1 = input1.recent.borrow();
-            let recent2 = input2.recent.borrow();
-
-            for batch2 in tuples2.iter() {
-                join_helper(&recent1, &batch2, |k,v1,v2| results.push(logic(k,v1,v2)))
-            }
-
-            for batch1 in tuples1.iter() {
-                join_helper(&batch1, &recent2, |k,v1,v2| results.push(logic(k,v1,v2)))
-            }
-
-            join_helper(&recent1, &recent2, |k,v1,v2| results.push(logic(k,v1,v2)))
-        }
-
-        output.insert(results.into());
-    }
-
-    fn join_helper<K: Ord, V1, V2, F: FnMut(&K, &V1, &V2)>(mut slice1: &[(K,V1)], mut slice2: &[(K,V2)], mut result: F) {
-
-        while !slice1.is_empty() && !slice2.is_empty() {
-
-            if slice1[0].0 == slice2[0].0 {
-
-                let mut key1_count = 0;
-                while key1_count < slice1.len() && slice1[0].0 == slice1[key1_count].0 {
-                    key1_count += 1;
-                }
-
-                let mut key2_count = 0;
-                while key2_count < slice2.len() && slice2[0].0 == slice2[key2_count].0 {
-                    key2_count += 1;
-                }
-
-                for index1 in 0 .. key1_count {
-                    for index2 in 0 .. key2_count {
-                        result(&slice1[0].0, &slice1[index1].1, &slice2[index2].1);
-                    }
-                }
-
-                slice1 = &slice1[key1_count..];
-                slice2 = &slice2[key2_count..];
-
-            }
-            else {
-
-                if slice1[0].0 < slice2[0].0 {
-                    slice1 = gallop(slice1, |x| &x.0 < &slice2[0].0);
-                }
-                else {
-                    slice2 = gallop(slice2, |x| &x.0 < &slice1[0].0);
-                }
-
-            }
-        }
-    }
-
-
-    #[inline(always)]
-    pub fn gallop<'a, T, F: Fn(&T)->bool>(mut slice: &'a [T], cmp: F) -> &'a [T] {
-        // if empty slice, or already >= element, return
-        if slice.len() > 0 && cmp(&slice[0]) {
-            let mut step = 1;
-            while step < slice.len() && cmp(&slice[step]) {
-                slice = &slice[step..];
-                step = step << 1;
-            }
-
-            step = step >> 1;
-            while step > 0 {
-                if step < slice.len() && cmp(&slice[step]) {
-                    slice = &slice[step..];
-                }
-                step = step >> 1;
-            }
-
-            slice = &slice[1..]; // advance one, as we always stayed < value
-        }
-
-        return slice;
-    }
 }
diff --git a/src/map.rs b/src/map.rs
@@ -0,0 +1,15 @@
+use super::Variable;
+
+pub fn map_into<T1: Ord, T2: Ord, F: Fn(&T1)->T2>(
+    input: &Variable<T1>,
+    output: &Variable<T2>,
+    logic: F) {
+
+    let mut results = Vec::new();
+    let recent = input.recent.borrow();
+    for tuple in recent.iter() {
+        results.push(logic(tuple));
+    }
+
+    output.insert(results.into());
+}