Move main dev test into main2.dart

crasm · crasm · commit c3f5e241dc2c · 2023-09-19T03:58:00.000-04:00
diff --git a/example/main2.dart b/example/main2.dart
@@ -0,0 +1,28 @@
+import 'dart:io';
+
+import 'package:ensemble_llama/ensemble_llama.dart';
+
+void main() async {
+  var llama = await Llama.create();
+  llama.log.listen((msg) {
+    final msgText = msg.toString();
+    if (!msgText.contains("llama_model_loader: - tensor")) {
+      print(msgText);
+    }
+  });
+
+  final params = ContextParams(gpuLayers: 1, useMmap: false);
+  final model = await llama.loadModel(
+    "/Users/vczf/models/default/ggml-model-f16.gguf",
+    params: params,
+    progressCallback: (p) => stdout.write("."),
+  );
+
+  print(model);
+
+  final ctx = await llama.newContext(model, params);
+  await llama.freeContext(ctx);
+
+  await llama.freeModel(model);
+  llama.dispose();
+}
diff --git a/lib/src/ensemble_llama_base.dart b/lib/src/ensemble_llama_base.dart
@@ -1,31 +1,43 @@
-import 'dart:io';
 import 'dart:isolate';
 
 import 'package:ensemble_llama/src/llama_cpp_isolate_wrapper.dart';
 
-void main() async {
-  var llama = await Llama.create();
-  llama.log.listen((msg) {
-    final msgText = msg.toString();
-    if (!msgText.contains("llama_model_loader: - tensor")) {
-      print(msgText);
-    }
-  });
-
-  final params = ContextParams(gpuLayers: 1, useMmap: false);
-  final model = await llama.loadModel(
-      "/Users/vczf/models/default/ggml-model-f16.gguf",
-    params: params,
-    progressCallback: (p) => stdout.write("."),
-  );
-
-  print(model);
-
-  final ctx = await llama.newContext(model, params);
-  await llama.freeContext(ctx);
-
-  await llama.freeModel(model);
-  llama.dispose();
+class ContextParams {
+  final int seed;
+  final int contextSizeTokens;
+  final int batchSizeTokens;
+  final int gpuLayers;
+  final int cudaMainGpu;
+  // final List<double> cudaTensorSplits;
+  final double ropeFreqBase;
+  final double ropeFreqScale;
+  final bool useLessVram;
+  final bool cudaUseMulMatQ;
+  final bool useFloat16KVCache;
+  final bool calculateAllLogits;
+  final bool loadOnlyVocabSkipTensors;
+  final bool useMmap;
+  final bool useMlock;
+  final bool willUseEmbedding;
+
+  const ContextParams({
+    this.seed = int32Max,
+    this.contextSizeTokens = 512,
+    this.batchSizeTokens = 512,
+    this.gpuLayers = 0,
+    this.cudaMainGpu = 0,
+    // this.cudaTensorSplits = const [0.0],
+    this.ropeFreqBase = 10000.0,
+    this.ropeFreqScale = 1.0,
+    this.useLessVram = false,
+    this.cudaUseMulMatQ = true,
+    this.useFloat16KVCache = true,
+    this.calculateAllLogits = false,
+    this.loadOnlyVocabSkipTensors = false,
+    this.useMmap = true,
+    this.useMlock = false,
+    this.willUseEmbedding = false,
+  }) : assert(seed <= int32Max);
 }
 
 class Llama {
diff --git a/lib/src/llama_cpp_isolate_wrapper.dart b/lib/src/llama_cpp_isolate_wrapper.dart
@@ -4,10 +4,11 @@ import 'dart:math';
 
 import 'package:ffi/ffi.dart';
 import 'package:ensemble_llama/ensemble_llama_cpp.dart';
+import 'package:ensemble_llama/src/ensemble_llama_base.dart' show ContextParams;
 
 // 4294967295 (32 bit unsigned)
 // -1 (32 bit signed)
-const _int32Max = 0xFFFFFFFF;
+const int32Max = 0xFFFFFFFF;
 
 extension on llama_context_params {
   // Sets most of the context parameters, such as int, double, bool.
@@ -37,42 +38,20 @@ extension on llama_context_params {
   }
 }
 
-class ContextParams {
-  final int seed;
-  final int contextSizeTokens;
-  final int batchSizeTokens;
-  final int gpuLayers;
-  final int cudaMainGpu;
-  // final List<double> cudaTensorSplits;
-  final double ropeFreqBase;
-  final double ropeFreqScale;
-  final bool useLessVram;
-  final bool cudaUseMulMatQ;
-  final bool useFloat16KVCache;
-  final bool calculateAllLogits;
-  final bool loadOnlyVocabSkipTensors;
-  final bool useMmap;
-  final bool useMlock;
-  final bool willUseEmbedding;
-
-  const ContextParams({
-    this.seed = _int32Max,
-    this.contextSizeTokens = 512,
-    this.batchSizeTokens = 512,
-    this.gpuLayers = 0,
-    this.cudaMainGpu = 0,
-    // this.cudaTensorSplits = const [0.0],
-    this.ropeFreqBase = 10000.0,
-    this.ropeFreqScale = 1.0,
-    this.useLessVram = false,
-    this.cudaUseMulMatQ = true,
-    this.useFloat16KVCache = true,
-    this.calculateAllLogits = false,
-    this.loadOnlyVocabSkipTensors = false,
-    this.useMmap = true,
-    this.useMlock = false,
-    this.willUseEmbedding = false,
-  }) : assert(seed <= _int32Max);
+class Model {
+  final int _rawPointer;
+  const Model._(this._rawPointer);
+  Pointer<llama_model> get _ffiPointer =>
+      Pointer.fromAddress(_rawPointer).cast<llama_model>();
+  @override
+  String toString() => "Model{$_rawPointer}";
+}
+
+class Context {
+  final int _rawPointer;
+  const Context._(this._rawPointer);
+  Pointer<llama_context> get _ffiPointer =>
+      Pointer.fromAddress(_rawPointer).cast<llama_context>();
 }
 
 class LogMessage {
@@ -97,7 +76,7 @@ class LogMessage {
 }
 
 sealed class ControlMessage {
-  final id = Random().nextInt(_int32Max);
+  final id = Random().nextInt(int32Max);
   ControlMessage();
 }
 
@@ -145,7 +124,7 @@ class FreeContextCtl extends ControlMessage {
 sealed class ResponseMessage {
   final int id;
   final Object? err;
-  const ResponseMessage(this.id, {this.err}) : assert(id <= _int32Max);
+  const ResponseMessage(this.id, {this.err}) : assert(id <= int32Max);
   void throwIfErr() {
     if (err != null) {
       throw err!;
@@ -191,22 +170,6 @@ class EntryArgs {
   const EntryArgs({required this.log, required this.response});
 }
 
-class Model {
-  final int _rawPointer;
-  const Model._(this._rawPointer);
-  Pointer<llama_model> get _ffiPointer =>
-      Pointer.fromAddress(_rawPointer).cast<llama_model>();
-  @override
-  String toString() => "Model{$_rawPointer}";
-}
-
-class Context {
-  final int _rawPointer;
-  const Context._(this._rawPointer);
-  Pointer<llama_context> get _ffiPointer =>
-      Pointer.fromAddress(_rawPointer).cast<llama_context>();
-}
-
 class _Allocations<E> {
   final Map<E, Set<Pointer>> _map = {};
 
@@ -263,9 +226,6 @@ void _onControl(ControlMessage ctl) {
       final params = libllama.llama_context_default_params()
         ..setSimpleFrom(ctl.params);
 
-      // TODO: can't do this until we track contexts to manage memory allocation
-      // pc.tensor_split
-
       params.progress_callback = Pointer.fromFunction(_onModelLoadProgress);
       final idPointer = calloc.allocate<Uint32>(sizeOf<Uint32>());
       allocs.add(idPointer);
diff --git a/test/ensemble_llama_test.dart b/test/ensemble_llama_test.dart
@@ -1,4 +1,3 @@
-// import 'package:ensemble_llama/ensemble_llama.dart' as llama;
 import 'package:test/test.dart';
 
 void main() {

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,3 @@`
`1`		`-// import 'package:ensemble_llama/ensemble_llama.dart' as llama;`
`2`	`1`	`import 'package:test/test.dart';`
`3`	`2`
`4`	`3`	`void main() {`