Merge pull request '2.1.1' (#216) from develop into master

strangetom · strangetom · commit e56614dab11f · 2025-05-18T18:52:56.000+01:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,6 +1,10 @@
 # Changelog
 
-## 2.10
+## 2.1.1
+
+* Pin Pint version to 0.24.4, as future versions intend to drop support for Python 3.10.
+
+## 2.1.0
 
 > [!WARNING]
 >
diff --git a/ingredient_parser/__init__.py b/ingredient_parser/__init__.py
@@ -9,4 +9,4 @@
     "show_model_card",
 ]
 
-__version__ = "2.1.0"
+__version__ = "2.1.1"
diff --git a/ingredient_parser/en/_embeddings.py b/ingredient_parser/en/_embeddings.py
@@ -8,9 +8,22 @@
 
 
 class GloVeModel:
+    """Class to interact with GloVe embeddings.
+
+    Attributes
+    ----------
+    binarized_vectors : dict[str, list[str]]
+        Dict of word: binarized_vector pairs.
+    vec_file : str
+        Path to GloVe embeddings file.
+    vectors : dict[str, np.ndarray]
+        Dict of word: vector pairs.
+    """
+
     def __init__(self, vec_file: str):
         self.vec_file = vec_file
         self._load_vectors_from_file(vec_file)
+        self._binarize_vectors()
 
     def __repr__(self) -> str:
         return f"GloVeModel(vec_file={self.vec_file})"
@@ -51,7 +64,7 @@ def _load_vectors_from_file(self, vec_file: str) -> None:
         """Load vectors from gzipped txt file in word2vec format.
 
         The first line of the file contains the header which is the vocabulary size
-        (i.e. number of vectors) and the dimenisions of the vectors.
+        (i.e. number of vectors) and the dimensions of the vectors.
 
         All remaining rows contain the token followed by the numeric elements of the
         vector, separated by a space
@@ -61,7 +74,7 @@ def _load_vectors_from_file(self, vec_file: str) -> None:
         vec_file : str
             File to load vectors from.
         """
-        vectors = {}
+        self.vectors = {}
         with as_file(files(__package__) / vec_file) as p:
             with gzip.open(p, "rt") as f:
                 # Read first line as header
@@ -73,6 +86,41 @@ def _load_vectors_from_file(self, vec_file: str) -> None:
                     parts = line.rstrip().split()
                     token = parts[0]
                     vector = np.array([float(v) for v in parts[1:]], dtype=np.float32)
-                    vectors[token] = vector
+                    self.vectors[token] = vector
+
+    def _binarize_vectors(self):
+        """Binarize word vectors by converting continuous values into discrete values.
+
+        For each word vector, calculate the average value of the positive elements and
+        the negative elements. Replace each element of each word vector according to:
+        if value < negative_average:
+            "NEG"
+        elif value > positive_average
+            "POS"
+        else
+            "0"
 
-        self.vectors = vectors
+        The resulting word vectors are stored in the binarized_vectors attribute.
+
+        References
+        ----------
+        J. Guo, W. Che, H. Wang, and T. Liu, ‘Revisiting Embedding Features for Simple
+        Semi-supervised Learning’, in Proceedings of the 2014 Conference on Empirical
+        Methods in Natural Language Processing (EMNLP), Doha, Qatar: Association for
+        Computational Linguistics, 2014, pp. 110–120. doi: 10.3115/v1/D14-1012.
+        """
+        self.binarized_vectors = {}
+        for word, vec in self.vectors.items():
+            positive_avg = np.mean(vec[vec > 0])
+            negative_avg = np.mean(vec[vec < 0])
+
+            binarised_vec = []
+            for value in vec:
+                if value < negative_avg:
+                    binarised_vec.append("VNEG")
+                elif value > positive_avg:
+                    binarised_vec.append("VPOS")
+                else:
+                    binarised_vec.append("V0")
+
+            self.binarized_vectors[word] = binarised_vec
diff --git a/pyproject.toml b/pyproject.toml
@@ -29,7 +29,7 @@ classifiers = [
 dependencies = [
     "nltk>=3.9.1",
     "python-crfsuite",
-    "pint>=0.24.4",
+    "pint==0.24.4",
     "numpy",
 ]
 
diff --git a/requirements.txt b/requirements.txt
@@ -1,4 +1,4 @@
 nltk>=3.9.1
 python-crfsuite
-pint>=0.24.4
+pint==0.24.4
 floret
diff --git a/train.py b/train.py
@@ -85,12 +85,6 @@ def __call__(self, parser, namespace, values, option_strings):
         action="store_true",
         help="Plot confusion matrix of token labels.",
     )
-    train_parser.add_argument(
-        "--model",
-        choices=["parser", "foundationfoods"],
-        required=True,
-        help="Specify which model to train.",
-    )
 
     multiple_parser_help = "Average CRF performance across multiple training cycles."
     multiple_parser = subparsers.add_parser("multiple", help=multiple_parser_help)
@@ -155,12 +149,6 @@ def __call__(self, parser, namespace, values, option_strings):
         type=int,
         help="Number of processes to spawn. Default to number of cpu cores.",
     )
-    multiple_parser.add_argument(
-        "--model",
-        choices=["parser", "foundationfoods"],
-        required=True,
-        help="Specify which model to train.",
-    )
 
     gridsearch_parser_help = (
         "Grid search over all combinations of model hyperparameters."
@@ -267,12 +255,6 @@ def __call__(self, parser, namespace, values, option_strings):
         action=ParseJsonArg,
         default=dict(),
     )
-    gridsearch_parser.add_argument(
-        "--model",
-        choices=["parser", "foundationfoods"],
-        required=True,
-        help="Specify which model to train.",
-    )
 
     featuresearch_parser_help = "Grid search over all sets of model features."
     featuresearch_parser = subparsers.add_parser(
@@ -329,12 +311,6 @@ def __call__(self, parser, namespace, values, option_strings):
         type=int,
         help="Seed value used for train/test split.",
     )
-    featuresearch_parser.add_argument(
-        "--model",
-        choices=["parser", "foundationfoods"],
-        required=True,
-        help="Specify which model to train.",
-    )
 
     utility_help = "Utilities to aid cleaning training data."
     utility_parser = subparsers.add_parser("utility", help=utility_help)
diff --git a/train/featuresearch.py b/train/featuresearch.py
@@ -13,7 +13,7 @@
 from tabulate import tabulate
 from tqdm import tqdm
 
-from .train_model import ModelType, get_model_type
+from .train_model import DEFAULT_MODEL_LOCATION
 from .training_utils import (
     DataVectors,
     evaluate,
@@ -71,7 +71,6 @@ def train_model_feature_search(
     save_model: str,
     seed: int,
     keep_model: bool,
-    model_type: ModelType,
 ) -> dict:
     """Train model using selected features returning model performance statistics,
     model parameters and elapsed training time.
@@ -91,8 +90,6 @@ def train_model_feature_search(
         testing sets.
     keep_model : bool
         If True, keep model after evaluation, otherwise delete it.
-    model_type : ModelType
-        Type of model gridsearch is being performed on.
 
     Returns
     -------
@@ -140,8 +137,8 @@ def train_model_feature_search(
             "feature.minfreq": 0,
             "feature.possible_states": True,
             "feature.possible_transitions": True,
-            "c1": 0.25,
-            "c2": 0.75,
+            "c1": 0.6,
+            "c2": 0.5,
             "max_linesearch": 5,
             "num_memories": 3,
             "period": 10,
@@ -157,7 +154,7 @@ def train_model_feature_search(
     tagger = pycrfsuite.Tagger()  # type: ignore
     tagger.open(str(save_model_path))
     labels_pred = [tagger.tag(X) for X in features_test]
-    stats = evaluate(labels_pred, truth_test, seed, model_type)
+    stats = evaluate(labels_pred, truth_test, seed)
 
     if not keep_model:
         save_model_path.unlink(missing_ok=True)
@@ -179,20 +176,22 @@ def feature_search(args: argparse.Namespace):
     args : argparse.Namespace
         Feature search configuration
     """
-    vectors = load_datasets(
-        args.database, args.table, args.datasets, get_model_type(args.model)
-    )
+    vectors = load_datasets(args.database, args.table, args.datasets)
+
+    if args.save_model is None:
+        save_model = DEFAULT_MODEL_LOCATION
+    else:
+        save_model = args.save_model
 
     argument_sets = []
     for feature_set in DISCARDED_FEATURES.keys():
         arguments = [
             feature_set,
             vectors,
             args.split,
-            args.save_model,
+            save_model,
             args.seed,
             args.keep_models,
-            get_model_type(args.model),
         ]
         argument_sets.append(arguments)
 
diff --git a/train/gridsearch.py b/train/gridsearch.py
@@ -14,7 +14,7 @@
 from tabulate import tabulate
 from tqdm import tqdm
 
-from .train_model import DEFAULT_MODEL_LOCATION, ModelType, get_model_type
+from .train_model import DEFAULT_MODEL_LOCATION
 from .training_utils import (
     DataVectors,
     evaluate,
@@ -318,9 +318,7 @@ def generate_argument_sets(args: argparse.Namespace) -> list[list]:
         list of lists, where each sublist is the arguments for training a model with
         one of the combinations of algorithms and parameters
     """
-    vectors = load_datasets(
-        args.database, args.table, args.datasets, get_model_type(args.model)
-    )
+    vectors = load_datasets(args.database, args.table, args.datasets)
 
     # Generate list of arguments for all combinations parameters for each algorithm
     argument_sets = []
@@ -345,7 +343,7 @@ def generate_argument_sets(args: argparse.Namespace) -> list[list]:
             params = params | args.global_params
 
         if args.save_model is None:
-            save_model = DEFAULT_MODEL_LOCATION[args.model]
+            save_model = DEFAULT_MODEL_LOCATION
         else:
             save_model = args.save_model
 
@@ -359,7 +357,6 @@ def generate_argument_sets(args: argparse.Namespace) -> list[list]:
                 save_model,
                 args.seed,
                 args.keep_models,
-                get_model_type(args.model),
             ]
             argument_sets.append(arguments)
 
@@ -374,7 +371,6 @@ def train_model_grid_search(
     save_model: str,
     seed: int,
     keep_model: bool,
-    model_type: ModelType,
 ) -> dict:
     """Train model using given training algorithm and parameters,
     returning model performance statistics, model parameters and elapsed training time.
@@ -396,8 +392,6 @@ def train_model_grid_search(
         testing sets.
     keep_model : bool
         If True, keep model after evaluation, otherwise delete it.
-    model_type : ModelType
-        Type of model gridsearch is being performed on.
 
     Returns
     -------
@@ -446,7 +440,7 @@ def train_model_grid_search(
     tagger = pycrfsuite.Tagger()  # type: ignore
     tagger.open(str(save_model_path))
     labels_pred = [tagger.tag(X) for X in features_test]
-    stats = evaluate(labels_pred, truth_test, seed, model_type)
+    stats = evaluate(labels_pred, truth_test, seed)
 
     if not keep_model:
         save_model_path.unlink(missing_ok=True)
diff --git a/train/train_model.py b/train/train_model.py
diff --git a/train/training_utils.py b/train/training_utils.py

Original file line number	Diff line number	Diff line change
`@@ -9,4 +9,4 @@`
`9`	`9`	`"show_model_card",`
`10`	`10`	`]`
`11`	`11`
`12`		`-__version__ = "2.1.0"`
	`12`	`+__version__ = "2.1.1"`
Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@ classifiers = [`
`29`	`29`	`dependencies = [`
`30`	`30`	`"nltk>=3.9.1",`
`31`	`31`	`"python-crfsuite",`
`32`		`- "pint>=0.24.4",`
	`32`	`+ "pint==0.24.4",`
`33`	`33`	`"numpy",`
`34`	`34`	`]`
`35`	`35`