Merge remote-tracking branch 'refs/remotes/origin/master'

am9zZWY · am9zZWY · commit 5bd04a56162a · 2024-07-23T14:31:54.000+02:00
diff --git a/engine/rank.py b/engine/rank.py
@@ -82,6 +82,7 @@ def bm25(
         for word, score in sim_list
         if score > 0.7 and word not in query
     ]
+    sim_count = len(sim_weight_list)
 
     # Search terms to look up tf and idf for
     search_terms = set(query).union(set(map(lambda x: x[0], sim_weight_list)))
@@ -158,7 +159,7 @@ def bm25(
 
             score += (
                 weight
-                / 3
+                / sim_count
                 * (
                     idf_val
                     * (tf_val * (k1 + 1))
diff --git a/engine/similarity.py b/engine/similarity.py
@@ -3,6 +3,14 @@
 
 model = None
 
+try:
+    model = gensim.models.KeyedVectors.load("./glove-wiki-gigaword-100.model")
+except FileNotFoundError:
+    print("Model not found, downloading...")
+    model = api.load("glove-wiki-gigaword-100")
+    model.save("glove-wiki-gigaword-100.model")
+    print("Model downloaded and saved")
+
 
 def most_similar(word: str, topn=7) -> list:
     """Uses GloVe embeddings to find the most similar words to the given word.
@@ -16,16 +24,7 @@ def most_similar(word: str, topn=7) -> list:
     """
 
     global model
-    if model is None:
-        try:
-            model = gensim.models.KeyedVectors.load("./glove-wiki-gigaword-100.model")
-        except FileNotFoundError:
-            print("Model not found, downloading...")
-            model = api.load("glove-wiki-gigaword-100")
-            model.save("glove-wiki-gigaword-100.model")
-            print("Model downloaded and saved")
     try:
-
         most_sim = model.most_similar(word, topn=topn)
         # print(f"Most similar words to {word}: {most_sim}")
         return most_sim