Add Copyright and Documentation for Retrieval QA and Vector DB (#478)

z7ye · web-flow · commit 7e86d161f0ad · 2023-12-06T10:11:27.000-08:00
diff --git a/THIRD_PARTY_LICENSES.txt b/THIRD_PARTY_LICENSES.txt
@@ -54,6 +54,12 @@ docker
 * Source code: https://github.com/docker
 * Project home: https://www.docker.com/
 
+evaluate
+* Copyright 2023 HuggingFace Inc.
+* License: Apache-2.0 license
+* Source code: https://github.com/huggingface/evaluate
+* Project home: https://huggingface.co/docs/evaluate/index
+
 fastavro
 * Copyright (c) 2011 Miki Tebeka
 * License: MIT License
@@ -133,6 +139,12 @@ jinja2
 * Source code: https://github.com/pallets/jinja/
 * Project home: https://palletsprojects.com/p/jinja/
 
+langchain
+* Copyright (c) 2023 LangChain, Inc.
+* License: MIT license
+* Source code: https://github.com/langchain-ai/langchain
+* Project home: https://www.langchain.com/
+
 lightgbm
 * Copyright (c) 2023 Microsoft Corporation
 * License: MIT license
diff --git a/ads/llm/serialize.py b/ads/llm/serialize.py
@@ -15,7 +15,6 @@
 from langchain.chains import RetrievalQA
 from langchain.chains.loading import load_chain_from_config
 from langchain.llms import loading
-from langchain.load import dumpd
 from langchain.load.load import Reviver
 from langchain.load.serializable import Serializable
 from langchain.schema.runnable import RunnableParallel
diff --git a/ads/llm/serializers/retrieval_qa.py b/ads/llm/serializers/retrieval_qa.py
@@ -1,3 +1,9 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*--
+
+# Copyright (c) 2023 Oracle and/or its affiliates.
+# Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
+
 import base64
 import json
 import os
@@ -30,7 +36,7 @@ def load(config: dict, **kwargs):
                 os.environ.get("OCI_OPENSEARCH_PASSWORD", None),
             ),
             verify_certs=True
-            if os.environ.get("OCI_OPENSEARCH_VERIFY_CERTS", None).lower() == "true"
+            if os.environ.get("OCI_OPENSEARCH_VERIFY_CERTS", None) == "True"
             else False,
             ca_certs=os.environ.get("OCI_OPENSEARCH_CA_CERTS", None),
         )
@@ -44,18 +50,18 @@ def save(obj):
         serialized["type"] = "constructor"
         serialized["_type"] = OpenSearchVectorDBSerializer.type()
         kwargs = {}
-        for key, val in obj.__dict__.items():
-            if key == "client":
-                if isinstance(val, OpenSearch):
-                    client_info = val.transport.hosts[0]
+        for component_name, component in obj.__dict__.items():
+            if component_name == "client":
+                if isinstance(component, OpenSearch):
+                    client_info = component.transport.hosts[0]
                     opensearch_url = (
                         f"https://{client_info['host']}:{client_info['port']}"
                     )
                     kwargs.update({"opensearch_url": opensearch_url})
                 else:
                     raise NotImplementedError("Only support OpenSearch client.")
                 continue
-            kwargs[key] = dump(val)
+            kwargs[component_name] = dump(component)
         serialized["kwargs"] = kwargs
         return serialized
 
diff --git a/docs/source/user_guide/large_language_model/index.rst b/docs/source/user_guide/large_language_model/index.rst
@@ -4,9 +4,37 @@
 Large Language Model
 ####################
 
+Oracle Cloud Infrastructure (OCI) provides fully managed infrastructure to work with Large Language Model (LLM). 
+
+Train and Deploy LLM
+********************
+You can train LLM at scale with multi-node and multi-GPU using `Data Science Jobs (Jobs) <https://docs.oracle.com/en-us/iaas/data-science/using/jobs-about.htm>`_, and deploy it with `Data Science Model Deployment (Model Deployments) <https://docs.oracle.com/en-us/iaas/data-science/using/model-dep-about.htm>`_. The following blog posts show examples training and deploying Llama2 models:
+
+* `Multi-GPU multinode fine-tuning Llama2 on OCI Data Science <https://blogs.oracle.com/ai-and-datascience/post/multi-gpu-multi-node-finetuning-llama2-oci>`_
+* `Deploy Llama 2 in OCI Data Science <https://blogs.oracle.com/ai-and-datascience/post/llama2-oci-data-science-cloud-platform>`_
+* `Quantize and deploy Llama 2 70B on cost-effective NVIDIA A10 Tensor Core GPUs in OCI Data Science <https://blogs.oracle.com/ai-and-datascience/post/quantize-deploy-llama2-70b-costeffective-a10s-oci>`_
+
+
+Integration with LangChain
+**************************
+ADS is designed to work with LangChain, enabling developers to incorporate various LangChain components and models deployed on OCI seamlessly into their applications. Additionally, ADS can package LangChain applications and deploy it as a REST API endpoint using OCI Data Science Model Deployment.
+
+
+.. admonition:: Installation
+  :class: note
+
+  Install ADS and other dependencies for LLM integrations.
+
+  .. code-block:: bash
+
+    $ python3 -m pip install "oracle-ads[llm]"
+
+
 
 .. toctree::
     :hidden:
     :maxdepth: 2
 
+    training_llm
     deploy_langchain_application
+    retrieval
diff --git a/docs/source/user_guide/large_language_model/retrieval.rst b/docs/source/user_guide/large_language_model/retrieval.rst
@@ -0,0 +1,194 @@
+.. _vector_store:
+
+########################
+Vector Store integration
+########################
+
+.. versionadded:: 2.9.1
+
+Current version of Langchain does not support serialization of any vector stores. This will be a problem when you want to deploy a langchain application with the vector store being one of the components using data science model deployment service. To solve this problem, we extended our support of vector stores serialization:
+
+- ``OpenSearchVectorSearch``
+- ``FAISS``
+
+OpenSearchVectorSearch Serialization
+------------------------------------
+
+langchain does not automatically support serialization of ``OpenSearchVectorSearch``. However, ADS provides a way to serialize ``OpenSearchVectorSearch``. To serialize ``OpenSearchVectorSearch``, you need to use environment variables to pass in the credentials. The following variables can be passed in through the corresponding environment variables:
+
+- http_auth: (``OCI_OPENSEARCH_USERNAME``, ``OCI_OPENSEARCH_PASSWORD``)
+- verify_certs: ``OCI_OPENSEARCH_VERIFY_CERTS``
+- ca_certs: ``OCI_OPENSEARCH_CA_CERTS``
+
+The following code snippet shows how to use ``OpenSearchVectorSearch`` with environment variables:
+
+.. code-block:: python3
+
+    os.environ['OCI_OPENSEARCH_USERNAME'] = "username"
+    os.environ['OCI_OPENSEARCH_PASSWORD'] = "password"
+    os.environ['OCI_OPENSEARCH_VERIFY_CERTS'] = "False"
+
+    INDEX_NAME = "your_index_name"
+    opensearch_vector_search = OpenSearchVectorSearch(
+        "https://localhost:9200",
+        embedding_function=oci_embedings,
+        index_name=INDEX_NAME,
+        engine="lucene",
+        http_auth=(os.environ["OCI_OPENSEARCH_USERNAME"], os.environ["OCI_OPENSEARCH_PASSWORD"]),
+        verify_certs=os.environ["OCI_OPENSEARCH_VERIFY_CERTS"],
+    )
+
+.. admonition:: Deployment
+  :class: note
+
+During deployment, it is very important that you remember to pass in those environment variables as well:
+
+.. code-block:: python3
+
+    .deploy(deployment_log_group_id="ocid1.loggroup.####",
+            deployment_access_log_id="ocid1.log.####",
+            deployment_predict_log_id="ocid1.log.####",
+            environment_variables={"OCI_OPENSEARCH_USERNAME":"<oci_opensearch_username>",
+                                    "OCI_OPENSEARCH_PASSWORD": "<oci_opensearch_password>",
+                                    "OCI_OPENSEARCH_VERIFY_CERTS": "<oci_opensearch_verify_certs>",)
+
+OpenSearchVectorSearch Deployment
+---------------------------------
+
+Here is an example code snippet for OpenSearchVectorSearch deployment:
+
+.. code-block:: python3
+
+    from langchain.vectorstores import OpenSearchVectorSearch
+    from ads.llm import GenerativeAIEmbeddings, GenerativeAI
+    import ads
+
+    ads.set_auth("resource_principal")
+
+    oci_embedings = GenerativeAIEmbeddings(
+        compartment_id="ocid1.compartment.oc1..aaaaaaaapvb3hearqum6wjvlcpzm5ptfxqa7xfftpth4h72xx46ygavkqteq",
+        client_kwargs=dict(service_endpoint="https://generativeai.aiservice.us-chicago-1.oci.oraclecloud.com") # this can be omitted after Generative AI service is GA.
+    )
+
+    oci_llm = GenerativeAI(
+        compartment_id="ocid1.compartment.oc1..aaaaaaaapvb3hearqum6wjvlcpzm5ptfxqa7xfftpth4h72xx46ygavkqteq",
+        client_kwargs=dict(service_endpoint="https://generativeai.aiservice.us-chicago-1.oci.oraclecloud.com") # this can be omitted after Generative AI service is GA.
+    )
+
+    import os
+    os.environ['OCI_OPENSEARCH_USERNAME'] = "username"
+    os.environ['OCI_OPENSEARCH_PASSWORD'] = "password"
+    os.environ['OCI_OPENSEARCH_VERIFY_CERTS'] = "True" # make sure this is capitalized.
+    os.environ['OCI_OPENSEARCH_CA_CERTS'] = "path/to/oci_opensearch_ca.pem"
+
+    INDEX_NAME = "your_index_name"
+    opensearch_vector_search = OpenSearchVectorSearch(
+        "https://localhost:9200", # your endpoint
+        embedding_function=oci_embedings,
+        index_name=INDEX_NAME,
+        engine="lucene",
+        http_auth=(os.environ["OCI_OPENSEARCH_USERNAME"], os.environ["OCI_OPENSEARCH_PASSWORD"]),
+        verify_certs=os.environ["OCI_OPENSEARCH_VERIFY_CERTS"],
+        ca_certs=os.environ["OCI_OPENSEARCH_CA_CERTS"],
+    )
+    from langchain.chains import RetrievalQA
+    retriever = opensearch_vector_search.as_retriever(search_kwargs={"vector_field": "embeds", 
+                                                                    "text_field": "text", 
+                                                                    "k": 3, 
+                                                                    "size": 3})
+    qa = RetrievalQA.from_chain_type(
+        llm=oci_llm,
+        chain_type="stuff",
+        retriever=retriever,
+        chain_type_kwargs={
+            "verbose": True
+        }
+    )
+    from ads.llm.deploy import ChainDeployment
+    model = ChainDeployment(qa)
+    model.prepare(force_overwrite=True,
+            inference_conda_env="your_conda_pack",
+            )
+
+    model.save()
+    res = model.verify("your prompt")
+    model.deploy(deployment_log_group_id="ocid1.loggroup.####",
+            deployment_access_log_id="ocid1.log.####",
+            deployment_predict_log_id="ocid1.log.####",
+            environment_variables={"OCI_OPENSEARCH_USERNAME":"<oci_opensearch_username>",
+                                    "OCI_OPENSEARCH_PASSWORD": "<oci_opensearch_password>",
+                                    "OCI_OPENSEARCH_VERIFY_CERTS": "<oci_opensearch_verify_certs>",
+                                    "OCI_OPENSEARCH_CA_CERTS": "<oci_opensearch_ca_certs>"},)
+
+    model.predict("your prompt")
+
+
+FAISS Serialization
+-------------------
+
+If your documents are not too large and you dont have a OCI OpenSearch cluster, you can use ``FAISS`` as your in-memory vector store, which can also do similarty search very efficiently. For ``FAISS``, you can just use it and deploy it as it is.
+
+
+FAISS Deployment
+----------------
+
+Here is an example code snippet for FAISS deployment:
+
+.. code-block:: python3
+
+    import ads
+    from ads.llm import GenerativeAIEmbeddings, GenerativeAI
+    from langchain.document_loaders import TextLoader
+    from langchain.text_splitter import CharacterTextSplitter
+    from langchain.vectorstores import FAISS
+    from langchain.chains import RetrievalQA
+
+    ads.set_auth("resource_principal")
+    oci_embedings = GenerativeAIEmbeddings(
+        compartment_id="ocid1.compartment.####",
+        client_kwargs=dict(service_endpoint="https://generativeai.aiservice.us-chicago-1.oci.oraclecloud.com") # this can be omitted after Generative AI service is GA.
+    )
+
+    oci_llm = GenerativeAI(
+        compartment_id="ocid1.compartment.####",
+        client_kwargs=dict(service_endpoint="https://generativeai.aiservice.us-chicago-1.oci.oraclecloud.com") # this can be omitted after Generative AI service is GA.
+    )
+
+    loader = TextLoader("your.txt")
+    documents = loader.load()
+    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
+    docs = text_splitter.split_documents(documents)
+
+    l = len(docs)
+    embeddings = []
+    for i in range(l // 16 + 1):
+        subdocs = [item.page_content for item in docs[i * 16: (i + 1) * 16]]
+        embeddings.extend(oci_embedings.embed_documents(subdocs))
+
+    texts = [item.page_content for item in docs]
+    text_embedding_pairs = [(text, embed) for text, embed in  zip(texts, embeddings)]
+    db = FAISS.from_embeddings(text_embedding_pairs, oci_embedings)
+
+    retriever = db.as_retriever()
+    qa = RetrievalQA.from_chain_type(
+        llm=oci_llm,
+        chain_type="stuff",
+        retriever=retriever,
+        chain_type_kwargs={
+            "verbose": True
+        }
+    )
+
+    from ads.llm.deploy import ChainDeployment
+    model = ChainDeployment(qa)
+    model.prepare(force_overwrite=True,
+            inference_conda_env="your_conda_pack",
+            )
+
+    model.save()
+    res = model.verify("your prompt")
+    model.deploy(deployment_log_group_id="ocid1.loggroup.####",
+            deployment_access_log_id="ocid1.log.####",
+            deployment_predict_log_id="ocid1.log.####")
+
+    model.predict("your prompt")