Getting issue in using a custom local LLM with 'load_qa_chain' #25576

Sameerk22 · 2024-08-20T10:03:17Z

Sameerk22
Aug 20, 2024

Checked other resources

I added a very descriptive title to this question.
I searched the LangChain documentation with the integrated search.
I used the GitHub search to find a similar question and didn't find it.

Commit to Help

I commit to help with one of those options 👆

Example Code

from openai import OpenAI
from PyPDF2 import PdfReader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import ElasticVectorSearch, Pinecone, Weaviate, FAISS
from langchain.chains.question_answering import load_qa_chain
from langchain_community.llms import OpenAI
import time
import os
from typing import Optional, List

# Point to the local server(Llama3 served on LM Studio locally)
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

#LocalModel class
class LocalModel:
    def __init__(self, client):
        self.client = client

    def __call__(self, prompt: str, stop: Optional[List[str]] = None) -> str:
        history = [
            {"role": "system", "content": "You are an intelligent assistant."},
            {"role": "user", "content": prompt},
        ]

        completion = self.client.chat.completions.create(
            model="crusoeai/Llama-3-8B-Instruct-262k-GGUF",
            messages=history,
            temperature=0.7,
            stream=False,  # Use stream=True for streaming responses
        )

        return completion.choices[0].message["content"]

    def _llm_type(self) -> str:
        return "local_model"

local_model = LocalModel(client=client)


Next steps involve:
1.  extracting text from PDFd
2. making chunks out of them
embeddings = OpenAIEmbeddings() 
3. making and storing embeddings into a knowledge base
docsearch = FAISS.from_texts(all_texts, embeddings, metadatas=metadata)

chain = load_qa_chain(local_llm, chain_type="stuff") #Issue arise here

#usage
query = "What is this collection of PDFs about?"
docs = docsearch.similarity_search(query)
print(chain.run(input_documents=docs, question=query))



### Description

I'm trying to using langchains '**load_qa_chain()**' function `from langchain.chains.question_answering` to work with a custom local LLM instead of an OpenAI model.
I am using LM studio to server my model locally with these configurations:

{
"model": "TheBloke/dolphin-2.2.1-mistral-7B-GGUF",
"api_type": "openai",
"base_url": "http://localhost:1234/v1",
"api_key": "lm-studio"
}


The issue I am facing is that '**load_qa_chain()**' excepts a '_**Runnable instance**_' while the local class I made seems to be not suitable for this.

Any of you help and contribution matter a lot.

Thanks in advance!


### Error:
![image](https://github.com/user-attachments/assets/ba160cef-da81-4c19-b7a9-411a60d51561)


### System Info

langchain==0.2.14
langchain-community==0.2.12
langchain-core==0.2.33
langchain-openai==0.1.22
langchain-text-splitters==0.2.2

Sameerk22 · 2024-08-20T10:04:00Z

Sameerk22
Aug 20, 2024
Author

13 replies

dosubot[bot] bot Aug 21, 2024

To resolve the issue of missing BaseMessage, AIMessage, and Callbacks when using langchain_core.language_models, you need to import them from the correct modules within langchain_core. Here are the correct imports:

from langchain_core.callbacks.manager import CallbackManagerForLLMRun, AsyncCallbackManagerForLLMRun
from langchain_core.language_models import BaseLanguageModel
from langchain_core.messages import AIMessage, BaseMessage
from langchain_core.outputs.generation import GenerationChunk
from langchain.schema import LLMResult
from langchain_core.runnables import Runnable
from typing import Optional, List, Any, Sequence, Dict

Here is the updated code with the correct imports:

from openai import OpenAI
from langchain_core.language_models import BaseLanguageModel
from langchain_core.messages import AIMessage, BaseMessage
from langchain_core.callbacks.manager import CallbackManagerForLLMRun, AsyncCallbackManagerForLLMRun
from langchain_core.outputs.generation import GenerationChunk
from langchain.schema import LLMResult
from langchain_core.runnables import Runnable
from typing import Optional, List, Any, Sequence, Dict

# Point to the local server (Llama3 served on LM Studio locally)
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

# LocalModel class
class LocalModel(BaseLanguageModel):
    def __init__(self, client):
        self.client = client

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
        **kwargs: Any,
    ) -> str:
        history = [
            {"role": "system", "content": "You are an intelligent assistant."},
            {"role": "user", "content": prompt},
        ]

        completion = self.client.chat.completions.create(
            model="crusoeai/Llama-3-8B-Instruct-262k-GGUF",
            messages=history,
            temperature=0.7,
            stream=False,  # Use stream=True for streaming responses
        )

        return completion.choices[0].message["content"]

    async def _acall(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[AsyncCallbackManagerForLLMRun] = None,
        **kwargs: Any,
    ) -> str:
        return await run_in_executor(
            None,
            self._call,
            prompt,
            stop,
            run_manager.get_sync() if run_manager else None,
            **kwargs,
        )

    def generate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[Callbacks]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    async def agenerate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[Callbacks]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    def predict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return self._call(text, stop=list(stop) if stop else None, **kwargs)

    async def apredict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return await self._acall(text, stop=list(stop) if stop else None, **kwargs)

    def predict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = self._call(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    async def apredict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = await self._acall(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    def invoke(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
        **kwargs: Any,
    ) -> str:
        return self._call(prompt, stop, run_manager, **kwargs)

# Instantiate your custom local LLM
local_model = LocalModel(client=client)

# Ensure your custom LLM is wrapped as a Runnable
local_model_runnable = Runnable(local_model)

# Create the LLMChain using the custom local LLM
chain = load_qa_chain(local_model_runnable, chain_type="stuff")

# Usage
query = "What is this collection of PDFs about?"
docs = docsearch.similarity_search(query)
print(chain.run(input_documents=docs, question=query))

This should resolve the import issues for BaseMessage, AIMessage, and Callbacks ^[1]^[2].

To continue talking to Dosu, mention @dosu.

Sameerk22 Aug 23, 2024
Author

@dosu

This is the latest code I am using

from typing import List, Optional, Dict, Any, Sequence
from pydantic import BaseModel
from langchain_core.language_models import BaseLanguageModel
from langchain_core.messages import AIMessage, BaseMessage
from langchain_core.outputs.generation import GenerationChunk
from langchain.schema import LLMResult
from langchain.callbacks.base import BaseCallbackHandler
from langchain_core.runnables import Runnable
from langchain.chains.question_answering import load_qa_chain
from PyPDF2 import PdfReader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from openai import OpenAI

#--------------------------------------------------------------------------------------------------------------------
pdf_paths = [r"pdf1", r"pdf2"]  # List your PDF paths here

all_texts = []
metadata = []
for pdf_path in pdf_paths:
    reader = PdfReader(pdf_path)
    raw_text = ""
    for page in reader.pages:
        text = page.extract_text()
        if text:
            raw_text += text

    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=1200,
        chunk_overlap=250,
        length_function=len,
    )
    texts = text_splitter.split_text(raw_text)
    all_texts.extend(texts)
    metadata.extend([{"source": pdf_path}] * len(texts))


embeddings = OpenAIEmbeddings()
docsearch = FAISS.from_texts(all_texts, embeddings, metadatas=metadata)
# chain = load_qa_chain(OpenAI(), chain_type="stuff")
#--------------------------------------------------------------------------------------------------------------------
# Point to the local server (Llama3 served on LM Studio locally)
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

# LocalModel class
class LocalModel(BaseLanguageModel):
    client: Any

    class Config:
        arbitrary_types_allowed = True  # Allow arbitrary types

    def __init__(self, client):
        super().__init__()
        self.client = client

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        history = [
            {"role": "system", "content": "You are an intelligent assistant."},
            {"role": "user", "content": prompt},
        ]

        completion = self.client.chat.completions.create(
            model="crusoeai/Llama-3-8B-Instruct-262k-GGUF",
            messages=history,
            temperature=0.7,
            stream=False,  # Use stream=True for streaming responses
        )

        return completion.choices[0].message["content"]

    async def _acall(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        return await run_in_executor(
            None,
            self._call,
            prompt,
            stop,
            run_manager.get_sync() if run_manager else None,
            **kwargs,
        )
    

    def generate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[BaseCallbackHandler]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        # Remove callbacks from kwargs if it exists
        if 'callbacks' in kwargs:
            kwargs.pop('callbacks')

        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    async def agenerate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[BaseCallbackHandler]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        if 'callbacks' in kwargs:
            kwargs.pop('callbacks')
        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    def predict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return self._call(text, stop=list(stop) if stop else None, **kwargs)

    async def apredict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return await self._acall(text, stop=list(stop) if stop else None, **kwargs)

    def predict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = self._call(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    async def apredict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = await self._acall(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    def invoke(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        return self._call(prompt, stop, run_manager, **kwargs)
    

    

print("---------------1--------------")

local_model = LocalModel(client=client)


print("---------------2--------------")

# Ensure your custom LLM is wrapped as a Runnable
# local_model_runnable = Runnable(local_model)
# print("---------------3--------------")

# # Create the LLMChain using the custom local LLM
chain = load_qa_chain(local_model, chain_type="stuff")
print("---------------4--------------")


# Usage
query = "What is this collection of PDFs about?"
docs = docsearch.similarity_search(query)
inputs = {
    "input_documents": docs,
    "question": query
}
print(chain.invoke(inputs))
print("---------------5--------------")

This gives an error that : TypeError: LocalModel.generate_prompt() got multiple values for argument 'callbacks'

dosubot[bot] bot Aug 23, 2024

To resolve the TypeError: LocalModel.generate_prompt() got multiple values for argument 'callbacks', you need to ensure that the callbacks argument is not being passed multiple times. This error typically occurs when the callbacks argument is provided both in the function call and within the kwargs.

Here is how you can modify the generate_prompt and agenerate_prompt methods to avoid this error:

def generate_prompt(
    self,
    prompts: List[str],
    callbacks: Optional[List[BaseCallbackHandler]] = None,
    tags: Optional[List[str]] = None,
    metadata: Optional[Dict[str, Any]] = None,
    run_name: Optional[str] = None,
    **kwargs: Any,
) -> LLMResult:
    # Remove callbacks from kwargs if it exists
    kwargs.pop('callbacks', None)

    generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
    return LLMResult(generations=generations)

async def agenerate_prompt(
    self,
    prompts: List[str],
    callbacks: Optional[List[BaseCallbackHandler]] = None,
    tags: Optional[List[str]] = None,
    metadata: Optional[Dict[str, Any]] = None,
    run_name: Optional[str] = None,
    **kwargs: Any,
) -> LLMResult:
    # Remove callbacks from kwargs if it exists
    kwargs.pop('callbacks', None)

    generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
    return LLMResult(generations=generations)

By using kwargs.pop('callbacks', None), you ensure that the callbacks argument is removed from kwargs if it exists, thus preventing it from being passed multiple times.

Here is the updated code with these changes:

from typing import List, Optional, Dict, Any, Sequence
from pydantic import BaseModel
from langchain_core.language_models import BaseLanguageModel
from langchain_core.messages import AIMessage, BaseMessage
from langchain_core.outputs.generation import GenerationChunk
from langchain.schema import LLMResult
from langchain.callbacks.base import BaseCallbackHandler
from langchain_core.runnables import Runnable
from langchain.chains.question_answering import load_qa_chain
from PyPDF2 import PdfReader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from openai import OpenAI

#----------------------------------------------------------------------------------------------------
pdf_paths = [r"pdf1", r"pdf2"]  # List your PDF paths here

all_texts = []
metadata = []
for pdf_path in pdf_paths:
    reader = PdfReader(pdf_path)
    raw_text = ""
    for page in reader.pages:
        text = page.extract_text()
        if text:
            raw_text += text

    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=1200,
        chunk_overlap=250,
        length_function=len,
    )
    texts = text_splitter.split_text(raw_text)
    all_texts.extend(texts)
    metadata.extend([{"source": pdf_path}] * len(texts))


embeddings = OpenAIEmbeddings()
docsearch = FAISS.from_texts(all_texts, embeddings, metadatas=metadata)
# chain = load_qa_chain(OpenAI(), chain_type="stuff")
#----------------------------------------------------------------------------------------------------
# Point to the local server (Llama3 served on LM Studio locally)
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

# LocalModel class
class LocalModel(BaseLanguageModel):
    client: Any

    class Config:
        arbitrary_types_allowed = True  # Allow arbitrary types

    def __init__(self, client):
        super().__init__()
        self.client = client

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        history = [
            {"role": "system", "content": "You are an intelligent assistant."},
            {"role": "user", "content": prompt},
        ]

        completion = self.client.chat.completions.create(
            model="crusoeai/Llama-3-8B-Instruct-262k-GGUF",
            messages=history,
            temperature=0.7,
            stream=False,  # Use stream=True for streaming responses
        )

        return completion.choices[0].message["content"]

    async def _acall(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        return await run_in_executor(
            None,
            self._call,
            prompt,
            stop,
            run_manager.get_sync() if run_manager else None,
            **kwargs,
        )
    

    def generate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[BaseCallbackHandler]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        # Remove callbacks from kwargs if it exists
        kwargs.pop('callbacks', None)

        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    async def agenerate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[BaseCallbackHandler]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        # Remove callbacks from kwargs if it exists
        kwargs.pop('callbacks', None)
        
        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    def predict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return self._call(text, stop=list(stop) if stop else None, **kwargs)

    async def apredict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return await self._acall(text, stop=list(stop) if stop else None, **kwargs)

    def predict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = self._call(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    async def apredict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = await self._acall(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    def invoke(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        return self._call(prompt, stop, run_manager, **kwargs)
    

print("---------------1--------------")

local_model = LocalModel(client=client)

print("---------------2--------------")

# Create the LLMChain using the custom local LLM
chain = load_qa_chain(local_model, chain_type="stuff")
print("---------------4--------------")

# Usage
query = "What is this collection of PDFs about?"
docs = docsearch.similarity_search(query)
inputs = {
    "input_documents": docs,
    "question": query
}
print(chain.invoke(inputs))
print("---------------5--------------")

This should resolve the TypeError by ensuring that the callbacks argument is not passed multiple times ^[1]^[2].

To continue talking to Dosu, mention @dosu.

Sameerk22 Aug 23, 2024
Author

@dosu
Still getting the same error:

Traceback (most recent call last):
  File "C:\Users\Avram\Desktop\Sameer\pdf.py", line 196, in <module>
    print(chain.invoke(inputs))
          ^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\base.py", line 164, in invoke
    raise e
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\base.py", line 154, in invoke
    self._call(inputs, run_manager=run_manager)
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\combine_documents\base.py", line 138, in _call
    output, extra_return_dict = self.combine_docs(
                                ^^^^^^^^^^^^^^^^^^
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\combine_documents\stuff.py", line 257, in combine_docs
    return self.llm_chain.predict(callbacks=callbacks, **inputs), {}
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\llm.py", line 316, in predict
    return self(kwargs, callbacks=callbacks)[self.output_key]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain_core\_api\deprecation.py", line 170, in warning_emitting_wrapper
    return wrapped(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\base.py", line 381, in __call__
    return self.invoke(
           ^^^^^^^^^^^^
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\base.py", line 164, in invoke
    raise e
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\base.py", line 154, in invoke
    self._call(inputs, run_manager=run_manager)
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\llm.py", line 126, in _call
    response = self.generate([inputs], run_manager=run_manager)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Avram\AppData\Local\Programs\Python\Python312\Lib\site-packages\langchain\chains\llm.py", line 138, in generate
    return self.llm.generate_prompt(
           ^^^^^^^^^^^^^^^^^^^^^^^^^
TypeError: LocalModel.generate_prompt() got multiple values for argument 'callbacks'

dosubot[bot] bot Aug 23, 2024

To resolve the TypeError: LocalModel.generate_prompt() got multiple values for argument 'callbacks', you need to ensure that the callbacks argument is not being passed multiple times. This error typically occurs when the callbacks argument is provided both in the function call and within the kwargs.

Here is how you can modify the generate_prompt and agenerate_prompt methods to avoid this error:

def generate_prompt(
    self,
    prompts: List[str],
    callbacks: Optional[List[BaseCallbackHandler]] = None,
    tags: Optional[List[str]] = None,
    metadata: Optional[Dict[str, Any]] = None,
    run_name: Optional[str] = None,
    **kwargs: Any,
) -> LLMResult:
    # Remove callbacks from kwargs if it exists
    kwargs.pop('callbacks', None)

    generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
    return LLMResult(generations=generations)

async def agenerate_prompt(
    self,
    prompts: List[str],
    callbacks: Optional[List[BaseCallbackHandler]] = None,
    tags: Optional[List[str]] = None,
    metadata: Optional[Dict[str, Any]] = None,
    run_name: Optional[str] = None,
    **kwargs: Any,
) -> LLMResult:
    # Remove callbacks from kwargs if it exists
    kwargs.pop('callbacks', None)

    generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
    return LLMResult(generations=generations)

Here is the updated code with these changes:

from typing import List, Optional, Dict, Any, Sequence
from pydantic import BaseModel
from langchain_core.language_models import BaseLanguageModel
from langchain_core.messages import AIMessage, BaseMessage
from langchain_core.outputs.generation import GenerationChunk
from langchain.schema import LLMResult
from langchain.callbacks.base import BaseCallbackHandler
from langchain_core.runnables import Runnable
from langchain.chains.question_answering import load_qa_chain
from PyPDF2 import PdfReader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from openai import OpenAI

#----------------------------------------------------------------------------------------------------
pdf_paths = [r"pdf1", r"pdf2"]  # List your PDF paths here

all_texts = []
metadata = []
for pdf_path in pdf_paths:
    reader = PdfReader(pdf_path)
    raw_text = ""
    for page in reader.pages:
        text = page.extract_text()
        if text:
            raw_text += text

    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=1200,
        chunk_overlap=250,
        length_function=len,
    )
    texts = text_splitter.split_text(raw_text)
    all_texts.extend(texts)
    metadata.extend([{"source": pdf_path}] * len(texts))


embeddings = OpenAIEmbeddings()
docsearch = FAISS.from_texts(all_texts, embeddings, metadatas=metadata)
# chain = load_qa_chain(OpenAI(), chain_type="stuff")
#----------------------------------------------------------------------------------------------------
# Point to the local server (Llama3 served on LM Studio locally)
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

# LocalModel class
class LocalModel(BaseLanguageModel):
    client: Any

    class Config:
        arbitrary_types_allowed = True  # Allow arbitrary types

    def __init__(self, client):
        super().__init__()
        self.client = client

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        history = [
            {"role": "system", "content": "You are an intelligent assistant."},
            {"role": "user", "content": prompt},
        ]

        completion = self.client.chat.completions.create(
            model="crusoeai/Llama-3-8B-Instruct-262k-GGUF",
            messages=history,
            temperature=0.7,
            stream=False,  # Use stream=True for streaming responses
        )

        return completion.choices[0].message["content"]

    async def _acall(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        return await run_in_executor(
            None,
            self._call,
            prompt,
            stop,
            run_manager.get_sync() if run_manager else None,
            **kwargs,
        )
    

    def generate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[BaseCallbackHandler]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        # Remove callbacks from kwargs if it exists
        kwargs.pop('callbacks', None)

        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    async def agenerate_prompt(
        self,
        prompts: List[str],
        callbacks: Optional[List[BaseCallbackHandler]] = None,
        tags: Optional[List[str]] = None,
        metadata: Optional[Dict[str, Any]] = None,
        run_name: Optional[str] = None,
        **kwargs: Any,
    ) -> LLMResult:
        # Remove callbacks from kwargs if it exists
        kwargs.pop('callbacks', None)
        
        generations = [[GenerationChunk(text="Generated response for: " + prompt)] for prompt in prompts]
        return LLMResult(generations=generations)

    def predict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return self._call(text, stop=list(stop) if stop else None, **kwargs)

    async def apredict(
        self, text: str, *, stop: Optional[Sequence[str]] = None, **kwargs: Any
    ) -> str:
        return await self._acall(text, stop=list(stop) if stop else None, **kwargs)

    def predict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = self._call(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    async def apredict_messages(
        self,
        messages: List[BaseMessage],
        *,
        stop: Optional[Sequence[str]] = None,
        **kwargs: Any,
    ) -> BaseMessage:
        text = get_buffer_string(messages)
        content = await self._acall(text, stop=list(stop) if stop else None, **kwargs)
        return AIMessage(content=content)

    def invoke(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[BaseCallbackHandler] = None,
        **kwargs: Any,
    ) -> str:
        return self._call(prompt, stop, run_manager, **kwargs)
    

print("---------------1--------------")

local_model = LocalModel(client=client)

print("---------------2--------------")

# Create the LLMChain using the custom local LLM
chain = load_qa_chain(local_model, chain_type="stuff")
print("---------------4--------------")

# Usage
query = "What is this collection of PDFs about?"
docs = docsearch.similarity_search(query)
inputs = {
    "input_documents": docs,
    "question": query
}
print(chain.invoke(inputs))
print("---------------5--------------")

This should resolve the TypeError by ensuring that the callbacks argument is not passed multiple times ^[1]^[2]^[3].

To continue talking to Dosu, mention @dosu.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Getting issue in using a custom local LLM with 'load_qa_chain' #25576

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 13 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Getting issue in using a custom local LLM with 'load_qa_chain' #25576

Uh oh!

Sameerk22 Aug 20, 2024

Checked other resources

Commit to Help

Example Code

Replies: 1 comment · 13 replies

Uh oh!

Sameerk22 Aug 20, 2024 Author

Uh oh!

dosubot[bot] bot Aug 21, 2024

Uh oh!

Sameerk22 Aug 23, 2024 Author

Uh oh!

dosubot[bot] bot Aug 23, 2024

Uh oh!

Sameerk22 Aug 23, 2024 Author

Uh oh!

dosubot[bot] bot Aug 23, 2024

Sameerk22
Aug 20, 2024

Replies: 1 comment 13 replies

Sameerk22
Aug 20, 2024
Author

Sameerk22 Aug 23, 2024
Author

Sameerk22 Aug 23, 2024
Author