agno-agi
diff --git a/‎cookbook/agent_concepts/knowledge/pdf_kb_async.py‎
Lines changed: 1 addition & 1 deletion b/‎cookbook/agent_concepts/knowledge/pdf_kb_async.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎cookbook/agent_concepts/knowledge/pdf_kb_password.py‎
Lines changed: 35 additions & 0 deletions b/‎cookbook/agent_concepts/knowledge/pdf_kb_password.py‎
Lines changed: 35 additions & 0 deletions
diff --git a/‎cookbook/agent_concepts/knowledge/pdf_kb_url_password.py‎
Lines changed: 30 additions & 0 deletions b/‎cookbook/agent_concepts/knowledge/pdf_kb_url_password.py‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎cookbook/agent_concepts/knowledge/vector_dbs/weaviate_db/weaviate_db_upsert.py‎
Lines changed: 80 additions & 0 deletions b/‎cookbook/agent_concepts/knowledge/vector_dbs/weaviate_db/weaviate_db_upsert.py‎
Lines changed: 80 additions & 0 deletions
diff --git a/‎libs/agno/agno/agent/agent.py‎
Lines changed: 1 addition & 1 deletion b/‎libs/agno/agno/agent/agent.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎libs/agno/agno/document/reader/pdf_reader.py‎
Lines changed: 69 additions & 13 deletions b/‎libs/agno/agno/document/reader/pdf_reader.py‎
Lines changed: 69 additions & 13 deletions
@@ -10,7 +10,7 @@
 
 # Create a knowledge base with the PDFs from the data/pdfs directory
 knowledge_base = PDFKnowledgeBase(
-    path="data/pdf",
+    path="data/pdf",  # for password-protected PDFs, use path=[{"path": "tmp/ThaiRecipes_protected.pdf", "password": "ThaiRecipes"}],
     vector_db=vector_db,
     reader=PDFReader(chunk=True),
 )
 
@@ -0,0 +1,35 @@
+from agno.agent import Agent
+from agno.knowledge.pdf import PDFKnowledgeBase
+from agno.utils.media import download_file
+from agno.vectordb.pgvector import PgVector
+
+db_url = "postgresql+psycopg://ai:ai@localhost:5532/ai"
+download_file(
+    "https://agno-public.s3.us-east-1.amazonaws.com/recipes/ThaiRecipes_protected.pdf",
+    "ThaiRecipes_protected.pdf",
+)
+
+# Create a knowledge base with simplified password handling
+knowledge_base = PDFKnowledgeBase(
+    path=[
+        {
+            "path": "ThaiRecipes_protected.pdf",
+            "password": "ThaiRecipes",
+        }
+    ],
+    vector_db=PgVector(
+        table_name="pdf_documents_password",
+        db_url=db_url,
+    ),
+)
+# Load the knowledge base
+knowledge_base.load(recreate=True)
+
+# Create an agent with the knowledge base
+agent = Agent(
+    knowledge=knowledge_base,
+    search_knowledge=True,
+    show_tool_calls=True,
+)
+
+agent.print_response("Give me the recipe for pad thai")
@@ -0,0 +1,30 @@
+from agno.agent import Agent
+from agno.knowledge.pdf_url import PDFUrlKnowledgeBase
+from agno.vectordb.pgvector import PgVector
+
+db_url = "postgresql+psycopg://ai:ai@localhost:5532/ai"
+
+# Create a knowledge base with simplified password handling
+knowledge_base = PDFUrlKnowledgeBase(
+    urls=[
+        {
+            "url": "https://agno-public.s3.us-east-1.amazonaws.com/recipes/ThaiRecipes_protected.pdf",
+            "password": "ThaiRecipes",
+        }
+    ],
+    vector_db=PgVector(
+        table_name="pdf_documents_password",
+        db_url=db_url,
+    ),
+)
+# Load the knowledge base
+knowledge_base.load(recreate=True)
+
+# Create an agent with the knowledge base
+agent = Agent(
+    knowledge=knowledge_base,
+    search_knowledge=True,
+    show_tool_calls=True,
+)
+
+agent.print_response("Give me the recipe for pad thai")
@@ -0,0 +1,80 @@
+"""
+This example demonstrates using Weaviate as a vector database.
+
+Installation:
+    pip install weaviate-client
+
+You can use either Weaviate Cloud or a local instance.
+
+Weaviate Cloud Setup:
+1. Create account at https://console.weaviate.cloud/
+2. Create a cluster and copy the "REST endpoint" and "Admin" API Key. Then set environment variables:
+    export WCD_URL="your-cluster-url" 
+    export WCD_API_KEY="your-api-key"
+
+Local Development Setup:
+1. Install Docker from https://docs.docker.com/get-docker/
+2. Run Weaviate locally:
+    docker run -d \
+        -p 8080:8080 \
+        -p 50051:50051 \
+        --name weaviate \
+        cr.weaviate.io/semitechnologies/weaviate:1.28.4
+   or use the script `cookbook/scripts/run_weviate.sh` to start a local instance.
+3. Remember to set `local=True` on the Weaviate instantiation.
+"""
+
+from agno.knowledge.pdf_url import PDFUrlKnowledgeBase
+from agno.knowledge.document import DocumentKnowledgeBase
+from agno.document import Document
+from agno.vectordb.search import SearchType
+from agno.vectordb.weaviate import Distance, VectorIndex, Weaviate
+from agno.utils.log import set_log_level_to_debug
+
+from agno.embedder.sentence_transformer import SentenceTransformerEmbedder
+embedder = SentenceTransformerEmbedder()
+
+vector_db = Weaviate(
+    collection="recipes",
+    search_type=SearchType.hybrid,
+    vector_index=VectorIndex.HNSW,
+    distance=Distance.COSINE,
+    embedder=embedder,
+    local=True,  # Set to False if using Weaviate Cloud and True if using local instance
+)
+# Create knowledge base
+knowledge_base = PDFUrlKnowledgeBase(
+    urls=["https://agno-public.s3.amazonaws.com/recipes/ThaiRecipes.pdf"],
+    vector_db=vector_db,
+)
+
+vector_db.drop()
+set_log_level_to_debug()
+
+knowledge_base.load(recreate=False, upsert=True)
+
+print("Knowledge base loaded with PDF content. Loading the same data again will not recreate it.")
+knowledge_base.load(recreate=False, upsert=True)
+
+print("First example finished. Now dropping the knowledge base.")
+vector_db.drop()
+
+doc1 = Document(content="my first content", name="doc1")
+doc1_modified = Document(content="my first content corrected", name="doc1")
+doc2 = Document(content="my second content", name="doc2")
+
+knowledge_base = DocumentKnowledgeBase(
+    documents=[doc1, doc2],
+    vector_db=vector_db,
+)
+knowledge_base_changed = DocumentKnowledgeBase(
+    documents=[doc1_modified, doc2],
+    vector_db=vector_db,
+)
+
+print("\n\nStart second example. Load initial data...")
+knowledge_base.load(recreate=False, upsert=True)
+print("\nNow uploading the changed data...")
+knowledge_base_changed.load(recreate=False, upsert=True)
+print("Example finished. Now dropping the knowledge base.")
+vector_db.drop()
@@ -6872,7 +6872,7 @@ def add_to_knowledge(self, query: str, result: str) -> str:
             document_name = query.replace(" ", "_").replace("?", "").replace("!", "").replace(".", "")
         document_content = json.dumps({"query": query, "result": result})
         log_info(f"Adding document to knowledge base: {document_name}: {document_content}")
-        self.knowledge.add_document_to_knowledge_base(
+        self.knowledge.load_document(
             document=Document(
                 name=document_name,
                 content=document_content,
 
@@ -7,7 +7,7 @@
 from agno.document.base import Document
 from agno.document.reader.base import Reader
 from agno.utils.http import async_fetch_with_retry, fetch_with_retry
-from agno.utils.log import log_info, logger
+from agno.utils.log import log_error, log_info, logger
 
 try:
     from pypdf import PdfReader as DocumentReader  # noqa: F401
@@ -177,6 +177,7 @@ def __init__(
         split_on_pages: bool = True,
         page_start_numbering_format: Optional[str] = None,
         page_end_numbering_format: Optional[str] = None,
+        password: Optional[str] = None,
         **kwargs,
     ):
         if page_start_numbering_format is None:
@@ -187,6 +188,7 @@ def __init__(
         self.split_on_pages = split_on_pages
         self.page_start_numbering_format = page_start_numbering_format
         self.page_end_numbering_format = page_end_numbering_format
+        self.password = password
 
         super().__init__(**kwargs)
 
@@ -196,6 +198,28 @@ def _build_chunked_documents(self, documents: List[Document]) -> List[Document]:
             chunked_documents.extend(self.chunk_document(document))
         return chunked_documents
 
+    def _decrypt_pdf(self, doc_reader: DocumentReader, doc_name: str, password: Optional[str] = None) -> bool:
+        if not doc_reader.is_encrypted:
+            return True
+
+        # Use provided password or fall back to instance password
+        pdf_password = password or self.password
+        if not pdf_password:
+            logger.error(f"PDF {doc_name} is password protected but no password provided")
+            return False
+
+        try:
+            decrypted_pdf = doc_reader.decrypt(pdf_password)
+            if decrypted_pdf:
+                log_info(f"Successfully decrypted PDF {doc_name} with user password")
+                return True
+            else:
+                log_error(f"Failed to decrypt PDF {doc_name}: incorrect password")
+                return False
+        except Exception as e:
+            log_error(f"Error decrypting PDF {doc_name}: {e}")
+            return False
+
     def _create_documents(self, pdf_content: List[str], doc_name: str, use_uuid_for_id: bool, page_number_shift):
         if self.split_on_pages:
             shift = page_number_shift if page_number_shift is not None else 1
@@ -282,7 +306,7 @@ async def _read_pdf_page(page, read_images) -> Tuple[str, str]:
 class PDFReader(BasePDFReader):
     """Reader for PDF files"""
 
-    def read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
+    def read(self, pdf: Union[str, Path, IO[Any]], password: Optional[str] = None) -> List[Document]:
         try:
             if isinstance(pdf, str):
                 doc_name = pdf.split("/")[-1].split(".")[0].replace(" ", "_")
@@ -299,10 +323,14 @@ def read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
             logger.error(f"Error reading PDF: {e}")
             return []
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return self._pdf_reader_to_documents(pdf_reader, doc_name, use_uuid_for_id=True)
 
-    async def async_read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
+    async def async_read(self, pdf: Union[str, Path, IO[Any]], password: Optional[str] = None) -> List[Document]:
         try:
             if isinstance(pdf, str):
                 doc_name = pdf.split("/")[-1].split(".")[0].replace(" ", "_")
@@ -319,18 +347,22 @@ async def async_read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
             logger.error(f"Error reading PDF: {e}")
             return []
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return await self._async_pdf_reader_to_documents(pdf_reader, doc_name, use_uuid_for_id=True)
 
 
 class PDFUrlReader(BasePDFReader):
     """Reader for PDF files from URL"""
 
-    def __init__(self, proxy: Optional[str] = None, **kwargs):
-        super().__init__(**kwargs)
+    def __init__(self, proxy: Optional[str] = None, password: Optional[str] = None, **kwargs):
+        super().__init__(password=password, **kwargs)
         self.proxy = proxy
 
-    def read(self, url: str) -> List[Document]:
+    def read(self, url: str, password: Optional[str] = None) -> List[Document]:
         if not url:
             raise ValueError("No url provided")
 
@@ -344,10 +376,14 @@ def read(self, url: str) -> List[Document]:
         doc_name = url.split("/")[-1].split(".")[0].replace("/", "_").replace(" ", "_")
         pdf_reader = DocumentReader(BytesIO(response.content))
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return self._pdf_reader_to_documents(pdf_reader, doc_name, use_uuid_for_id=False)
 
-    async def async_read(self, url: str) -> List[Document]:
+    async def async_read(self, url: str, password: Optional[str] = None) -> List[Document]:
         if not url:
             raise ValueError("No url provided")
 
@@ -364,14 +400,18 @@ async def async_read(self, url: str) -> List[Document]:
         doc_name = url.split("/")[-1].split(".")[0].replace("/", "_").replace(" ", "_")
         pdf_reader = DocumentReader(BytesIO(response.content))
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return await self._async_pdf_reader_to_documents(pdf_reader, doc_name, use_uuid_for_id=False)
 
 
 class PDFImageReader(BasePDFReader):
     """Reader for PDF files with text and images extraction"""
 
-    def read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
+    def read(self, pdf: Union[str, Path, IO[Any]], password: Optional[str] = None) -> List[Document]:
         if not pdf:
             raise ValueError("No pdf provided")
 
@@ -386,10 +426,14 @@ def read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
         log_info(f"Reading: {doc_name}")
         pdf_reader = DocumentReader(pdf)
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return self._pdf_reader_to_documents(pdf_reader, doc_name, read_images=True, use_uuid_for_id=False)
 
-    async def async_read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
+    async def async_read(self, pdf: Union[str, Path, IO[Any]], password: Optional[str] = None) -> List[Document]:
         if not pdf:
             raise ValueError("No pdf provided")
 
@@ -404,18 +448,22 @@ async def async_read(self, pdf: Union[str, Path, IO[Any]]) -> List[Document]:
         log_info(f"Reading: {doc_name}")
         pdf_reader = DocumentReader(pdf)
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return await self._async_pdf_reader_to_documents(pdf_reader, doc_name, read_images=True, use_uuid_for_id=False)
 
 
 class PDFUrlImageReader(BasePDFReader):
     """Reader for PDF files from URL with text and images extraction"""
 
-    def __init__(self, proxy: Optional[str] = None, **kwargs):
-        super().__init__(**kwargs)
+    def __init__(self, proxy: Optional[str] = None, password: Optional[str] = None, **kwargs):
+        super().__init__(password=password, **kwargs)
         self.proxy = proxy
 
-    def read(self, url: str) -> List[Document]:
+    def read(self, url: str, password: Optional[str] = None) -> List[Document]:
         if not url:
             raise ValueError("No url provided")
 
@@ -430,10 +478,14 @@ def read(self, url: str) -> List[Document]:
         doc_name = url.split("/")[-1].split(".")[0].replace(" ", "_")
         pdf_reader = DocumentReader(BytesIO(response.content))
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return self._pdf_reader_to_documents(pdf_reader, doc_name, read_images=True, use_uuid_for_id=False)
 
-    async def async_read(self, url: str) -> List[Document]:
+    async def async_read(self, url: str, password: Optional[str] = None) -> List[Document]:
         if not url:
             raise ValueError("No url provided")
 
@@ -451,5 +503,9 @@ async def async_read(self, url: str) -> List[Document]:
         doc_name = url.split("/")[-1].split(".")[0].replace(" ", "_")
         pdf_reader = DocumentReader(BytesIO(response.content))
 
+        # Handle PDF decryption
+        if not self._decrypt_pdf(pdf_reader, doc_name, password):
+            return []
+
         # Read and chunk.
         return await self._async_pdf_reader_to_documents(pdf_reader, doc_name, read_images=True, use_uuid_for_id=False)
Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@`
`10`	`10`
`11`	`11`	`# Create a knowledge base with the PDFs from the data/pdfs directory`
`12`	`12`	`knowledge_base = PDFKnowledgeBase(`
`13`		`- path="data/pdf",`
	`13`	`+ path="data/pdf", # for password-protected PDFs, use path=[{"path": "tmp/ThaiRecipes_protected.pdf", "password": "ThaiRecipes"}],`
`14`	`14`	`vector_db=vector_db,`
`15`	`15`	`reader=PDFReader(chunk=True),`
`16`	`16`	`)`