Spaces:

shallou
/

pdfchatbot

Sleeping

App Files Files Community

shallou commited on Aug 14, 2024

Commit

b35ee0f

verified ·

1 Parent(s): 729f4d4

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -33

app.py CHANGED Viewed

@@ -1,76 +1,71 @@
-import streamlit as st
 from dotenv import load_dotenv
 import pickle
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.vectorstores import FAISS
-from langchain.llms import OpenAI
 from langchain.chains.question_answering import load_qa_chain
 from langchain.callbacks import get_openai_callback
 import os
 load_dotenv()
 def main():
     st.header("LLM-powered PDF Chatbot 💬")
-    # upload a PDF file
     pdf = st.file_uploader("Upload your PDF", type='pdf')
-    # st.write(pdf)
     if pdf is not None:
         pdf_reader = PdfReader(pdf)
         text = ""
         for page in pdf_reader.pages:
             text += page.extract_text()
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=1000,
             chunk_overlap=200,
             length_function=len
-            )
         chunks = text_splitter.split_text(text=text)
-        # # embeddings
         store_name = pdf.name[:-4]
         st.write(f'{store_name}')
-        # st.write(chunks)
         if os.path.exists(f"{store_name}.pkl"):
             with open(f"{store_name}.pkl", "rb") as f:
                 VectorStore = pickle.load(f)
-            # st.write('Embeddings Loaded from the Disk')s
         else:
-            embeddings = OpenAIEmbeddings()
             VectorStore = FAISS.from_texts(chunks, embedding=embeddings)
             with open(f"{store_name}.pkl", "wb") as f:
                 pickle.dump(VectorStore, f)
-        # embeddings = OpenAIEmbeddings()
-        # VectorStore = FAISS.from_texts(chunks, embedding=embeddings)
         # Accept user questions/query
         query = st.text_input("Ask questions about your PDF file:")
-        # st.write(query)
         if query:
             docs = VectorStore.similarity_search(query=query, k=3)
-            llm = OpenAI()
             chain = load_qa_chain(llm=llm, chain_type="stuff")
             with get_openai_callback() as cb:
                 response = chain.run(input_documents=docs, question=query)
                 print(cb)
             st.write(response)
 if __name__ == '__main__':
     main()
 def set_bg_from_url(url, opacity=1):
     footer = """
     <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.2.0/dist/css/bootstrap.min.css" rel="stylesheet" integrity="sha384-gH2yIJqKdNHPEq0n4Mqa/HGKIhSkIHeL5AyhkYV8i59U5AR6csBvApHHNl/vI1Bx" crossorigin="anonymous">
     <footer>
@@ -92,10 +87,9 @@ def set_bg_from_url(url, opacity=1):
             </p>
         </div>
     </footer>
-"""
     st.markdown(footer, unsafe_allow_html=True)
     # Set background image using HTML and CSS
     st.markdown(
         f"""
@@ -111,4 +105,4 @@ def set_bg_from_url(url, opacity=1):
     )
 # Set background image from URL
-set_bg_from_url("https://www.1access.com/wp-content/uploads/2019/10/GettyImages-1180389186.jpg", opacity=0.875)

 from dotenv import load_dotenv
+import streamlit as st
 import pickle
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
+from langchain.llms import HuggingFace
 from langchain.chains.question_answering import load_qa_chain
 from langchain.callbacks import get_openai_callback
 import os
+# Load environment variables from .env file
 load_dotenv()
 def main():
     st.header("LLM-powered PDF Chatbot 💬")
+    # Upload a PDF file
     pdf = st.file_uploader("Upload your PDF", type='pdf')
     if pdf is not None:
         pdf_reader = PdfReader(pdf)
         text = ""
         for page in pdf_reader.pages:
             text += page.extract_text()
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=1000,
             chunk_overlap=200,
             length_function=len
+        )
         chunks = text_splitter.split_text(text=text)
+        # Process and store embeddings
         store_name = pdf.name[:-4]
         st.write(f'{store_name}')
         if os.path.exists(f"{store_name}.pkl"):
             with open(f"{store_name}.pkl", "rb") as f:
                 VectorStore = pickle.load(f)
+            st.write('Embeddings Loaded from the Disk')
         else:
+            embeddings = HuggingFaceEmbeddings()
             VectorStore = FAISS.from_texts(chunks, embedding=embeddings)
             with open(f"{store_name}.pkl", "wb") as f:
                 pickle.dump(VectorStore, f)
         # Accept user questions/query
         query = st.text_input("Ask questions about your PDF file:")
         if query:
             docs = VectorStore.similarity_search(query=query, k=3)
+            # Use Hugging Face model for question answering
+            model_name = "distilbert-base-uncased-distilled-squad"  # Example model
+            llm = HuggingFace(model_name=model_name)
             chain = load_qa_chain(llm=llm, chain_type="stuff")
             with get_openai_callback() as cb:
                 response = chain.run(input_documents=docs, question=query)
                 print(cb)
             st.write(response)
 if __name__ == '__main__':
     main()
 def set_bg_from_url(url, opacity=1):
     footer = """
     <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.2.0/dist/css/bootstrap.min.css" rel="stylesheet" integrity="sha384-gH2yIJqKdNHPEq0n4Mqa/HGKIhSkIHeL5AyhkYV8i59U5AR6csBvApHHNl/vI1Bx" crossorigin="anonymous">
     <footer>
             </p>
         </div>
     </footer>
+    """
     st.markdown(footer, unsafe_allow_html=True)
     # Set background image using HTML and CSS
     st.markdown(
         f"""
     )
 # Set background image from URL
+set_bg_from_url("https://www.1access.com/wp-content/uploads/2019/10/GettyImages-1180389186.jpg", opacity=0.875)