Spaces:

ibombonato
/

Semantic-search-br

Sleeping

App Files Files Community

ibombonato commited on Jul 9

Commit

a793867

verified ·

1 Parent(s): 77a4274

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

app.py +21 -28

app.py CHANGED Viewed

@@ -1,30 +1,22 @@
 import gradio as gr
 import chromadb
 import pandas as pd
 from sentence_transformers import SentenceTransformer
-import nltk # Import the new library
 # --- 1. SETUP MODELS AND DATABASE ---
-# This setup runs once when the app starts.
-# Download the sentence tokenizer model from NLTK
-# This is a one-time download for the environment.
-try:
-    nltk.data.find('tokenizers/punkt')
-except nltk.downloader.DownloadError:
-    print("Downloading NLTK's 'punkt' model...")
-    nltk.download('punkt')
 print("Loading embedding model...")
-#SentenceTransformer('rufimelo/bert-large-portuguese-cased-sts')
 embedding_model = SentenceTransformer('rufimelo/bert-large-portuguese-cased-sts')
 client = chromadb.Client()
 collection = client.get_or_create_collection(
-    name="transcript_demo_hf_space_v2",
     metadata={"hnsw:space": "cosine"}
 )
 print("ChromaDB collection ready.")
@@ -32,15 +24,18 @@ print("ChromaDB collection ready.")
 # --- 2. CORE FUNCTIONS ---
 def index_transcript(transcript_text):
     """Chunks and indexes a full transcript into ChromaDB."""
     if not transcript_text.strip():
         return "Please paste a transcript before indexing.", pd.DataFrame()
-    # --- FIX: Use NLTK to split by sentence for more robust chunking ---
-    # The language parameter improves accuracy for Portuguese.
     chunks = nltk.sent_tokenize(transcript_text, language='portuguese')
-    # Filter out any very short, likely empty chunks
     chunks = [chunk.strip() for chunk in chunks if len(chunk.strip()) > 5]
     ids = [f"chunk_{i}" for i in range(len(chunks))]
@@ -48,7 +43,6 @@ def index_transcript(transcript_text):
         collection.delete(ids=collection.get()['ids'])
     collection.add(documents=chunks, ids=ids)
     indexed_df = pd.DataFrame({"Indexed Chunks": chunks})
     return f"✅ Indexed {len(chunks)} chunks successfully!", indexed_df
@@ -56,28 +50,27 @@ def search_transcript(query):
     """Searches the indexed transcript for a given query."""
     if not query.strip():
         return pd.DataFrame(), "Please enter a query."
     results = collection.query(query_texts=[query], n_results=3)
     if not results or not results['documents'][0]:
         return pd.DataFrame(), "No similar chunks found."
     documents = results['documents'][0]
     distances = results['distances'][0]
     similarities = [f"{1 - dist:.2f}" for dist in distances]
     df = pd.DataFrame({
         "Similarity Score": similarities,
         "Matching Chunk": documents
     })
     return df, "Search complete."
-# --- 3. GRADIO INTERFACE (No changes needed here) ---
-sample_transcript = """Operador: Bem-vindo à TechServices, meu nome é João. Como posso ajudar? Cliente: Olá, João. Estou muito frustrado. Minha conexão de internet não funciona há três dias. Operador: Entendo perfeitamente sua frustração. Ficar sem internet é muito ruim. Vou verificar o sistema agora mesmo para resolver isso. Cliente: É o mínimo que espero. Já é a terceira vez que isso acontece este mês. Operador: Lamento sinceramente por essa recorrência. Vejo aqui que há uma instabilidade na sua região. Posso agendar uma visita técnica para amanhã de manhã para trocar seu modem por um modelo mais novo, ou podemos tentar um procedimento de reinicialização remota agora mesmo. Qual você prefere? Cliente: Uma visita técnica seria bom. Pelo menos garante que alguém vai olhar isso direito. Operador: Combinado. Agendado para amanhã, entre 8h e 10h. O protocolo é 987654. Posso ajudar com mais alguma coisa? Cliente: Não, por enquanto é só isso. Obrigado."""
 with gr.Blocks(theme=gr.themes.Soft(), title="Guideline Compliance Tester") as demo:
     gr.Markdown("# 🤖 Guideline Compliance Prototype")
-    gr.Markdown("An interactive demo to test semantic search on call transcripts using ChromaDB.")
     with gr.Row():
         with gr.Column(scale=1):
             gr.Markdown("### 1. Index a Transcript")
@@ -87,10 +80,10 @@ with gr.Blocks(theme=gr.themes.Soft(), title="Guideline Compliance Tester") as d
             indexed_preview = gr.DataFrame(headers=["Indexed Chunks"], label="Indexed Data Preview", interactive=False)
         with gr.Column(scale=1):
             gr.Markdown("### 2. Search for Compliance")
-            query_input = gr.Textbox(label="Guideline Query", placeholder="Ex: O operador ofereceu duas opções?", info="Try queries like: 'O cliente mostrou insatisfação?' or 'O agente se desculpou pelo problema?'")
             search_button = gr.Button("Search", variant="primary")
             search_status = gr.Label(value="Status: Waiting for query.")
-            results_output = gr.DataFrame(headers=["Similarity Score", "Matching Chunk"], label="Search Results (Top 3)", interactive=False)
     index_button.click(fn=index_transcript, inputs=[transcript_input], outputs=[index_status, indexed_preview])
     search_button.click(fn=search_transcript, inputs=[query_input], outputs=[results_output, search_status])

 import gradio as gr
 import chromadb
 import pandas as pd
 from sentence_transformers import SentenceTransformer
+import nltk
 # --- 1. SETUP MODELS AND DATABASE ---
+# FIX: Directly download the 'punkt' model. This is the most robust method for deployment.
+print("Downloading NLTK's 'punkt' model...")
+nltk.download('punkt')
 print("Loading embedding model...")
 embedding_model = SentenceTransformer('rufimelo/bert-large-portuguese-cased-sts')
 client = chromadb.Client()
 collection = client.get_or_create_collection(
+    name="transcript_demo_br_model_final",
     metadata={"hnsw:space": "cosine"}
 )
 print("ChromaDB collection ready.")
 # --- 2. CORE FUNCTIONS ---
 def index_transcript(transcript_text):
     """Chunks and indexes a full transcript into ChromaDB."""
+    print("--- DEBUGGING ---")
+    print(f"Raw transcript received: '{transcript_text}'")
     if not transcript_text.strip():
         return "Please paste a transcript before indexing.", pd.DataFrame()
     chunks = nltk.sent_tokenize(transcript_text, language='portuguese')
     chunks = [chunk.strip() for chunk in chunks if len(chunk.strip()) > 5]
+    print(f"Number of chunks created: {len(chunks)}")
+    print(f"Chunks found: {chunks}")
+    print("--- END DEBUGGING ---")
     ids = [f"chunk_{i}" for i in range(len(chunks))]
         collection.delete(ids=collection.get()['ids'])
     collection.add(documents=chunks, ids=ids)
     indexed_df = pd.DataFrame({"Indexed Chunks": chunks})
     return f"✅ Indexed {len(chunks)} chunks successfully!", indexed_df
     """Searches the indexed transcript for a given query."""
     if not query.strip():
         return pd.DataFrame(), "Please enter a query."
     results = collection.query(query_texts=[query], n_results=3)
     if not results or not results['documents'][0]:
         return pd.DataFrame(), "No similar chunks found."
     documents = results['documents'][0]
     distances = results['distances'][0]
     similarities = [f"{1 - dist:.2f}" for dist in distances]
     df = pd.DataFrame({
         "Similarity Score": similarities,
         "Matching Chunk": documents
     })
     return df, "Search complete."
+# --- 3. GRADIO INTERFACE ---
+sample_transcript = """Atendente: Olá, bem-vindo à EletroMax. Meu nome é Sofia, em que posso ajudar?
+Cliente: Oi, Sofia. Eu comprei uma cafeteira no site de vocês na semana passada, e ela simplesmente parou de funcionar.
+Atendente: Puxa, que chato isso. Sinto muito pelo transtorno. Pode me informar o número do pedido para eu localizar sua compra?
+Cliente: Claro, o número é 11223344. Estou bem decepcionado, usei a cafeteira só duas vezes.
+"""
 with gr.Blocks(theme=gr.themes.Soft(), title="Guideline Compliance Tester") as demo:
     gr.Markdown("# 🤖 Guideline Compliance Prototype")
     with gr.Row():
         with gr.Column(scale=1):
             gr.Markdown("### 1. Index a Transcript")
             indexed_preview = gr.DataFrame(headers=["Indexed Chunks"], label="Indexed Data Preview", interactive=False)
         with gr.Column(scale=1):
             gr.Markdown("### 2. Search for Compliance")
+            query_input = gr.Textbox(label="Guideline Query", placeholder="Ex: O operador ofereceu duas opções?")
             search_button = gr.Button("Search", variant="primary")
             search_status = gr.Label(value="Status: Waiting for query.")
+            results_output = gr.DataFrame(headers=["Similarity Score", "Matching Chunk"], label="Search Results (Top 3)")
     index_button.click(fn=index_transcript, inputs=[transcript_input], outputs=[index_status, indexed_preview])
     search_button.click(fn=search_transcript, inputs=[query_input], outputs=[results_output, search_status])