Spaces:

LocaleNLP
/

localenlp_models

Sleeping

App Files Files Community

Mgolo commited on Aug 14

Commit

d333245

verified ·

1 Parent(s): 80c5d50

Rename app (2).py to app.py

Browse files

Files changed (1) hide show

app (2).py → app.py +42 -72

app (2).py → app.py RENAMED Viewed

@@ -1,4 +1,4 @@
-import streamlit as st
 from transformers import pipeline, MarianTokenizer, AutoModelForSeq2SeqLM
 import torch
 import unicodedata
@@ -6,7 +6,6 @@ import re
 import whisper
 import tempfile
 import os
 import nltk
 nltk.download('punkt')
 from nltk.tokenize import sent_tokenize
@@ -18,18 +17,15 @@ from bs4 import BeautifulSoup
 import markdown2
 import chardet
 # --- Device selection ---
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 # --- Load translation models ---
-@st.cache_resource
 def load_models():
     en_dar_model_path = "/LocaleNLP/English_Hausa"
     en_wol_model_path = "/LocaleNLP/eng_wolof"
     en_hau_model_path = "/LocaleNLP/English_Darija"
     en_dar_model = AutoModelForSeq2SeqLM.from_pretrained(en_dar_model_path).to(device)
     en_dar_tokenizer = MarianTokenizer.from_pretrained(en_dar_model_path)
@@ -45,7 +41,6 @@ def load_models():
     return en_dar_translator, en_hau_translator, en_wol_translator
-@st.cache_resource
 def load_whisper_model():
     return whisper.load_model("base")
@@ -54,7 +49,7 @@ def transcribe_audio(audio_path):
     return whisper_model.transcribe(audio_path)["text"]
 def translate(text, target_lang):
-    en_bm_translator, en_dar_translator, en_hau_translator, en_wol_translator = load_models()
     if target_lang == "Darija (Morocco)":
         translator = en_dar_translator
@@ -66,7 +61,6 @@ def translate(text, target_lang):
         raise ValueError("Unsupported target language")
     lang_tag = {
         "Darija (Morocco)": ">>dar<<",
         "Hausa (Nigeria)": ">>hau<<",
         "Wolof (Senegal)": ">>wol<<"
@@ -124,70 +118,46 @@ def extract_text_from_file(uploaded_file):
         else:
             raise ValueError("Unsupported file type")
-# --- Main Streamlit App ---
-def main():
-    st.set_page_config(page_title="LocaleNLP Translator", layout="wide", initial_sidebar_state="expanded")
-    with st.sidebar:
-        st.image("localenpl5.jpeg", use_container_width=True)
-        st.markdown("""
-        <h3 style='text-align: left; color: #4B8BBE;'>🌐 Models Overview</h3>
-        At <b>LocaleNLP</b>, we develop AI-powered NLP tools for low-resource languages across Africa and Asia.
-        📌 This application showcases translation using custom MarianMT models trained on bilingual datasets in English and Bambara, Darija, Hausa, and Wolof.
-        """, unsafe_allow_html=True)
-    st.markdown("""<h4 style='text-align: center; color: #306998;'>Translate between English, Darija, Hausa and Wolof</h4>""", unsafe_allow_html=True)
-    col1, col2 = st.columns(2)
-    with col1:
-        input_mode = st.selectbox("Select input mode:", ("Text", "Audio", "File"))
-        st.markdown("""<hr>""", unsafe_allow_html=True)
-    with col2:
-        target_lang = st.selectbox("Select target language:", ("Darija (Morocco)", "Hausa (Nigeria)", "Wolof (Senegal)"))
-        st.markdown("""<hr>""", unsafe_allow_html=True)
-    col3, col4 = st.columns(2)
-    with col3:
-        input_text = ""
-        if input_mode == "Text":
-            input_text = st.text_area("✏️ Enter English text:", height=250)
-        elif input_mode == "Audio":
-            audio_file = st.file_uploader("🔊 Upload audio (.wav, .mp3, .m4a)", type=["wav", "mp3", "m4a"])
-            if audio_file:
-                with tempfile.NamedTemporaryFile(delete=False, suffix=f".{audio_file.type.split('/')[-1]}") as tmp:
-                    tmp.write(audio_file.read())
-                    tmp_path = tmp.name
-                with st.spinner("Transcribing..."):
-                    input_text = transcribe_audio(tmp_path)
-                    os.remove(tmp_path)
-                    st.text_area("📝 Transcribed Text:", value=input_text, height=150)
-        elif input_mode == "File":
-            uploaded_file = st.file_uploader("📄 Upload document (PDF, Word, HTML, Markdown, SRT)", type=["pdf", "docx", "html", "htm", "md", "srt", "txt"])
-            if uploaded_file:
-                try:
-                    input_text = extract_text_from_file(uploaded_file)
-                    st.text_area("📃 Extracted Text:", value=input_text, height=200)
-                except Exception as e:
-                    st.error(f"Error extracting text: {str(e)}")
-    with col4:
-        if input_text:
-            with st.spinner("Translating..."):
-                translated_text = translate(input_text, target_lang)
-            st.write("Output in "+ target_lang+ " language")
-            st.success(translated_text)
-            # Optional download
-            st.download_button(
-                label="💾 Download Translation",
-                data=translated_text,
-                file_name=f"translated_{target_lang.replace(' ', '_').lower()}.txt",
-                mime="text/plain"
-            )
-        else:
-            st.info("Translation will appear here.")
-    st.markdown("""<hr><div style='text-align: center; color: #4B8BBE; font-size: 0.9rem'>LocaleNLP © 2025 • Empowering communities through AI and language</div>""", unsafe_allow_html=True)
 if __name__ == "__main__":
-    main()

+import gradio as gr
 from transformers import pipeline, MarianTokenizer, AutoModelForSeq2SeqLM
 import torch
 import unicodedata
 import whisper
 import tempfile
 import os
 import nltk
 nltk.download('punkt')
 from nltk.tokenize import sent_tokenize
 import markdown2
 import chardet
 # --- Device selection ---
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 # --- Load translation models ---
 def load_models():
     en_dar_model_path = "/LocaleNLP/English_Hausa"
     en_wol_model_path = "/LocaleNLP/eng_wolof"
     en_hau_model_path = "/LocaleNLP/English_Darija"
     en_dar_model = AutoModelForSeq2SeqLM.from_pretrained(en_dar_model_path).to(device)
     en_dar_tokenizer = MarianTokenizer.from_pretrained(en_dar_model_path)
     return en_dar_translator, en_hau_translator, en_wol_translator
 def load_whisper_model():
     return whisper.load_model("base")
     return whisper_model.transcribe(audio_path)["text"]
 def translate(text, target_lang):
+    en_dar_translator, en_hau_translator, en_wol_translator = load_models()
     if target_lang == "Darija (Morocco)":
         translator = en_dar_translator
         raise ValueError("Unsupported target language")
     lang_tag = {
         "Darija (Morocco)": ">>dar<<",
         "Hausa (Nigeria)": ">>hau<<",
         "Wolof (Senegal)": ">>wol<<"
         else:
             raise ValueError("Unsupported file type")
+# --- Main Gradio Function ---
+def process(input_mode, target_lang, text_input, audio_input, file_input):
+    input_text = ""
+    if input_mode == "Text" and text_input:
+        input_text = text_input
+    elif input_mode == "Audio" and audio_input:
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
+            tmp.write(audio_input.read())
+            tmp_path = tmp.name
+        input_text = transcribe_audio(tmp_path)
+        os.remove(tmp_path)
+    elif input_mode == "File" and file_input:
+        input_text = extract_text_from_file(file_input)
+    if not input_text.strip():
+        return "", "No input text provided."
+    translated_text = translate(input_text, target_lang)
+    return input_text, translated_text
+# --- Gradio Interface ---
+with gr.Blocks() as demo:
+    gr.Markdown("## 🌐 LocaleNLP Translator — English ↔ Darija / Hausa / Wolof")
+    with gr.Row():
+        input_mode = gr.Dropdown(["Text", "Audio", "File"], label="Select input mode")
+        target_lang = gr.Dropdown(["Darija (Morocco)", "Hausa (Nigeria)", "Wolof (Senegal)"], label="Select target language")
+    with gr.Row():
+        text_input = gr.Textbox(label="Enter English text", lines=10)
+        audio_input = gr.Audio(type="file", label="Upload Audio")
+        file_input = gr.File(label="Upload Document")
+    with gr.Row():
+        extracted_text = gr.Textbox(label="Extracted / Transcribed Text", lines=10)
+        translated_output = gr.Textbox(label="Translated Text", lines=10)
+    run_btn = gr.Button("Translate")
+    run_btn.click(process, inputs=[input_mode, target_lang, text_input, audio_input, file_input], outputs=[extracted_text, translated_output])
 if __name__ == "__main__":
+    demo.launch()