Spaces:

WJ88
/

Parakeet-TDT-v3-ASR-Demo_Real-Time_Mic-File_Transcription

Runtime error

App Files Files Community

WJ88 commited on Oct 18

Commit

4b17dd2

verified ·

1 Parent(s): 85b6293

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -7

app.py CHANGED Viewed

@@ -27,7 +27,7 @@ MODEL_NAME   = os.environ.get("PARAKEET_MODEL", "nvidia/parakeet-tdt-0.6b-v3")
 TARGET_SR    = 16_000
 BEAM_SIZE    = int(os.environ.get("PARAKEET_BEAM_SIZE", "32"))  # Increased for subtle quality gains
 OFFLINE_BATCH= int(os.environ.get("PARAKEET_BATCH", "8"))
-CHUNK_S      = float(os.environ.get("PARAKEET_CHUNK_S", "4.0"))
 FLUSH_PAD_S  = float(os.environ.get("PARAKEET_FLUSH_PAD_S", "2.0"))
 # ----------------------------
@@ -108,9 +108,9 @@ class ParakeetManager:
         self._set_malsd_beam()
         # Enable encoder caching for better streaming context (per NeMo docs/tutorials)
-        # if hasattr(self.model.encoder, "set_default_att_context_size"):
-        #     self.model.encoder.set_default_att_context_size([512, 16])  # Large left for cumulative context, small right for buffering
-        #     logger.info("encoder_caching_enabled left=512 right=16")
         logger.info(f"model_loaded strategy=malsd_batch beam_size={BEAM_SIZE}")
@@ -191,7 +191,12 @@ class StreamingSession:
             self.pending = self.pending[C:]
             try:
                 self.hyp = self.mgr.stream_step(chunk, self.hyp)
-                self.text = getattr(self.hyp, "text", self.text)  # Simple overwrite: trusts cumulative hyp.text
             except Exception:
                 logger.exception("mic_step failed")
                 break
@@ -202,11 +207,17 @@ class StreamingSession:
             final = np.concatenate([self.pending, pad])
             try:
                 self.hyp = self.mgr.stream_step(final, self.hyp)
-                self.text = getattr(self.hyp, "text", self.text)  # Simple overwrite: trusts cumulative hyp.text
             except Exception:
                 logger.exception("mic_flush failed")
         self.pending = np.zeros(0, dtype=np.float32)
-        return self.text  # No forced punctuation—let model handle it
 # ----------------------------
 # Simple session registry (avoid deepcopy in gr.State)

 TARGET_SR    = 16_000
 BEAM_SIZE    = int(os.environ.get("PARAKEET_BEAM_SIZE", "32"))  # Increased for subtle quality gains
 OFFLINE_BATCH= int(os.environ.get("PARAKEET_BATCH", "8"))
+CHUNK_S      = float(os.environ.get("PARAKEET_CHUNK_S", "2.0"))
 FLUSH_PAD_S  = float(os.environ.get("PARAKEET_FLUSH_PAD_S", "2.0"))
 # ----------------------------
         self._set_malsd_beam()
         # Enable encoder caching for better streaming context (per NeMo docs/tutorials)
+        if hasattr(self.model.encoder, "set_default_att_context_size"):
+            self.model.encoder.set_default_att_context_size([512, 16])  # Large left for cumulative context, small right for buffering
+            logger.info("encoder_caching_enabled left=512 right=16")
         logger.info(f"model_loaded strategy=malsd_batch beam_size={BEAM_SIZE}")
             self.pending = self.pending[C:]
             try:
                 self.hyp = self.mgr.stream_step(chunk, self.hyp)
+                new_text = getattr(self.hyp, "text", "")
+                if new_text:
+                    if self.text and new_text.startswith(self.text):  # If cumulative (partial extends), replace with extended
+                        self.text = new_text
+                    else:  # Else append (handles per-chunk case)
+                        self.text += (' ' if self.text else '') + new_text
             except Exception:
                 logger.exception("mic_step failed")
                 break
             final = np.concatenate([self.pending, pad])
             try:
                 self.hyp = self.mgr.stream_step(final, self.hyp)
+                new_text = getattr(self.hyp, "text", "")
+                if new_text:
+                    if self.text and new_text.startswith(self.text):
+                        self.text = new_text
+                    else:
+                        self.text += (' ' if self.text else '') + new_text
+                self.text += '.'  # Add period for sentence closure on flush
             except Exception:
                 logger.exception("mic_flush failed")
         self.pending = np.zeros(0, dtype=np.float32)
+        return self.text
 # ----------------------------
 # Simple session registry (avoid deepcopy in gr.State)