Spaces:

espnet
/

SingingSDS

Sleeping

ms180 commited on Jul 4

Commit

87a2973

2 Parent(s): 0ad68fa 87f144d

Merge branch 'refactor' of github.com:Masao-Someki/SingingSDS-dev into feature/add_per

Files changed (2) hide show

evaluation/svs_eval.py CHANGED Viewed

@@ -102,7 +102,7 @@ def pypinyin_g2p_phone_without_prosody(text):
     return phones
-def eval_per(audio_path, model=None):
     audio_array, sr = librosa.load(audio_path, sr=16000)
     asr_result = asr_pipeline(
         audio_array,
@@ -133,12 +133,12 @@ def load_evaluators(config):
     return loaded
-def run_evaluation(audio_path, evaluators):
     results = {}
     if "singmos" in evaluators:
         results.update(eval_singmos(audio_path, evaluators["singmos"]))
     if "per" in evaluators:
-        results.update(eval_per(audio_path, evaluators["per"]))
     if "melody" in evaluators:
         results.update(eval_melody_metrics(audio_path, evaluators["melody"]))
     if "aesthetic" in evaluators:

     return phones
+def eval_per(audio_path, reference_text, model=None):
     audio_array, sr = librosa.load(audio_path, sr=16000)
     asr_result = asr_pipeline(
         audio_array,
     return loaded
+def run_evaluation(audio_path, evaluators, **kwargs):
     results = {}
     if "singmos" in evaluators:
         results.update(eval_singmos(audio_path, evaluators["singmos"]))
     if "per" in evaluators:
+        results.update(eval_per(audio_path, kwargs["llm_text"], evaluators["per"]))
     if "melody" in evaluators:
         results.update(eval_melody_metrics(audio_path, evaluators["melody"]))
     if "aesthetic" in evaluators:

interface.py CHANGED Viewed

@@ -24,6 +24,7 @@ class GradioInterface:
             self.character_info[self.current_character].default_voice
         ]
         self.pipeline = SingingDialoguePipeline(self.default_config)
     def load_config(self, path: str):
         with open(path, "r") as f:
@@ -211,21 +212,22 @@ class GradioInterface:
         if not audio_path:
             return gr.update(value=""), gr.update(value="")
         tmp_file = f"audio_{int(time.time())}_{uuid.uuid4().hex[:8]}.wav"
-        results = self.pipeline.run(
             audio_path,
             self.svs_model_map[self.current_svs_model]["lang"],
             self.character_info[self.current_character].prompt,
             self.current_voice,
             output_audio_path=tmp_file,
         )
-        formatted_logs = f"ASR: {results['asr_text']}\nLLM: {results['llm_text']}"
         return gr.update(value=formatted_logs), gr.update(
-            value=results["output_audio_path"]
         )
     def update_metrics(self, audio_path):
-        if not audio_path:
             return gr.update(value="")
-        results = self.pipeline.evaluate(audio_path)
         formatted_metrics = "\n".join([f"{k}: {v}" for k, v in results.items()])
         return gr.update(value=formatted_metrics)

             self.character_info[self.current_character].default_voice
         ]
         self.pipeline = SingingDialoguePipeline(self.default_config)
+        self.results = None
     def load_config(self, path: str):
         with open(path, "r") as f:
         if not audio_path:
             return gr.update(value=""), gr.update(value="")
         tmp_file = f"audio_{int(time.time())}_{uuid.uuid4().hex[:8]}.wav"
+        self.results = self.pipeline.run(
             audio_path,
             self.svs_model_map[self.current_svs_model]["lang"],
             self.character_info[self.current_character].prompt,
             self.current_voice,
             output_audio_path=tmp_file,
         )
+        formatted_logs = f"ASR: {self.results['asr_text']}\nLLM: {self.results['llm_text']}"
         return gr.update(value=formatted_logs), gr.update(
+            value=self.results["output_audio_path"]
         )
     def update_metrics(self, audio_path):
+        if not audio_path or not self.results:
             return gr.update(value="")
+        results = self.pipeline.evaluate(audio_path, **self.results)
+        results.update(self.results.get("metrics", {}))
         formatted_metrics = "\n".join([f"{k}: {v}" for k, v in results.items()])
         return gr.update(value=formatted_metrics)