Merge pull request #520 from SanjaESC/patch-1

fix taco2 speaker-embeddings dimension during inference
2021-06-02 09:32:24 +02:00 · 2021-06-02 09:32:24 +02:00 · ea31215087
parent f53bb9ab1b c1eb9bdcca
commit ea31215087
1 changed files with 2 additions and 0 deletions
--- a/TTS/tts/models/tacotron2.py
+++ b/TTS/tts/models/tacotron2.py
@ -255,6 +255,7 @@ class Tacotron2(TacotronAbstract):
        if self.num_speakers > 1:
            if not self.embeddings_per_sample:
                speaker_embeddings = self.speaker_embedding(speaker_ids)[:, None]
+                speaker_embeddings = torch.unsqueeze(speaker_embeddings, 0).transpose(1, 2)
            encoder_outputs = self._concat_speaker_embedding(encoder_outputs, speaker_embeddings)

        decoder_outputs, alignments, stop_tokens = self.decoder.inference(encoder_outputs)
@ -277,6 +278,7 @@ class Tacotron2(TacotronAbstract):
        if self.num_speakers > 1:
            if not self.embeddings_per_sample:
                speaker_embeddings = self.speaker_embedding(speaker_ids)[:, None]
+                speaker_embeddings = torch.unsqueeze(speaker_embeddings, 0).transpose(1, 2)
            encoder_outputs = self._concat_speaker_embedding(encoder_outputs, speaker_embeddings)

        mel_outputs, alignments, stop_tokens = self.decoder.inference_truncated(encoder_outputs)