TTS/utils/synthesis.py

import io
import time
import librosa
import torch
import numpy as np
from .text import text_to_sequence, phoneme_to_sequence
from .visual import visualize
from matplotlib import pylab as plt


def synthesis(m, s, CONFIG, use_cuda, ap):
    """ Given the text, synthesising the audio """
    text_cleaner = [CONFIG.text_cleaner]
    # print(phoneme_to_sequence(s, text_cleaner))s
    # print(sequence_to_phoneme(phoneme_to_sequence(s, text_cleaner)))
    if CONFIG.use_phonemes:
        seq = np.asarray(
            phoneme_to_sequence(s, text_cleaner, CONFIG.phoneme_language),
            dtype=np.int32)
    else:
        seq = np.asarray(text_to_sequence(s, text_cleaner), dtype=np.int32)
    chars_var = torch.from_numpy(seq).unsqueeze(0)
    if use_cuda:
        chars_var = chars_var.cuda()
    mel_spec, linear_spec, alignments, stop_tokens = m.forward(
        chars_var.long())
    linear_spec = linear_spec[0].data.cpu().numpy()
    mel_spec = mel_spec[0].data.cpu().numpy()
    alignment = alignments[0].cpu().data.numpy()
    wav = ap.inv_spectrogram(linear_spec.T)
    wav = wav[:ap.find_endpoint(wav)]
    return wav, alignment, linear_spec, mel_spec, stop_tokens
Batch update after data-loss 2018-11-02 15:13:51 +00:00			`import io`
			`import time`
			`import librosa`
			`import torch`
			`import numpy as np`
use phoneme to sequence for synthesis 2019-01-01 19:09:34 +00:00			`from .text import text_to_sequence, phoneme_to_sequence`
Batch update after data-loss 2018-11-02 15:13:51 +00:00			`from .visual import visualize`
			`from matplotlib import pylab as plt`


			`def synthesis(m, s, CONFIG, use_cuda, ap):`
			`""" Given the text, synthesising the audio """`
			`text_cleaner = [CONFIG.text_cleaner]`
enable phoneme based synthesizing 2019-01-16 14:53:07 +00:00			`# print(phoneme_to_sequence(s, text_cleaner))s`
Debug prints for phoneme extraction 2019-01-02 10:16:36 +00:00			`# print(sequence_to_phoneme(phoneme_to_sequence(s, text_cleaner)))`
enable phoneme based synthesizing 2019-01-16 14:53:07 +00:00			`if CONFIG.use_phonemes:`
			`seq = np.asarray(`
			`phoneme_to_sequence(s, text_cleaner, CONFIG.phoneme_language),`
			`dtype=np.int32)`
			`else:`
			`seq = np.asarray(text_to_sequence(s, text_cleaner), dtype=np.int32)`
Batch update after data-loss 2018-11-02 15:13:51 +00:00			`chars_var = torch.from_numpy(seq).unsqueeze(0)`
			`if use_cuda:`
			`chars_var = chars_var.cuda()`
enable phoneme based synthesizing 2019-01-16 14:53:07 +00:00			`mel_spec, linear_spec, alignments, stop_tokens = m.forward(`
			`chars_var.long())`
Batch update after data-loss 2018-11-02 15:13:51 +00:00			`linear_spec = linear_spec[0].data.cpu().numpy()`
Plot mel spectrogram if required 2018-11-13 11:10:40 +00:00			`mel_spec = mel_spec[0].data.cpu().numpy()`
Batch update after data-loss 2018-11-02 15:13:51 +00:00			`alignment = alignments[0].cpu().data.numpy()`
			`wav = ap.inv_spectrogram(linear_spec.T)`
explicit slience removal after voice synthesis in case of wrong stop token 2019-01-06 17:10:54 +00:00			`wav = wav[:ap.find_endpoint(wav)]`
Plot mel spectrogram if required 2018-11-13 11:10:40 +00:00			`return wav, alignment, linear_spec, mel_spec, stop_tokens`