TTS/models/tacotron.py

# coding: utf-8
import torch
from torch import nn
from utils.text.symbols import symbols
from layers.tacotron import Prenet, Encoder, Decoder, CBHG


class Tacotron(nn.Module):
    def __init__(self, embedding_dim=256, linear_dim=1025, mel_dim=80,
                 r=5, padding_idx=None):
        super(Tacotron, self).__init__()
        self.r = r
        self.mel_dim = mel_dim
        self.linear_dim = linear_dim
        self.embedding = nn.Embedding(len(symbols), embedding_dim,
                                      padding_idx=padding_idx)
        print(" | > Number of characters : {}".format(len(symbols)))
        self.embedding.weight.data.normal_(0, 0.3)
        self.encoder = Encoder(embedding_dim)
        self.decoder = Decoder(256, mel_dim, r)
        self.postnet = CBHG(mel_dim, K=8, projections=[256, mel_dim])
        self.last_linear = nn.Linear(mel_dim * 2, linear_dim)

    def forward(self, characters, mel_specs=None, text_lens=None):
        B = characters.size(0)
        inputs = self.embedding(characters)
        # batch x time x dim
        encoder_outputs = self.encoder(inputs)
        # batch x time x dim*r
        mel_outputs, alignments, stop_tokens = self.decoder(
            encoder_outputs, mel_specs, text_lens)
        # Reshape
        # batch x time x dim
        mel_outputs = mel_outputs.view(B, -1, self.mel_dim)
        linear_outputs = self.postnet(mel_outputs)
        linear_outputs = self.last_linear(linear_outputs)
        return mel_outputs, linear_outputs, alignments, stop_tokens
New files 2018-01-22 14:59:41 +00:00			`# coding: utf-8`
			`import torch`
			`from torch import nn`
fix import statements 2018-06-21 14:33:30 +00:00			`from utils.text.symbols import symbols`
			`from layers.tacotron import Prenet, Encoder, Decoder, CBHG`
New files 2018-01-22 14:59:41 +00:00
More layer tests 2018-02-13 16:08:23 +00:00
New files 2018-01-22 14:59:41 +00:00			`class Tacotron(nn.Module):`
			`def __init__(self, embedding_dim=256, linear_dim=1025, mel_dim=80,`
Remove useless config argument 2018-03-28 16:43:29 +00:00			`r=5, padding_idx=None):`
New files 2018-01-22 14:59:41 +00:00			`super(Tacotron, self).__init__()`
Stop token prediction - does train yet 2018-03-22 19:34:16 +00:00			`self.r = r`
New files 2018-01-22 14:59:41 +00:00			`self.mel_dim = mel_dim`
			`self.linear_dim = linear_dim`
			`self.embedding = nn.Embedding(len(symbols), embedding_dim,`
			`padding_idx=padding_idx)`
stop token prediction update for tacotron model 2018-05-11 11:15:06 +00:00			`print(" \| > Number of characters : {}".format(len(symbols)))`
New files 2018-01-22 14:59:41 +00:00			`self.embedding.weight.data.normal_(0, 0.3)`
			`self.encoder = Encoder(embedding_dim)`
updates and debugs 2018-02-13 09:45:52 +00:00			`self.decoder = Decoder(256, mel_dim, r)`
New files 2018-01-22 14:59:41 +00:00			`self.postnet = CBHG(mel_dim, K=8, projections=[256, mel_dim])`
Remove useless config argument 2018-03-28 16:43:29 +00:00			`self.last_linear = nn.Linear(mel_dim * 2, linear_dim)`
New files 2018-01-22 14:59:41 +00:00
Attn masking 2018-07-13 12:50:55 +00:00			`def forward(self, characters, mel_specs=None, text_lens=None):`
New files 2018-01-22 14:59:41 +00:00			`B = characters.size(0)`
			`inputs = self.embedding(characters)`
pep8 check 2018-04-03 10:24:57 +00:00			`# batch x time x dim`
A big revision: visualization, data loader, tests 2018-02-04 16:25:00 +00:00			`encoder_outputs = self.encoder(inputs)`
pep8 check 2018-04-03 10:24:57 +00:00			`# batch x time x dim*r`
stop token prediction update for tacotron model 2018-05-11 11:15:06 +00:00			`mel_outputs, alignments, stop_tokens = self.decoder(`
Attn masking 2018-07-13 12:50:55 +00:00			`encoder_outputs, mel_specs, text_lens)`
New files 2018-01-22 14:59:41 +00:00			`# Reshape`
pep8 check 2018-04-03 10:24:57 +00:00			`# batch x time x dim`
New files 2018-01-22 14:59:41 +00:00			`mel_outputs = mel_outputs.view(B, -1, self.mel_dim)`
			`linear_outputs = self.postnet(mel_outputs)`
			`linear_outputs = self.last_linear(linear_outputs)`
stop token prediction update for tacotron model 2018-05-11 11:15:06 +00:00			`return mel_outputs, linear_outputs, alignments, stop_tokens`