TTS/tests/tts_tests/test_tacotron_layers.py

import unittest

import torch as T

from TTS.tts.layers.losses import L1LossMasked, SSIMLoss
from TTS.tts.layers.tacotron.tacotron import CBHG, Decoder, Encoder, Prenet
from TTS.tts.utils.data import sequence_mask

# pylint: disable=unused-variable


class PrenetTests(unittest.TestCase):
    def test_in_out(self):  # pylint: disable=no-self-use
        layer = Prenet(128, out_features=[256, 128])
        dummy_input = T.rand(4, 128)

        print(layer)
        output = layer(dummy_input)
        assert output.shape[0] == 4
        assert output.shape[1] == 128


class CBHGTests(unittest.TestCase):
    def test_in_out(self):
        # pylint: disable=attribute-defined-outside-init
        layer = self.cbhg = CBHG(
            128,
            K=8,
            conv_bank_features=80,
            conv_projections=[160, 128],
            highway_features=80,
            gru_features=80,
            num_highways=4,
        )
        # B x D x T
        dummy_input = T.rand(4, 128, 8)

        print(layer)
        output = layer(dummy_input)
        assert output.shape[0] == 4
        assert output.shape[1] == 8
        assert output.shape[2] == 160


class DecoderTests(unittest.TestCase):
    @staticmethod
    def test_in_out():
        layer = Decoder(
            in_channels=256,
            frame_channels=80,
            r=2,
            memory_size=4,
            attn_windowing=False,
            attn_norm="sigmoid",
            attn_K=5,
            attn_type="original",
            prenet_type="original",
            prenet_dropout=True,
            forward_attn=True,
            trans_agent=True,
            forward_attn_mask=True,
            location_attn=True,
            separate_stopnet=True,
        )
        dummy_input = T.rand(4, 8, 256)
        dummy_memory = T.rand(4, 2, 80)

        output, alignment, stop_tokens = layer(dummy_input, dummy_memory, mask=None)

        assert output.shape[0] == 4
        assert output.shape[1] == 80, "size not {}".format(output.shape[1])
        assert output.shape[2] == 2, "size not {}".format(output.shape[2])
        assert stop_tokens.shape[0] == 4


class EncoderTests(unittest.TestCase):
    def test_in_out(self):  # pylint: disable=no-self-use
        layer = Encoder(128)
        dummy_input = T.rand(4, 8, 128)

        print(layer)
        output = layer(dummy_input)
        print(output.shape)
        assert output.shape[0] == 4
        assert output.shape[1] == 8
        assert output.shape[2] == 256  # 128 * 2 BiRNN


class L1LossMaskedTests(unittest.TestCase):
    def test_in_out(self):  # pylint: disable=no-self-use
        # test input == target
        layer = L1LossMasked(seq_len_norm=False)
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.ones(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert output.item() == 0.0

        # test input != target
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert output.item() == 1.0, "1.0 vs {}".format(output.item())

        # test if padded values of input makes any difference
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert output.item() == 1.0, "1.0 vs {}".format(output.item())

        dummy_input = T.rand(4, 8, 128).float()
        dummy_target = dummy_input.detach()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert output.item() == 0, "0 vs {}".format(output.item())

        # seq_len_norm = True
        # test input == target
        layer = L1LossMasked(seq_len_norm=True)
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.ones(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert output.item() == 0.0

        # test input != target
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert output.item() == 1.0, "1.0 vs {}".format(output.item())

        # test if padded values of input makes any difference
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert abs(output.item() - 1.0) < 1e-5, "1.0 vs {}".format(output.item())

        dummy_input = T.rand(4, 8, 128).float()
        dummy_target = dummy_input.detach()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert output.item() == 0, "0 vs {}".format(output.item())


class SSIMLossTests(unittest.TestCase):
    def test_in_out(self):  # pylint: disable=no-self-use
        # test input == target
        layer = SSIMLoss()
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.ones(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert output.item() == 0.0

        # test input != target
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert abs(output.item() - 1.0) < 1e-4, "1.0 vs {}".format(output.item())

        # test if padded values of input makes any difference
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert abs(output.item() - 1.0) < 1e-4, "1.0 vs {}".format(output.item())

        dummy_input = T.rand(4, 8, 128).float()
        dummy_target = dummy_input.detach()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert output.item() == 0, "0 vs {}".format(output.item())

        # seq_len_norm = True
        # test input == target
        layer = L1LossMasked(seq_len_norm=True)
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.ones(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert output.item() == 0.0

        # test input != target
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.ones(4) * 8).long()
        output = layer(dummy_input, dummy_target, dummy_length)
        assert output.item() == 1.0, "1.0 vs {}".format(output.item())

        # test if padded values of input makes any difference
        dummy_input = T.ones(4, 8, 128).float()
        dummy_target = T.zeros(4, 8, 128).float()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert abs(output.item() - 1.0) < 1e-5, "1.0 vs {}".format(output.item())

        dummy_input = T.rand(4, 8, 128).float()
        dummy_target = dummy_input.detach()
        dummy_length = (T.arange(5, 9)).long()
        mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)
        output = layer(dummy_input + mask, dummy_target, dummy_length)
        assert output.item() == 0, "0 vs {}".format(output.item())
Testing of layers and documentation 2018-02-08 18:10:11 +00:00			`import unittest`
reformatting and styling 2021-04-12 09:47:39 +00:00
Testing of layers and documentation 2018-02-08 18:10:11 +00:00			`import torch as T`

ssim loss for tacotron models 2020-10-28 14:24:18 +00:00			`from TTS.tts.layers.losses import L1LossMasked, SSIMLoss`
reformatting and styling 2021-04-12 09:47:39 +00:00			`from TTS.tts.layers.tacotron.tacotron import CBHG, Decoder, Encoder, Prenet`
update `sequence_mask` import globally 2021-05-26 07:53:27 +00:00			`from TTS.tts.utils.data import sequence_mask`
Testing of layers and documentation 2018-02-08 18:10:11 +00:00
linter and test updates for speaker_encoder, gmm_Attention 2019-11-12 11:42:42 +00:00			`# pylint: disable=unused-variable`

Testing of layers and documentation 2018-02-08 18:10:11 +00:00
			`class PrenetTests(unittest.TestCase):`
reformatting and styling 2021-04-12 09:47:39 +00:00			`def test_in_out(self): # pylint: disable=no-self-use`
More layer tests 2018-02-13 16:08:23 +00:00			`layer = Prenet(128, out_features=[256, 128])`
Loss bug fix - target_flat vs target 2018-05-10 22:59:05 +00:00			`dummy_input = T.rand(4, 128)`
Testing of layers and documentation 2018-02-08 18:10:11 +00:00
More layer tests 2018-02-13 16:08:23 +00:00			`print(layer)`
			`output = layer(dummy_input)`
			`assert output.shape[0] == 4`
			`assert output.shape[1] == 128`
Testing of layers and documentation 2018-02-08 18:10:11 +00:00

			`class CBHGTests(unittest.TestCase):`
More layer tests 2018-02-13 16:08:23 +00:00			`def test_in_out(self):`
reformatting and styling 2021-04-12 09:47:39 +00:00			`# pylint: disable=attribute-defined-outside-init`
Testing update 2018-08-13 13:02:30 +00:00			`layer = self.cbhg = CBHG(`
			`128,`
			`K=8,`
			`conv_bank_features=80,`
			`conv_projections=[160, 128],`
			`highway_features=80,`
			`gru_features=80,`
reformatting and styling 2021-04-12 09:47:39 +00:00			`num_highways=4,`
			`)`
bug fixes, linter update and test updates 2019-10-29 13:28:49 +00:00			`# B x D x T`
docstrings for Tacotron models 2020-07-23 14:26:20 +00:00			`dummy_input = T.rand(4, 128, 8)`
Testing of layers and documentation 2018-02-08 18:10:11 +00:00
More layer tests 2018-02-13 16:08:23 +00:00			`print(layer)`
			`output = layer(dummy_input)`
			`assert output.shape[0] == 4`
			`assert output.shape[1] == 8`
Testing update 2018-08-13 13:02:30 +00:00			`assert output.shape[2] == 160`
Testing of layers and documentation 2018-02-08 18:10:11 +00:00

			`class DecoderTests(unittest.TestCase):`
Address additional lint problems 2019-07-19 09:35:06 +00:00			`@staticmethod`
			`def test_in_out():`
fix unittests for the latest updates 2019-07-19 09:12:48 +00:00			`layer = Decoder(`
docstrings for Tacotron models 2020-07-23 14:26:20 +00:00			`in_channels=256,`
			`frame_channels=80,`
fix unittests for the latest updates 2019-07-19 09:12:48 +00:00			`r=2,`
			`memory_size=4,`
			`attn_windowing=False,`
			`attn_norm="sigmoid",`
linter and test updates for speaker_encoder, gmm_Attention 2019-11-12 11:42:42 +00:00			`attn_K=5,`
			`attn_type="original",`
reformatting and styling 2021-04-12 09:47:39 +00:00			`prenet_type="original",`
fix unittests for the latest updates 2019-07-19 09:12:48 +00:00			`prenet_dropout=True,`
			`forward_attn=True,`
			`trans_agent=True,`
			`forward_attn_mask=True,`
			`location_attn=True,`
reformatting and styling 2021-04-12 09:47:39 +00:00			`separate_stopnet=True,`
			`)`
Loss bug fix - target_flat vs target 2018-05-10 22:59:05 +00:00			`dummy_input = T.rand(4, 8, 256)`
			`dummy_memory = T.rand(4, 2, 80)`
More layer tests 2018-02-13 16:08:23 +00:00
reformatting and styling 2021-04-12 09:47:39 +00:00			`output, alignment, stop_tokens = layer(dummy_input, dummy_memory, mask=None)`
pep8 check 2018-04-03 10:24:57 +00:00
More layer tests 2018-02-13 16:08:23 +00:00			`assert output.shape[0] == 4`
bug fixes, linter update and test updates 2019-10-29 13:28:49 +00:00			`assert output.shape[1] == 80, "size not {}".format(output.shape[1])`
			`assert output.shape[2] == 2, "size not {}".format(output.shape[2])`
Merge branch 'master' of https://github.com/Mozilla/TTS Conflicts: README.md best_model_config.json datasets/LJSpeech.py layers/tacotron.py notebooks/TacotronPlayGround.ipynb notebooks/utils.py tests/layers_tests.py tests/loader_tests.py tests/tacotron_tests.py train.py utils/generic_utils.py 2018-05-25 12:14:04 +00:00			`assert stop_tokens.shape[0] == 4`
pep8 check 2018-04-03 10:24:57 +00:00
reformatting and styling 2021-04-12 09:47:39 +00:00
More layer tests 2018-02-13 16:08:23 +00:00			`class EncoderTests(unittest.TestCase):`
reformatting and styling 2021-04-12 09:47:39 +00:00			`def test_in_out(self): # pylint: disable=no-self-use`
More layer tests 2018-02-13 16:08:23 +00:00			`layer = Encoder(128)`
Loss bug fix - target_flat vs target 2018-05-10 22:59:05 +00:00			`dummy_input = T.rand(4, 8, 128)`
More layer tests 2018-02-13 16:08:23 +00:00
			`print(layer)`
			`output = layer(dummy_input)`
			`print(output.shape)`
			`assert output.shape[0] == 4`
			`assert output.shape[1] == 8`
			`assert output.shape[2] == 256 # 128 * 2 BiRNN`
pep8 check 2018-04-03 10:24:57 +00:00
More layer tests 2018-02-13 16:08:23 +00:00
convert loss to layer and add test 2018-03-25 02:22:45 +00:00			`class L1LossMaskedTests(unittest.TestCase):`
reformatting and styling 2021-04-12 09:47:39 +00:00			`def test_in_out(self): # pylint: disable=no-self-use`
more loss tests 2019-11-15 13:30:28 +00:00			`# test input == target`
testing seq_len_norm 2020-01-27 15:02:34 +00:00			`layer = L1LossMasked(seq_len_norm=False)`
Loss bug fix - target_flat vs target 2018-05-10 22:59:05 +00:00			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.ones(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
convert loss to layer and add test 2018-03-25 02:22:45 +00:00			`output = layer(dummy_input, dummy_target, dummy_length)`
Loss bug fix - target_flat vs target 2018-05-10 22:59:05 +00:00			`assert output.item() == 0.0`
pep8 check 2018-04-03 10:24:57 +00:00
more loss tests 2019-11-15 13:30:28 +00:00			`# test input != target`
Loss bug fix - target_flat vs target 2018-05-10 22:59:05 +00:00			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
convert loss to layer and add test 2018-03-25 02:22:45 +00:00			`output = layer(dummy_input, dummy_target, dummy_length)`
testing seq_len_norm 2020-01-27 15:02:34 +00:00			`assert output.item() == 1.0, "1.0 vs {}".format(output.item())`
more loss tests 2019-11-15 13:30:28 +00:00
			`# test if padded values of input makes any difference`
Loss bug fix - target_flat vs target 2018-05-10 22:59:05 +00:00			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
convert loss to layer and add test 2018-03-25 02:22:45 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
testing seq_len_norm 2020-01-27 15:02:34 +00:00			`assert output.item() == 1.0, "1.0 vs {}".format(output.item())`
more loss tests 2019-11-15 13:30:28 +00:00
			`dummy_input = T.rand(4, 8, 128).float()`
			`dummy_target = dummy_input.detach()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
more loss tests 2019-11-15 13:30:28 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
testing seq_len_norm 2020-01-27 15:02:34 +00:00			`assert output.item() == 0, "0 vs {}".format(output.item())`

			`# seq_len_norm = True`
			`# test input == target`
			`layer = L1LossMasked(seq_len_norm=True)`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.ones(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
			`output = layer(dummy_input, dummy_target, dummy_length)`
			`assert output.item() == 0.0`

			`# test input != target`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
			`output = layer(dummy_input, dummy_target, dummy_length)`
			`assert output.item() == 1.0, "1.0 vs {}".format(output.item())`

			`# test if padded values of input makes any difference`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
testing seq_len_norm 2020-01-27 15:02:34 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
			`assert abs(output.item() - 1.0) < 1e-5, "1.0 vs {}".format(output.item())`

			`dummy_input = T.rand(4, 8, 128).float()`
			`dummy_target = dummy_input.detach()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
testing seq_len_norm 2020-01-27 15:02:34 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
			`assert output.item() == 0, "0 vs {}".format(output.item())`
ssim loss for tacotron models 2020-10-28 14:24:18 +00:00

			`class SSIMLossTests(unittest.TestCase):`
reformatting and styling 2021-04-12 09:47:39 +00:00			`def test_in_out(self): # pylint: disable=no-self-use`
ssim loss for tacotron models 2020-10-28 14:24:18 +00:00			`# test input == target`
			`layer = SSIMLoss()`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.ones(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
			`output = layer(dummy_input, dummy_target, dummy_length)`
			`assert output.item() == 0.0`

			`# test input != target`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
			`output = layer(dummy_input, dummy_target, dummy_length)`
a ton of linter updates 2021-03-08 04:06:54 +00:00			`assert abs(output.item() - 1.0) < 1e-4, "1.0 vs {}".format(output.item())`
ssim loss for tacotron models 2020-10-28 14:24:18 +00:00
			`# test if padded values of input makes any difference`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
ssim loss for tacotron models 2020-10-28 14:24:18 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
			`assert abs(output.item() - 1.0) < 1e-4, "1.0 vs {}".format(output.item())`

			`dummy_input = T.rand(4, 8, 128).float()`
			`dummy_target = dummy_input.detach()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
ssim loss for tacotron models 2020-10-28 14:24:18 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
			`assert output.item() == 0, "0 vs {}".format(output.item())`

			`# seq_len_norm = True`
			`# test input == target`
			`layer = L1LossMasked(seq_len_norm=True)`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.ones(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
			`output = layer(dummy_input, dummy_target, dummy_length)`
			`assert output.item() == 0.0`

			`# test input != target`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.ones(4) * 8).long()`
			`output = layer(dummy_input, dummy_target, dummy_length)`
			`assert output.item() == 1.0, "1.0 vs {}".format(output.item())`

			`# test if padded values of input makes any difference`
			`dummy_input = T.ones(4, 8, 128).float()`
			`dummy_target = T.zeros(4, 8, 128).float()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
ssim loss for tacotron models 2020-10-28 14:24:18 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
			`assert abs(output.item() - 1.0) < 1e-5, "1.0 vs {}".format(output.item())`

			`dummy_input = T.rand(4, 8, 128).float()`
			`dummy_target = dummy_input.detach()`
			`dummy_length = (T.arange(5, 9)).long()`
reformatting and styling 2021-04-12 09:47:39 +00:00			`mask = ((sequence_mask(dummy_length).float() - 1.0) * 100.0).unsqueeze(2)`
ssim loss for tacotron models 2020-10-28 14:24:18 +00:00			`output = layer(dummy_input + mask, dummy_target, dummy_length)`
			`assert output.item() == 0, "0 vs {}".format(output.item())`