diff --git a/etc/test_sentences/ru.txt b/etc/test_sentences/ru.txt new file mode 100644 index 0000000..6856f36 --- /dev/null +++ b/etc/test_sentences/ru.txt @@ -0,0 +1,6 @@ +Ра́дуга, атмосферное, оптическое и метеорологическое явление, наблюдаемое при освещении ярким источником света множества водяных капель. +Радуга выглядит как разноцветная дуга или окружность, составленная из цветов спектра видимого излучения. +Это те семь цветов, которые принято выделять в радуге в русской культуре, но следует иметь в виду, что на самом деле спектр непрерывен, и его цвета плавно переходят друг в друга через множество промежуточных оттенков. +Широкая электрификация южных губерний даст мощный толчок подъёму сельского хозяйства. +Разъяренный чтец эгоистично бьёт пятью жердями шустрого фехтовальщика. +В чащах юга жил бы цитрус? Да, но фальшивый экземпляр! diff --git a/etc/test_sentences/test_ru.jsonl b/etc/test_sentences/test_ru.jsonl new file mode 100644 index 0000000..4ec4674 --- /dev/null +++ b/etc/test_sentences/test_ru.jsonl @@ -0,0 +1,6 @@ +{"text": "Ра́дуга, атмосферное, оптическое и метеорологическое явление, наблюдаемое при освещении ярким источником света множества водяных капель.", "phonemes": ["r", "a", "d", "ˈ", "u", "ɡ", "a", ",", " ", "a", "t", "m", "ʌ", "s", "f", "ʲ", "ˈ", "e", "r", "n", "ʌ", "j", "ɪ", ",", " ", "ʌ", "p", "t", "ʲ", "ˈ", "i", "t", "ʃ", "ʲ", "i", "s", "k", "ʌ", "j", "ɪ", " ", "ˈ", "i", " ", "m", "ʲ", "i", "t", "ʲ", "i", "ʌ", "r", "ʌ", "ɭ", "ʌ", "ɡ", "ʲ", "ˈ", "i", "t", "ʃ", "ʲ", "i", "s", "k", "ʌ", "j", "ɪ", " ", "j", "a", "v", "ɭ", "ʲ", "ˈ", "e", "n", "ʲ", "i", "j", "ɪ", ",", " ", "n", "ʌ", "b", "ɭ", "ʲ", "u", "\"", "d", "ˈ", "ɑ", "j", "i", "m", "ʌ", "j", "ɪ", " ", "p", "r", "ʲ", "ˈ", "i", " ", "ʌ", "s", "v", "ʲ", "i", "ɕ", "ˈ", "e", "n", "ʲ", "i", "ɪ", " ", "ˈ", "j", "a", "r", "k", "ʲ", "i", "m", " ", "ɪ", "s", "t", "ˈ", "o", "t", "ʃ", "ʲ", "n", "ʲ", "i", "k", "ʌ", "m", " ", "s", "v", "ʲ", "ˈ", "e", "t", "a", " ", "m", "n", "ˈ", "o", "ʒ", "y", "s", "t", "v", "a", " ", "v", "ʌ", "d", "ʲ", "a", "n", "ˈ", "y", "x", " ", "k", "ˈ", "ɑ", "p", "ʲ", "i", "ɭ", "."], "phoneme_ids": [1, 0, 30, 0, 14, 0, 17, 0, 120, 0, 33, 0, 66, 0, 14, 0, 8, 0, 3, 0, 14, 0, 32, 0, 25, 0, 102, 0, 31, 0, 19, 0, 119, 0, 120, 0, 18, 0, 30, 0, 26, 0, 102, 0, 22, 0, 74, 0, 8, 0, 3, 0, 102, 0, 28, 0, 32, 0, 119, 0, 120, 0, 21, 0, 32, 0, 96, 0, 119, 0, 21, 0, 31, 0, 23, 0, 102, 0, 22, 0, 74, 0, 3, 0, 120, 0, 21, 0, 3, 0, 25, 0, 119, 0, 21, 0, 32, 0, 119, 0, 21, 0, 102, 0, 30, 0, 102, 0, 77, 0, 102, 0, 66, 0, 119, 0, 120, 0, 21, 0, 32, 0, 96, 0, 119, 0, 21, 0, 31, 0, 23, 0, 102, 0, 22, 0, 74, 0, 3, 0, 22, 0, 14, 0, 34, 0, 77, 0, 119, 0, 120, 0, 18, 0, 26, 0, 119, 0, 21, 0, 22, 0, 74, 0, 8, 0, 3, 0, 26, 0, 102, 0, 15, 0, 77, 0, 119, 0, 33, 0, 150, 0, 17, 0, 120, 0, 51, 0, 22, 0, 21, 0, 25, 0, 102, 0, 22, 0, 74, 0, 3, 0, 28, 0, 30, 0, 119, 0, 120, 0, 21, 0, 3, 0, 102, 0, 31, 0, 34, 0, 119, 0, 21, 0, 55, 0, 120, 0, 18, 0, 26, 0, 119, 0, 21, 0, 74, 0, 3, 0, 120, 0, 22, 0, 14, 0, 30, 0, 23, 0, 119, 0, 21, 0, 25, 0, 3, 0, 74, 0, 31, 0, 32, 0, 120, 0, 27, 0, 32, 0, 96, 0, 119, 0, 26, 0, 119, 0, 21, 0, 23, 0, 102, 0, 25, 0, 3, 0, 31, 0, 34, 0, 119, 0, 120, 0, 18, 0, 32, 0, 14, 0, 3, 0, 25, 0, 26, 0, 120, 0, 27, 0, 108, 0, 37, 0, 31, 0, 32, 0, 34, 0, 14, 0, 3, 0, 34, 0, 102, 0, 17, 0, 119, 0, 14, 0, 26, 0, 120, 0, 37, 0, 36, 0, 3, 0, 23, 0, 120, 0, 51, 0, 28, 0, 119, 0, 21, 0, 77, 0, 10, 0, 2]} +{"text": "Радуга выглядит как разноцветная дуга или окружность, составленная из цветов спектра видимого излучения.", "phonemes": ["r", "ˈ", "ɑ", "d", "u", "ɡ", "a", " ", "v", "ˈ", "y", "ɡ", "ɭ", "ʲ", "ʌ", "d", "ʲ", "i", "t", " ", "k", "ˈ", "ɑ", "k", " ", "r", "ʌ", "z", "n", "ʌ", "t", "s", "v", "ʲ", "ˈ", "e", "t", "n", "ʌ", "j", "a", " ", "d", "u", "ɡ", "ˈ", "ɑ", " ", "ˈ", "i", "ɭ", "ʲ", "ɪ", " ", "ʌ", "k", "r", "ˈ", "u", "ʒ", "n", "ʌ", "s", "t", "ʲ", ",", " ", "s", "ʌ", "s", "t", "ˈ", "ɑ", "v", "ɭ", "ʲ", "i", "n", "n", "ʌ", "j", "a", " ", "ˈ", "i", "s", " ", "t", "s", "v", "ʲ", "i", "t", "ˈ", "o", "f", " ", "s", "p", "ʲ", "ˈ", "e", "k", "t", "r", "a", " ", "v", "ʲ", "ˈ", "i", "d", "ʲ", "i", "m", "ʌ", "v", "ʌ", " ", "ɪ", "z", "ɭ", "u", "t", "ʃ", "ʲ", "ˈ", "e", "n", "ʲ", "i", "j", "a", "."], "phoneme_ids": [1, 0, 30, 0, 120, 0, 51, 0, 17, 0, 33, 0, 66, 0, 14, 0, 3, 0, 34, 0, 120, 0, 37, 0, 66, 0, 77, 0, 119, 0, 102, 0, 17, 0, 119, 0, 21, 0, 32, 0, 3, 0, 23, 0, 120, 0, 51, 0, 23, 0, 3, 0, 30, 0, 102, 0, 38, 0, 26, 0, 102, 0, 32, 0, 31, 0, 34, 0, 119, 0, 120, 0, 18, 0, 32, 0, 26, 0, 102, 0, 22, 0, 14, 0, 3, 0, 17, 0, 33, 0, 66, 0, 120, 0, 51, 0, 3, 0, 120, 0, 21, 0, 77, 0, 119, 0, 74, 0, 3, 0, 102, 0, 23, 0, 30, 0, 120, 0, 33, 0, 108, 0, 26, 0, 102, 0, 31, 0, 32, 0, 119, 0, 8, 0, 3, 0, 31, 0, 102, 0, 31, 0, 32, 0, 120, 0, 51, 0, 34, 0, 77, 0, 119, 0, 21, 0, 26, 0, 26, 0, 102, 0, 22, 0, 14, 0, 3, 0, 120, 0, 21, 0, 31, 0, 3, 0, 32, 0, 31, 0, 34, 0, 119, 0, 21, 0, 32, 0, 120, 0, 27, 0, 19, 0, 3, 0, 31, 0, 28, 0, 119, 0, 120, 0, 18, 0, 23, 0, 32, 0, 30, 0, 14, 0, 3, 0, 34, 0, 119, 0, 120, 0, 21, 0, 17, 0, 119, 0, 21, 0, 25, 0, 102, 0, 34, 0, 102, 0, 3, 0, 74, 0, 38, 0, 77, 0, 33, 0, 32, 0, 96, 0, 119, 0, 120, 0, 18, 0, 26, 0, 119, 0, 21, 0, 22, 0, 14, 0, 10, 0, 2]} +{"text": "Это те семь цветов, которые принято выделять в радуге в русской культуре, но следует иметь в виду, что на самом деле спектр непрерывен, и его цвета плавно переходят друг в друга через множество промежуточных оттенков.", "phonemes": ["ˈ", "ɛ", "t", "ʌ", " ", "t", "ʲ", "ˈ", "e", " ", "s", "ʲ", "ˈ", "e", "m", "ʲ", " ", "t", "s", "v", "ʲ", "i", "t", "ˈ", "o", "f", ",", " ", "k", "ʌ", "t", "ˈ", "o", "r", "y", "j", "ɪ", " ", "p", "r", "ʲ", "ˈ", "i", "n", "ʲ", "ʌ", "t", "ʌ", " ", "v", "y", "d", "ʲ", "i", "ɭ", "ʲ", "ˈ", "ɑ", "t", "ʲ", " ", "v", " ", "r", "ˈ", "ɑ", "d", "u", "ɡ", "ʲ", "i", " ", "v", " ", "r", "ˈ", "u", "s", "s", "k", "ʌ", "j", " ", "k", "u", "ɭ", "t", "ˈ", "u", "r", "ʲ", "i", ",", " ", "n", "o", " ", "s", "ɭ", "ʲ", "ˈ", "e", "d", "u", "j", "i", "t", " ", "ɪ", "m", "ʲ", "ˈ", "e", "t", "ʲ", " ", "v", " ", "v", "ʲ", "ˈ", "i", "d", "u", ",", " ", "ʃ", "t", "o", " ", "n", "ə", " ", "s", "ˈ", "ɑ", "m", "ʌ", "m", " ", "d", "ʲ", "ˈ", "e", "ɭ", "ʲ", "i", " ", "s", "p", "ʲ", "ˈ", "e", "k", "t", "r", " ", "n", "ʲ", "i", "p", "r", "ʲ", "i", "r", "ˈ", "y", "v", "ʲ", "i", "n", ",", " ", "ˈ", "i", " ", "j", "ɪ", "v", "ˈ", "o", " ", "t", "s", "v", "ʲ", "ˈ", "e", "t", "a", " ", "p", "ɭ", "ˈ", "ɑ", "v", "n", "ʌ", " ", "p", "ʲ", "i", "r", "ʲ", "i", "x", "ˈ", "o", "d", "ʲ", "ʌ", "t", " ", "d", "r", "ˈ", "u", "k", " ", "v", " ", "d", "r", "ˈ", "u", "ɡ", "a", " ", "t", "ʃ", "ʲ", "ˈ", "e", "r", "ʲ", "i", "s", " ", "m", "n", "ˈ", "o", "ʒ", "y", "s", "t", "v", "ʌ", " ", "p", "r", "ʌ", "m", "ʲ", "i", "ʒ", "ˈ", "u", "t", "ʌ", "t", "ʃ", "ʲ", "n", "y", "x", " ", "ʌ", "t", "ʲ", "t", "ʲ", "ˈ", "e", "n", "k", "ʌ", "f", "."], "phoneme_ids": [1, 0, 120, 0, 61, 0, 32, 0, 102, 0, 3, 0, 32, 0, 119, 0, 120, 0, 18, 0, 3, 0, 31, 0, 119, 0, 120, 0, 18, 0, 25, 0, 119, 0, 3, 0, 32, 0, 31, 0, 34, 0, 119, 0, 21, 0, 32, 0, 120, 0, 27, 0, 19, 0, 8, 0, 3, 0, 23, 0, 102, 0, 32, 0, 120, 0, 27, 0, 30, 0, 37, 0, 22, 0, 74, 0, 3, 0, 28, 0, 30, 0, 119, 0, 120, 0, 21, 0, 26, 0, 119, 0, 102, 0, 32, 0, 102, 0, 3, 0, 34, 0, 37, 0, 17, 0, 119, 0, 21, 0, 77, 0, 119, 0, 120, 0, 51, 0, 32, 0, 119, 0, 3, 0, 34, 0, 3, 0, 30, 0, 120, 0, 51, 0, 17, 0, 33, 0, 66, 0, 119, 0, 21, 0, 3, 0, 34, 0, 3, 0, 30, 0, 120, 0, 33, 0, 31, 0, 31, 0, 23, 0, 102, 0, 22, 0, 3, 0, 23, 0, 33, 0, 77, 0, 32, 0, 120, 0, 33, 0, 30, 0, 119, 0, 21, 0, 8, 0, 3, 0, 26, 0, 27, 0, 3, 0, 31, 0, 77, 0, 119, 0, 120, 0, 18, 0, 17, 0, 33, 0, 22, 0, 21, 0, 32, 0, 3, 0, 74, 0, 25, 0, 119, 0, 120, 0, 18, 0, 32, 0, 119, 0, 3, 0, 34, 0, 3, 0, 34, 0, 119, 0, 120, 0, 21, 0, 17, 0, 33, 0, 8, 0, 3, 0, 96, 0, 32, 0, 27, 0, 3, 0, 26, 0, 59, 0, 3, 0, 31, 0, 120, 0, 51, 0, 25, 0, 102, 0, 25, 0, 3, 0, 17, 0, 119, 0, 120, 0, 18, 0, 77, 0, 119, 0, 21, 0, 3, 0, 31, 0, 28, 0, 119, 0, 120, 0, 18, 0, 23, 0, 32, 0, 30, 0, 3, 0, 26, 0, 119, 0, 21, 0, 28, 0, 30, 0, 119, 0, 21, 0, 30, 0, 120, 0, 37, 0, 34, 0, 119, 0, 21, 0, 26, 0, 8, 0, 3, 0, 120, 0, 21, 0, 3, 0, 22, 0, 74, 0, 34, 0, 120, 0, 27, 0, 3, 0, 32, 0, 31, 0, 34, 0, 119, 0, 120, 0, 18, 0, 32, 0, 14, 0, 3, 0, 28, 0, 77, 0, 120, 0, 51, 0, 34, 0, 26, 0, 102, 0, 3, 0, 28, 0, 119, 0, 21, 0, 30, 0, 119, 0, 21, 0, 36, 0, 120, 0, 27, 0, 17, 0, 119, 0, 102, 0, 32, 0, 3, 0, 17, 0, 30, 0, 120, 0, 33, 0, 23, 0, 3, 0, 34, 0, 3, 0, 17, 0, 30, 0, 120, 0, 33, 0, 66, 0, 14, 0, 3, 0, 32, 0, 96, 0, 119, 0, 120, 0, 18, 0, 30, 0, 119, 0, 21, 0, 31, 0, 3, 0, 25, 0, 26, 0, 120, 0, 27, 0, 108, 0, 37, 0, 31, 0, 32, 0, 34, 0, 102, 0, 3, 0, 28, 0, 30, 0, 102, 0, 25, 0, 119, 0, 21, 0, 108, 0, 120, 0, 33, 0, 32, 0, 102, 0, 32, 0, 96, 0, 119, 0, 26, 0, 37, 0, 36, 0, 3, 0, 102, 0, 32, 0, 119, 0, 32, 0, 119, 0, 120, 0, 18, 0, 26, 0, 23, 0, 102, 0, 19, 0, 10, 0, 2]} +{"text": "Широкая электрификация южных губерний даст мощный толчок подъёму сельского хозяйства.", "phonemes": ["ʃ", "y", "r", "ˈ", "o", "k", "ʌ", "j", "a", " ", "ɛ", "ɭ", "ʲ", "i", "k", "t", "r", "ʲ", "i", "f", "ʲ", "i", "k", "ˈ", "ɑ", "t", "s", "y", "j", "a", " ", "ˈ", "j", "u", "ʒ", "n", "y", "x", " ", "ɡ", "u", "b", "ʲ", "ˈ", "e", "r", "n", "ʲ", "i", "j", " ", "d", "ˈ", "ɑ", "s", "t", " ", "m", "ˈ", "o", "ɕ", "n", "y", "j", " ", "t", "ʌ", "ɭ", "t", "ʃ", "ʲ", "ˈ", "o", "k", " ", "p", "ʌ", "d", "j", "ˈ", "ɵ", "m", "u", " ", "s", "ʲ", "ˈ", "e", "ɭ", "s", "k", "ʌ", "v", "ʌ", " ", "x", "ʌ", "ʑ", "ˈ", "ɑ", "j", "s", "t", "v", "a", "."], "phoneme_ids": [1, 0, 96, 0, 37, 0, 30, 0, 120, 0, 27, 0, 23, 0, 102, 0, 22, 0, 14, 0, 3, 0, 61, 0, 77, 0, 119, 0, 21, 0, 23, 0, 32, 0, 30, 0, 119, 0, 21, 0, 19, 0, 119, 0, 21, 0, 23, 0, 120, 0, 51, 0, 32, 0, 31, 0, 37, 0, 22, 0, 14, 0, 3, 0, 120, 0, 22, 0, 33, 0, 108, 0, 26, 0, 37, 0, 36, 0, 3, 0, 66, 0, 33, 0, 15, 0, 119, 0, 120, 0, 18, 0, 30, 0, 26, 0, 119, 0, 21, 0, 22, 0, 3, 0, 17, 0, 120, 0, 51, 0, 31, 0, 32, 0, 3, 0, 25, 0, 120, 0, 27, 0, 55, 0, 26, 0, 37, 0, 22, 0, 3, 0, 32, 0, 102, 0, 77, 0, 32, 0, 96, 0, 119, 0, 120, 0, 27, 0, 23, 0, 3, 0, 28, 0, 102, 0, 17, 0, 22, 0, 120, 0, 85, 0, 25, 0, 33, 0, 3, 0, 31, 0, 119, 0, 120, 0, 18, 0, 77, 0, 31, 0, 23, 0, 102, 0, 34, 0, 102, 0, 3, 0, 36, 0, 102, 0, 107, 0, 120, 0, 51, 0, 22, 0, 31, 0, 32, 0, 34, 0, 14, 0, 10, 0, 2]} +{"text": "Разъяренный чтец эгоистично бьёт пятью жердями шустрого фехтовальщика.", "phonemes": ["r", "ʌ", "z", "j", "j", "a", "r", "ʲ", "ˈ", "e", "n", "n", "y", "j", " ", "t", "ʃ", "ʲ", "t", "ʲ", "ˈ", "e", "t", "s", " ", "ɛ", "ɡ", "ʌ", "i", "s", "ʲ", "t", "ʲ", "ˈ", "i", "t", "ʃ", "ʲ", "n", "ʌ", " ", "b", "j", "ˈ", "ɵ", "t", " ", "p", "ʲ", "ˈ", "ɑ", "t", "ʲ", "j", "j", "u", " ", "ʒ", "y", "r", "d", "ʲ", "ˈ", "ɑ", "m", "ʲ", "ɪ", " ", "ʃ", "ˈ", "u", "s", "t", "r", "ʌ", "v", "ʌ", " ", "f", "ʲ", "i", "x", "t", "ʌ", "v", "ˈ", "ɑ", "ɭ", "ɕ", "i", "k", "a", "."], "phoneme_ids": [1, 0, 30, 0, 102, 0, 38, 0, 22, 0, 22, 0, 14, 0, 30, 0, 119, 0, 120, 0, 18, 0, 26, 0, 26, 0, 37, 0, 22, 0, 3, 0, 32, 0, 96, 0, 119, 0, 32, 0, 119, 0, 120, 0, 18, 0, 32, 0, 31, 0, 3, 0, 61, 0, 66, 0, 102, 0, 21, 0, 31, 0, 119, 0, 32, 0, 119, 0, 120, 0, 21, 0, 32, 0, 96, 0, 119, 0, 26, 0, 102, 0, 3, 0, 15, 0, 22, 0, 120, 0, 85, 0, 32, 0, 3, 0, 28, 0, 119, 0, 120, 0, 51, 0, 32, 0, 119, 0, 22, 0, 22, 0, 33, 0, 3, 0, 108, 0, 37, 0, 30, 0, 17, 0, 119, 0, 120, 0, 51, 0, 25, 0, 119, 0, 74, 0, 3, 0, 96, 0, 120, 0, 33, 0, 31, 0, 32, 0, 30, 0, 102, 0, 34, 0, 102, 0, 3, 0, 19, 0, 119, 0, 21, 0, 36, 0, 32, 0, 102, 0, 34, 0, 120, 0, 51, 0, 77, 0, 55, 0, 21, 0, 23, 0, 14, 0, 10, 0, 2]} +{"text": "В чащах юга жил бы цитрус? Да, но фальшивый экземпляр!", "phonemes": ["f", " ", "t", "ʃ", "ʲ", "ˈ", "ɑ", "ɕ", "ʌ", "x", " ", "ˈ", "j", "u", "ɡ", "a", " ", "ʒ", "ˈ", "y", "ɭ", " ", "b", "ˈ", "y", " ", "t", "s", "ˈ", "y", "t", "r", "u", "s", "?", " ", "d", "ˈ", "ɑ", ",", " ", "n", "o", " ", "f", "a", "ɭ", "ʃ", "ˈ", "y", "v", "y", "j", " ", "ɛ", "ɡ", "ʑ", "i", "m", "p", "ɭ", "ʲ", "ˈ", "ɑ", "r", "!"], "phoneme_ids": [1, 0, 19, 0, 3, 0, 32, 0, 96, 0, 119, 0, 120, 0, 51, 0, 55, 0, 102, 0, 36, 0, 3, 0, 120, 0, 22, 0, 33, 0, 66, 0, 14, 0, 3, 0, 108, 0, 120, 0, 37, 0, 77, 0, 3, 0, 15, 0, 120, 0, 37, 0, 3, 0, 32, 0, 31, 0, 120, 0, 37, 0, 32, 0, 30, 0, 33, 0, 31, 0, 13, 0, 3, 0, 17, 0, 120, 0, 51, 0, 8, 0, 3, 0, 26, 0, 27, 0, 3, 0, 19, 0, 14, 0, 77, 0, 96, 0, 120, 0, 37, 0, 34, 0, 37, 0, 22, 0, 3, 0, 61, 0, 66, 0, 107, 0, 21, 0, 25, 0, 28, 0, 77, 0, 119, 0, 120, 0, 51, 0, 30, 0, 4, 0, 2]} diff --git a/etc/test_sentences/test_vi.jsonl b/etc/test_sentences/test_vi.jsonl new file mode 100644 index 0000000..66071f1 --- /dev/null +++ b/etc/test_sentences/test_vi.jsonl @@ -0,0 +1,9 @@ +{"text": "Cầu vồng hay mống cũng như quang phổ là hiện tượng tán sắc của các ánh sáng từ Mặt Trời khi khúc xạ và phản xạ qua các giọt nước mưa.", "phonemes": ["k", "ˈ", "ə", "2", "w", " ", "v", "ˈ", "o", "2", "ŋ", " ", "h", "ˈ", "a", "1", "j", " ", "m", "ˈ", "o", "ɜ", "ŋ", " ", "k", "ˈ", "u", "5", "ŋ", " ", "ɲ", "ˌ", "y", "1", " ", "k", "w", "ˈ", "a", "ː", "1", "ŋ", " ", "f", "ˈ", "o", "4", " ", "l", "ˌ", "a", "ː", "2", " ", "h", "ˈ", "i", "ɛ", "6", "n", " ", "t", "̪", "ˈ", "y", "ə", "6", "ŋ", " ", "t", "̪", "ˈ", "a", "ː", "ɜ", "n", " ", "s", "ˈ", "a", "ɜ", "c", " ", "k", "ˌ", "u", "ə", "4", " ", "k", "ˌ", "a", "ː", "ɜ", "c", " ", "ˈ", "e", "-", "ɜ", "ɲ", " ", "s", "ˈ", "a", "ː", "ɜ", "ŋ", " ", "t", "̪", "ˌ", "y", "2", " ", "m", "ˈ", "a", "6", "t", "̪", " ", "t", "ʃ", "ˈ", "ə", "ː", "2", "j", " ", "x", "ˌ", "i", "1", " ", "x", "ˈ", "u", "ɜ", "c", " ", "s", "ˈ", "a", "ː", "6", " ", "v", "ˌ", "a", "ː", "2", " ", "f", "ˈ", "a", "ː", "4", "n", " ", "s", "ˈ", "a", "ː", "6", " ", "k", "w", "ˈ", "a", "ː", "1", " ", "k", "ˌ", "a", "ː", "ɜ", "c", " ", "z", "ˈ", "ɔ", "6", "t", "̪", " ", "n", "ˈ", "y", "ə", "ɜ", "c", " ", "m", "ˈ", "y", "ə", "7", "."], "phoneme_ids": [1, 0, 23, 0, 120, 0, 59, 0, 132, 0, 35, 0, 3, 0, 34, 0, 120, 0, 27, 0, 132, 0, 44, 0, 3, 0, 20, 0, 120, 0, 14, 0, 131, 0, 22, 0, 3, 0, 25, 0, 120, 0, 27, 0, 62, 0, 44, 0, 3, 0, 23, 0, 120, 0, 33, 0, 135, 0, 44, 0, 3, 0, 82, 0, 121, 0, 37, 0, 131, 0, 3, 0, 23, 0, 35, 0, 120, 0, 14, 0, 122, 0, 131, 0, 44, 0, 3, 0, 19, 0, 120, 0, 27, 0, 134, 0, 3, 0, 24, 0, 121, 0, 14, 0, 122, 0, 132, 0, 3, 0, 20, 0, 120, 0, 21, 0, 61, 0, 136, 0, 26, 0, 3, 0, 32, 0, 142, 0, 120, 0, 37, 0, 59, 0, 136, 0, 44, 0, 3, 0, 32, 0, 142, 0, 120, 0, 14, 0, 122, 0, 62, 0, 26, 0, 3, 0, 31, 0, 120, 0, 14, 0, 62, 0, 16, 0, 3, 0, 23, 0, 121, 0, 33, 0, 59, 0, 134, 0, 3, 0, 23, 0, 121, 0, 14, 0, 122, 0, 62, 0, 16, 0, 3, 0, 120, 0, 18, 0, 9, 0, 62, 0, 82, 0, 3, 0, 31, 0, 120, 0, 14, 0, 122, 0, 62, 0, 44, 0, 3, 0, 32, 0, 142, 0, 121, 0, 37, 0, 132, 0, 3, 0, 25, 0, 120, 0, 14, 0, 136, 0, 32, 0, 142, 0, 3, 0, 32, 0, 96, 0, 120, 0, 59, 0, 122, 0, 132, 0, 22, 0, 3, 0, 36, 0, 121, 0, 21, 0, 131, 0, 3, 0, 36, 0, 120, 0, 33, 0, 62, 0, 16, 0, 3, 0, 31, 0, 120, 0, 14, 0, 122, 0, 136, 0, 3, 0, 34, 0, 121, 0, 14, 0, 122, 0, 132, 0, 3, 0, 19, 0, 120, 0, 14, 0, 122, 0, 134, 0, 26, 0, 3, 0, 31, 0, 120, 0, 14, 0, 122, 0, 136, 0, 3, 0, 23, 0, 35, 0, 120, 0, 14, 0, 122, 0, 131, 0, 3, 0, 23, 0, 121, 0, 14, 0, 122, 0, 62, 0, 16, 0, 3, 0, 38, 0, 120, 0, 54, 0, 136, 0, 32, 0, 142, 0, 3, 0, 26, 0, 120, 0, 37, 0, 59, 0, 62, 0, 16, 0, 3, 0, 25, 0, 120, 0, 37, 0, 59, 0, 137, 0, 10, 0, 2]} +{"text": "Ở nhiều nền văn hóa khác nhau, cầu vồng xuất hiện được coi là mang đến điềm lành cho nhân thế.", "phonemes": ["ˈ", "ə", "ː", "4", " ", "ɲ", "ˈ", "i", "ɛ", "2", "w", " ", "n", "ˈ", "e", "2", "n", " ", "v", "ˈ", "a", "1", "n", " ", "h", "w", "ˈ", "a", "ː", "ɜ", " ", "x", "ˈ", "a", "ː", "ɜ", "c", " ", "ɲ", "ˈ", "a", "7", "w", ",", " ", "k", "ˈ", "ə", "2", "w", " ", "v", "ˈ", "o", "2", "ŋ", " ", "s", "w", "ˈ", "ə", "ɜ", "t", "̪", " ", "h", "ˈ", "i", "ɛ", "6", "n", " ", "ɗ", "ˌ", "y", "ə", "6", "c", " ", "k", "ˈ", "ɔ", "1", "j", " ", "l", "ˌ", "a", "ː", "2", " ", "m", "ˈ", "a", "ː", "1", "ŋ", " ", "ɗ", "ˌ", "e", "ɜ", "n", " ", "ɗ", "ˈ", "i", "ɛ", "2", "m", " ", "l", "ˈ", "e", "-", "2", "ɲ", " ", "t", "ʃ", "ˌ", "ɔ", "1", " ", "ɲ", "ˈ", "ə", "1", "n", " ", "t", "ˈ", "e", "ɜ", "."], "phoneme_ids": [1, 0, 120, 0, 59, 0, 122, 0, 134, 0, 3, 0, 82, 0, 120, 0, 21, 0, 61, 0, 132, 0, 35, 0, 3, 0, 26, 0, 120, 0, 18, 0, 132, 0, 26, 0, 3, 0, 34, 0, 120, 0, 14, 0, 131, 0, 26, 0, 3, 0, 20, 0, 35, 0, 120, 0, 14, 0, 122, 0, 62, 0, 3, 0, 36, 0, 120, 0, 14, 0, 122, 0, 62, 0, 16, 0, 3, 0, 82, 0, 120, 0, 14, 0, 137, 0, 35, 0, 8, 0, 3, 0, 23, 0, 120, 0, 59, 0, 132, 0, 35, 0, 3, 0, 34, 0, 120, 0, 27, 0, 132, 0, 44, 0, 3, 0, 31, 0, 35, 0, 120, 0, 59, 0, 62, 0, 32, 0, 142, 0, 3, 0, 20, 0, 120, 0, 21, 0, 61, 0, 136, 0, 26, 0, 3, 0, 57, 0, 121, 0, 37, 0, 59, 0, 136, 0, 16, 0, 3, 0, 23, 0, 120, 0, 54, 0, 131, 0, 22, 0, 3, 0, 24, 0, 121, 0, 14, 0, 122, 0, 132, 0, 3, 0, 25, 0, 120, 0, 14, 0, 122, 0, 131, 0, 44, 0, 3, 0, 57, 0, 121, 0, 18, 0, 62, 0, 26, 0, 3, 0, 57, 0, 120, 0, 21, 0, 61, 0, 132, 0, 25, 0, 3, 0, 24, 0, 120, 0, 18, 0, 9, 0, 132, 0, 82, 0, 3, 0, 32, 0, 96, 0, 121, 0, 54, 0, 131, 0, 3, 0, 82, 0, 120, 0, 59, 0, 131, 0, 26, 0, 3, 0, 32, 0, 120, 0, 18, 0, 62, 0, 10, 0, 2]} +{"text": "Do bạch kim rất quý nên sẽ dùng để lắp vô xương.", "phonemes": ["z", "ˈ", "ɔ", "1", " ", "b", "ˈ", "e", "-", "6", "c", " ", "k", "ˈ", "i", "1", "m", " ", "z", "ˈ", "ə", "ɜ", "t", "̪", " ", "k", "w", "ˈ", "i", "ɜ", " ", "n", "ˌ", "e", "1", "n", " ", "s", "ˌ", "ɛ", "5", " ", "z", "ˈ", "u", "2", "ŋ", " ", "ɗ", "ˌ", "e", "4", " ", "l", "ˈ", "a", "ɜ", "p", " ", "v", "ˈ", "o", "1", " ", "s", "ˈ", "y", "ə", "7", "ŋ", "."], "phoneme_ids": [1, 0, 38, 0, 120, 0, 54, 0, 131, 0, 3, 0, 15, 0, 120, 0, 18, 0, 9, 0, 136, 0, 16, 0, 3, 0, 23, 0, 120, 0, 21, 0, 131, 0, 25, 0, 3, 0, 38, 0, 120, 0, 59, 0, 62, 0, 32, 0, 142, 0, 3, 0, 23, 0, 35, 0, 120, 0, 21, 0, 62, 0, 3, 0, 26, 0, 121, 0, 18, 0, 131, 0, 26, 0, 3, 0, 31, 0, 121, 0, 61, 0, 135, 0, 3, 0, 38, 0, 120, 0, 33, 0, 132, 0, 44, 0, 3, 0, 57, 0, 121, 0, 18, 0, 134, 0, 3, 0, 24, 0, 120, 0, 14, 0, 62, 0, 28, 0, 3, 0, 34, 0, 120, 0, 27, 0, 131, 0, 3, 0, 31, 0, 120, 0, 37, 0, 59, 0, 137, 0, 44, 0, 10, 0, 2]} +{"text": "Tâm tưởng tôi tỏ tình tới Tú từ tháng tư, thú thật, tôi thương Tâm thì tôi thì thầm thử Tâm thế thôị.", "phonemes": ["t", "̪", "ˈ", "ə", "1", "m", " ", "t", "̪", "ˈ", "y", "ə", "4", "ŋ", " ", "t", "̪", "ˈ", "o", "1", "j", " ", "t", "̪", "ˈ", "ɔ", "4", " ", "t", "̪", "ˈ", "i", "2", "ɲ", " ", "t", "̪", "ˌ", "ə", "ː", "ɜ", "j", " ", "t", "̪", "ˈ", "u", "ɜ", " ", "t", "̪", "ˌ", "y", "2", " ", "t", "ˈ", "a", "ː", "ɜ", "ŋ", " ", "t", "̪", "ˈ", "y", "7", ",", " ", "t", "ˈ", "u", "ɜ", " ", "t", "ˈ", "ə", "6", "t", "̪", ",", " ", "t", "̪", "ˈ", "o", "1", "j", " ", "t", "ˈ", "y", "ə", "1", "ŋ", " ", "t", "̪", "ˈ", "ə", "1", "m", " ", "t", "ˌ", "i", "2", " ", "t", "̪", "ˈ", "o", "1", "j", " ", "t", "ˌ", "i", "2", " ", "t", "ˈ", "ə", "2", "m", " ", "t", "ˈ", "y", "4", " ", "t", "̪", "ˈ", "ə", "1", "m", " ", "t", "ˈ", "e", "ɜ", " ", "t", "ˈ", "o", "7", "i", "6", "."], "phoneme_ids": [1, 0, 32, 0, 142, 0, 120, 0, 59, 0, 131, 0, 25, 0, 3, 0, 32, 0, 142, 0, 120, 0, 37, 0, 59, 0, 134, 0, 44, 0, 3, 0, 32, 0, 142, 0, 120, 0, 27, 0, 131, 0, 22, 0, 3, 0, 32, 0, 142, 0, 120, 0, 54, 0, 134, 0, 3, 0, 32, 0, 142, 0, 120, 0, 21, 0, 132, 0, 82, 0, 3, 0, 32, 0, 142, 0, 121, 0, 59, 0, 122, 0, 62, 0, 22, 0, 3, 0, 32, 0, 142, 0, 120, 0, 33, 0, 62, 0, 3, 0, 32, 0, 142, 0, 121, 0, 37, 0, 132, 0, 3, 0, 32, 0, 120, 0, 14, 0, 122, 0, 62, 0, 44, 0, 3, 0, 32, 0, 142, 0, 120, 0, 37, 0, 137, 0, 8, 0, 3, 0, 32, 0, 120, 0, 33, 0, 62, 0, 3, 0, 32, 0, 120, 0, 59, 0, 136, 0, 32, 0, 142, 0, 8, 0, 3, 0, 32, 0, 142, 0, 120, 0, 27, 0, 131, 0, 22, 0, 3, 0, 32, 0, 120, 0, 37, 0, 59, 0, 131, 0, 44, 0, 3, 0, 32, 0, 142, 0, 120, 0, 59, 0, 131, 0, 25, 0, 3, 0, 32, 0, 121, 0, 21, 0, 132, 0, 3, 0, 32, 0, 142, 0, 120, 0, 27, 0, 131, 0, 22, 0, 3, 0, 32, 0, 121, 0, 21, 0, 132, 0, 3, 0, 32, 0, 120, 0, 59, 0, 132, 0, 25, 0, 3, 0, 32, 0, 120, 0, 37, 0, 134, 0, 3, 0, 32, 0, 142, 0, 120, 0, 59, 0, 131, 0, 25, 0, 3, 0, 32, 0, 120, 0, 18, 0, 62, 0, 3, 0, 32, 0, 120, 0, 27, 0, 137, 0, 21, 0, 136, 0, 10, 0, 2]} +{"text": "Nồi đồng nấu ốc, nồi đất nấu ếch.", "phonemes": ["n", "ˈ", "o", "2", "j", " ", "ɗ", "ˈ", "o", "2", "ŋ", " ", "n", "ˈ", "ə", "ɜ", "w", " ", "ˈ", "o", "ɜ", "k", ",", " ", "n", "ˈ", "o", "2", "j", " ", "ɗ", "ˈ", "ə", "ɜ", "t", "̪", " ", "n", "ˈ", "ə", "ɜ", "w", " ", "ˈ", "e", "ɜ", "c", "."], "phoneme_ids": [1, 0, 26, 0, 120, 0, 27, 0, 132, 0, 22, 0, 3, 0, 57, 0, 120, 0, 27, 0, 132, 0, 44, 0, 3, 0, 26, 0, 120, 0, 59, 0, 62, 0, 35, 0, 3, 0, 120, 0, 27, 0, 62, 0, 23, 0, 8, 0, 3, 0, 26, 0, 120, 0, 27, 0, 132, 0, 22, 0, 3, 0, 57, 0, 120, 0, 59, 0, 62, 0, 32, 0, 142, 0, 3, 0, 26, 0, 120, 0, 59, 0, 62, 0, 35, 0, 3, 0, 120, 0, 18, 0, 62, 0, 16, 0, 10, 0, 2]} +{"text": "Lan leo lên lầu Lan lấy lưỡi lam. Lan lấy lộn lưỡi liềm Lan leo lên lầu lấy lại.", "phonemes": ["l", "ˈ", "a", "ː", "1", "n", " ", "l", "ˈ", "ɛ", "1", "w", " ", "l", "ˈ", "e", "1", "n", " ", "l", "ˈ", "ə", "2", "w", " ", "l", "ˈ", "a", "ː", "1", "n", " ", "l", "ˈ", "ə", "ɪ", "ɜ", " ", "l", "ˈ", "y", "ə", "5", "j", " ", "l", "ˈ", "a", "ː", "7", "m", ".", " ", "l", "ˈ", "a", "ː", "1", "n", " ", "l", "ˈ", "ə", "ɪ", "ɜ", " ", "l", "ˈ", "o", "6", "n", " ", "l", "ˈ", "y", "ə", "5", "j", " ", "l", "ˈ", "i", "ɛ", "2", "m", " ", "l", "ˈ", "a", "ː", "1", "n", " ", "l", "ˈ", "ɛ", "1", "w", " ", "l", "ˈ", "e", "1", "n", " ", "l", "ˈ", "ə", "2", "w", " ", "l", "ˈ", "ə", "ɪ", "ɜ", " ", "l", "ˈ", "a", "ː", "6", "j", "."], "phoneme_ids": [1, 0, 24, 0, 120, 0, 14, 0, 122, 0, 131, 0, 26, 0, 3, 0, 24, 0, 120, 0, 61, 0, 131, 0, 35, 0, 3, 0, 24, 0, 120, 0, 18, 0, 131, 0, 26, 0, 3, 0, 24, 0, 120, 0, 59, 0, 132, 0, 35, 0, 3, 0, 24, 0, 120, 0, 14, 0, 122, 0, 131, 0, 26, 0, 3, 0, 24, 0, 120, 0, 59, 0, 74, 0, 62, 0, 3, 0, 24, 0, 120, 0, 37, 0, 59, 0, 135, 0, 22, 0, 3, 0, 24, 0, 120, 0, 14, 0, 122, 0, 137, 0, 25, 0, 10, 0, 3, 0, 24, 0, 120, 0, 14, 0, 122, 0, 131, 0, 26, 0, 3, 0, 24, 0, 120, 0, 59, 0, 74, 0, 62, 0, 3, 0, 24, 0, 120, 0, 27, 0, 136, 0, 26, 0, 3, 0, 24, 0, 120, 0, 37, 0, 59, 0, 135, 0, 22, 0, 3, 0, 24, 0, 120, 0, 21, 0, 61, 0, 132, 0, 25, 0, 3, 0, 24, 0, 120, 0, 14, 0, 122, 0, 131, 0, 26, 0, 3, 0, 24, 0, 120, 0, 61, 0, 131, 0, 35, 0, 3, 0, 24, 0, 120, 0, 18, 0, 131, 0, 26, 0, 3, 0, 24, 0, 120, 0, 59, 0, 132, 0, 35, 0, 3, 0, 24, 0, 120, 0, 59, 0, 74, 0, 62, 0, 3, 0, 24, 0, 120, 0, 14, 0, 122, 0, 136, 0, 22, 0, 10, 0, 2]} +{"text": "Bà Ba béo bán bánh bò, bán bòn bon, bán bong bóng, bên bờ biển, bả bị bộ binh bắt ba bốn bận.", "phonemes": ["b", "ˈ", "a", "ː", "2", " ", "b", "ˈ", "a", "ː", "1", " ", "b", "ˈ", "ɛ", "ɜ", "w", " ", "b", "ˈ", "a", "ː", "ɜ", "n", " ", "b", "ˈ", "e", "-", "ɜ", "ɲ", " ", "b", "ˈ", "ɔ", "2", ",", " ", "b", "ˈ", "a", "ː", "ɜ", "n", " ", "b", "ˈ", "ɔ", "2", "n", " ", "b", "ˈ", "ɔ", "7", "n", ",", " ", "b", "ˈ", "a", "ː", "ɜ", "n", " ", "b", "ˈ", "ɔ", "1", "ŋ", " ", "b", "ˈ", "ɔ", "ɜ", "ŋ", ",", " ", "b", "ˈ", "e", "1", "n", " ", "b", "ˈ", "ə", "ː", "2", " ", "b", "ˈ", "i", "ɛ", "4", "n", ",", " ", "b", "ˈ", "a", "ː", "4", " ", "b", "ˌ", "i", "6", " ", "b", "ˈ", "o", "6", " ", "b", "ˈ", "i", "1", "ɲ", " ", "b", "ˈ", "a", "ɜ", "t", "̪", " ", "b", "ˈ", "a", "ː", "1", " ", "b", "ˈ", "o", "ɜ", "n", " ", "b", "ˈ", "ə", "6", "n", "."], "phoneme_ids": [1, 0, 15, 0, 120, 0, 14, 0, 122, 0, 132, 0, 3, 0, 15, 0, 120, 0, 14, 0, 122, 0, 131, 0, 3, 0, 15, 0, 120, 0, 61, 0, 62, 0, 35, 0, 3, 0, 15, 0, 120, 0, 14, 0, 122, 0, 62, 0, 26, 0, 3, 0, 15, 0, 120, 0, 18, 0, 9, 0, 62, 0, 82, 0, 3, 0, 15, 0, 120, 0, 54, 0, 132, 0, 8, 0, 3, 0, 15, 0, 120, 0, 14, 0, 122, 0, 62, 0, 26, 0, 3, 0, 15, 0, 120, 0, 54, 0, 132, 0, 26, 0, 3, 0, 15, 0, 120, 0, 54, 0, 137, 0, 26, 0, 8, 0, 3, 0, 15, 0, 120, 0, 14, 0, 122, 0, 62, 0, 26, 0, 3, 0, 15, 0, 120, 0, 54, 0, 131, 0, 44, 0, 3, 0, 15, 0, 120, 0, 54, 0, 62, 0, 44, 0, 8, 0, 3, 0, 15, 0, 120, 0, 18, 0, 131, 0, 26, 0, 3, 0, 15, 0, 120, 0, 59, 0, 122, 0, 132, 0, 3, 0, 15, 0, 120, 0, 21, 0, 61, 0, 134, 0, 26, 0, 8, 0, 3, 0, 15, 0, 120, 0, 14, 0, 122, 0, 134, 0, 3, 0, 15, 0, 121, 0, 21, 0, 136, 0, 3, 0, 15, 0, 120, 0, 27, 0, 136, 0, 3, 0, 15, 0, 120, 0, 21, 0, 131, 0, 82, 0, 3, 0, 15, 0, 120, 0, 14, 0, 62, 0, 32, 0, 142, 0, 3, 0, 15, 0, 120, 0, 14, 0, 122, 0, 131, 0, 3, 0, 15, 0, 120, 0, 27, 0, 62, 0, 26, 0, 3, 0, 15, 0, 120, 0, 59, 0, 136, 0, 26, 0, 10, 0, 2]} +{"text": "Chồng chị chín chết chị chưa chôn, chị chờ chuối chín chị chôn cho chồng", "phonemes": ["t", "ʃ", "ˈ", "o", "2", "ŋ", " ", "t", "ʃ", "ˈ", "i", "6", " ", "t", "ʃ", "ˈ", "i", "ɜ", "n", " ", "t", "ʃ", "ˈ", "e", "ɜ", "t", "̪", " ", "t", "ʃ", "ˈ", "i", "6", " ", "t", "ʃ", "ˌ", "y", "ə", "1", " ", "t", "ʃ", "ˈ", "o", "7", "n", ",", " ", "t", "ʃ", "ˈ", "i", "6", " ", "t", "ʃ", "ˈ", "ə", "ː", "2", " ", "t", "ʃ", "ˈ", "u", "ə", "ɜ", "j", " ", "t", "ʃ", "ˈ", "i", "ɜ", "n", " ", "t", "ʃ", "ˈ", "i", "6", " ", "t", "ʃ", "ˈ", "o", "1", "n", " ", "t", "ʃ", "ˌ", "ɔ", "1", " ", "t", "ʃ", "ˈ", "o", "2", "ŋ"], "phoneme_ids": [1, 0, 32, 0, 96, 0, 120, 0, 27, 0, 132, 0, 44, 0, 3, 0, 32, 0, 96, 0, 120, 0, 21, 0, 136, 0, 3, 0, 32, 0, 96, 0, 120, 0, 21, 0, 62, 0, 26, 0, 3, 0, 32, 0, 96, 0, 120, 0, 18, 0, 62, 0, 32, 0, 142, 0, 3, 0, 32, 0, 96, 0, 120, 0, 21, 0, 136, 0, 3, 0, 32, 0, 96, 0, 121, 0, 37, 0, 59, 0, 131, 0, 3, 0, 32, 0, 96, 0, 120, 0, 27, 0, 137, 0, 26, 0, 8, 0, 3, 0, 32, 0, 96, 0, 120, 0, 21, 0, 136, 0, 3, 0, 32, 0, 96, 0, 120, 0, 59, 0, 122, 0, 132, 0, 3, 0, 32, 0, 96, 0, 120, 0, 33, 0, 59, 0, 62, 0, 22, 0, 3, 0, 32, 0, 96, 0, 120, 0, 21, 0, 62, 0, 26, 0, 3, 0, 32, 0, 96, 0, 120, 0, 21, 0, 136, 0, 3, 0, 32, 0, 96, 0, 120, 0, 27, 0, 131, 0, 26, 0, 3, 0, 32, 0, 96, 0, 121, 0, 54, 0, 131, 0, 3, 0, 32, 0, 96, 0, 120, 0, 27, 0, 132, 0, 44, 0, 2]} +{"text": "Ðêm đen Đào đốt đèn đi đâu đó. Ðào đốt đèn đi đợi Ðài. Đài đến. Đào đòi đô, Đài đưa Đào đô, Ðào đòi Dylan Ðài đưa Dylan.", "phonemes": ["ɗ", "ˈ", "e", "1", "m", " ", "ɗ", "ˈ", "ɛ", "1", "n", " ", "ɗ", "ˈ", "a", "ː", "2", "w", " ", "ɗ", "ˈ", "o", "ɜ", "t", "̪", " ", "ɗ", "ˈ", "ɛ", "2", "n", " ", "ɗ", "ˈ", "i", "1", " ", "ɗ", "ˈ", "ə", "1", "w", " ", "ɗ", "ˈ", "ɔ", "ɜ", ".", " ", "ɗ", "ˈ", "a", "ː", "2", "w", " ", "ɗ", "ˈ", "o", "ɜ", "t", "̪", " ", "ɗ", "ˈ", "ɛ", "2", "n", " ", "ɗ", "ˈ", "i", "1", " ", "ɗ", "ˈ", "ə", "ː", "6", "j", " ", "ɗ", "ˈ", "a", "ː", "2", "j", ".", " ", "ɗ", "ˈ", "a", "ː", "2", "j", " ", "ɗ", "ˌ", "e", "ɜ", "n", ".", " ", "ɗ", "ˈ", "a", "ː", "2", "w", " ", "ɗ", "ˈ", "ɔ", "2", "j", " ", "ɗ", "ˈ", "o", "7", ",", " ", "ɗ", "ˈ", "a", "ː", "2", "j", " ", "ɗ", "ˈ", "y", "ə", "1", " ", "ɗ", "ˈ", "a", "ː", "2", "w", " ", "ɗ", "ˈ", "o", "7", ",", " ", "ɗ", "ˈ", "a", "ː", "2", "w", " ", "ɗ", "ˈ", "ɔ", "2", "j", " ", "z", "ˈ", "i", "1", "l", "a", "ː", "1", "n", " ", "ɗ", "ˈ", "a", "ː", "2", "j", " ", "ɗ", "ˈ", "y", "ə", "1", " ", "z", "ˈ", "i", "7", "l", "a", "ː", "1", "n", "."], "phoneme_ids": [1, 0, 57, 0, 120, 0, 18, 0, 131, 0, 25, 0, 3, 0, 57, 0, 120, 0, 61, 0, 131, 0, 26, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 35, 0, 3, 0, 57, 0, 120, 0, 27, 0, 62, 0, 32, 0, 142, 0, 3, 0, 57, 0, 120, 0, 61, 0, 132, 0, 26, 0, 3, 0, 57, 0, 120, 0, 21, 0, 131, 0, 3, 0, 57, 0, 120, 0, 59, 0, 131, 0, 35, 0, 3, 0, 57, 0, 120, 0, 54, 0, 62, 0, 10, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 35, 0, 3, 0, 57, 0, 120, 0, 27, 0, 62, 0, 32, 0, 142, 0, 3, 0, 57, 0, 120, 0, 61, 0, 132, 0, 26, 0, 3, 0, 57, 0, 120, 0, 21, 0, 131, 0, 3, 0, 57, 0, 120, 0, 59, 0, 122, 0, 136, 0, 22, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 22, 0, 10, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 22, 0, 3, 0, 57, 0, 121, 0, 18, 0, 62, 0, 26, 0, 10, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 35, 0, 3, 0, 57, 0, 120, 0, 54, 0, 132, 0, 22, 0, 3, 0, 57, 0, 120, 0, 27, 0, 137, 0, 8, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 22, 0, 3, 0, 57, 0, 120, 0, 37, 0, 59, 0, 131, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 35, 0, 3, 0, 57, 0, 120, 0, 27, 0, 137, 0, 8, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 35, 0, 3, 0, 57, 0, 120, 0, 54, 0, 132, 0, 22, 0, 3, 0, 38, 0, 120, 0, 21, 0, 131, 0, 24, 0, 14, 0, 122, 0, 131, 0, 26, 0, 3, 0, 57, 0, 120, 0, 14, 0, 122, 0, 132, 0, 22, 0, 3, 0, 57, 0, 120, 0, 37, 0, 59, 0, 131, 0, 3, 0, 38, 0, 120, 0, 21, 0, 137, 0, 24, 0, 14, 0, 122, 0, 131, 0, 26, 0, 10, 0, 2]} diff --git a/etc/test_sentences/vi.txt b/etc/test_sentences/vi.txt new file mode 100644 index 0000000..6554451 --- /dev/null +++ b/etc/test_sentences/vi.txt @@ -0,0 +1,9 @@ +Cầu vồng hay mống cũng như quang phổ là hiện tượng tán sắc của các ánh sáng từ Mặt Trời khi khúc xạ và phản xạ qua các giọt nước mưa. +Ở nhiều nền văn hóa khác nhau, cầu vồng xuất hiện được coi là mang đến điềm lành cho nhân thế. +Do bạch kim rất quý nên sẽ dùng để lắp vô xương. +Tâm tưởng tôi tỏ tình tới Tú từ tháng tư, thú thật, tôi thương Tâm thì tôi thì thầm thử Tâm thế thôị. +Nồi đồng nấu ốc, nồi đất nấu ếch. +Lan leo lên lầu Lan lấy lưỡi lam. Lan lấy lộn lưỡi liềm Lan leo lên lầu lấy lại. +Bà Ba béo bán bánh bò, bán bòn bon, bán bong bóng, bên bờ biển, bả bị bộ binh bắt ba bốn bận. +Chồng chị chín chết chị chưa chôn, chị chờ chuối chín chị chôn cho chồng +Ðêm đen Đào đốt đèn đi đâu đó. Ðào đốt đèn đi đợi Ðài. Đài đến. Đào đòi đô, Đài đưa Đào đô, Ðào đòi Dylan Ðài đưa Dylan.