Tým z Fakulty aplikovaných věd uspěl v mezinárodní soutěži VoiceMOS

"Kvalitu syntetické řeči obvykle hodnotí lidé pomocí poslechových testů, což je pracné a časově i finančně náročné. Návrh systému, který by takové věrohodné hodnocení uměl udělat úplně automaticky, je tak velmi žádoucí,“ říká Jindřich Matoušek z katedry kybernetiky a výzkumného centra NTIS.

Druhé a šesté místo v mezinárodní soutěži VoiceMOS obsadil v celosvětové konkurenci tým pod vedením Jindřicha Matouška z katedry kybernetiky a výzkumného centra Nové technologie pro informační společnost (NTIS) Fakulty aplikovaných věd (FAV) Západočeské univerzity v Plzni (ZČU). Cílem bylo co nejlépe automaticky ohodnotit kvalitu počítačem generované řeči. Popis vytvořeného systému plánují plzeňští kybernetici publikovat v září na prestižní konferenci INTERSPEECH 2022 v Koreji v rámci speciální sekce „The VoiceMOS Challenge“.

„Vytvořit systém pro automatické hodnocení kvality syntetické řeči není jednoduchá úloha. Nic takového se v praxi zatím nepoužívá. Kvalitu syntetické řeči obvykle hodnotí lidé pomocí poslechových testů, což je pracné a časově i finančně náročné. Návrh systému, který by takové věrohodné hodnocení uměl udělat úplně automaticky, je tak velmi žádoucí,“ přibližuje náplň prvního ročníku soutěže VoiceMOS Jindřich Matoušek, vedoucí devítičlenného týmu z katedry kybernetiky a NTIS FAV, který uspěl v konkurenci dvaceti dvou týmů z celého světa.

V jednom hodnoceném kritériu, kde se jednalo o detekování střední kvadratické chyby mezi predikovaným a skutečným hodnocením syntetických vět, získali odborníci z FAV druhé místo. „Jednoduše řečeno to znamená, že hodnocení syntetické řeči naším systémem se příliš neliší od toho, jak by stejnou řeč hodnotil člověk,“ vysvětluje Jindřich Matoušek. V rámci kritéria, v němž se hodnotila korelace mezi predikovaným a skutečným hodnocením systémů, které syntetickou řeč vytvářely, se tým umístil na šestém místě.

Pro soutěž organizátoři využili 187 vzorků generovaných různými systémy syntézy řeči, pokrývajících širokou škálu řečových technologií a nashromážděných v letech 2008 až 2020 v rámci minulých výzev (Blizzard a Voice Conversion Challenges). Osm posluchačů následně každý vzorek ohodnotilo na stupnici MOS (Mean Opinion Score) od jedné do pěti. Získaná data se tak stala referenčním materiálem pro zadané úkoly.

Syntéza řeči z textu se využívá zejména k automatickému čtení textů v počítačích, chytrých telefonech či tabletech, pro zpřístupnění psaných textů nevidomým a zrakově postiženým a v poslední době také v hlasových dialogových systémech a různých hlasových asistentech. Vyvinout co nejlepší systém pro automatické hodnocení kvality syntetické řeči je pro vědce velice atraktivní záležitost. Díky automatizaci kontroly by se urychlil vývoj nových systémů pro syntézu řeči. „Moderní systémy syntézy řeči fungují na principu neuronových sítí, které se učí na základě reálných vzorků lidské řeči a v každém kroku vyhodnocují, jak dobře se jim to daří. Ideální by bylo, aby systém pro kontrolu kvality byl jejich součástí, tedy aby dokázaly samy spolehlivě kontrolovat kvalitu syntetizované řeči,“ popisuje Jindřich Matoušek.

Počítačovému zpracování řeči se vědci na katedře kybernetiky a ve výzkumném centru NTIS věnují řadu let. Společně s firmou SpeechTech spolupracují s Českou televizí na online titulkování živých televizních pořadů. Technologie přináší užitek desetitisícům diváků se sluchovým handicapem, kteří tak mají možnost získávat plnohodnotné informace z televizního vysílání. Projekt, vedený Josefem Psutkou, získal Cenu Technologické agentury ČR za rok 2020 v kategorii Společnost a také cenu Český nápad. Na svém kontě mají kybernetici FAV například také projekt automatické konzervace a rekonstrukce hlasu, jenž pomáhá zejména lidem, kteří kvůli vážnému onemocnění přijdou o hlasivky. Za jeho vedení získal Jindřich Matoušek v roce 2020 Cenu města Plzně.