Softwary vědců z výzkumného centra NTIS pomáhají vyhledávat v audiovizuálních archivech

Luděk Müller, nedávno jmenovaný profesor ZČU, je jedním z odborníků působících ve výzkumném centru Nové technologie pro informační společnost (NTIS), kteří vyvíjejí softwarové nástroje pro práci s mluvenými a psanými texty. 

Na svém kontě mají vědci například software pro vyhledávání ve videoarchivu výpovědí svědků holokaustu. Nyní zpracovávají nahrávky a písemné dokumenty svědků represí komunismu.

Zpřístupnit pomocí softwarových nástrojů rozsáhlý videoarchiv obsahující svědectví lidí, kteří přežili holokaust, to byl hlavní cíl projektu AMALACH, realizovaného v letech 2012–2015, na němž se podílel také Luděk Müller.

Celý archiv, vytvořený v letech 1994 - 2000 a spravovaný Nadací šoa Univerzity Jižní Kalifornie (USC – Shoah Foundation), obsahuje téměř 52 tisíc svědectví ve 32 jazycích, celkový rozsah činí 105 tisíc hodin videozáznamů. Téměř polovina rozhovorů je vedena v angličtině, více než 560 jich je v češtině a podobné množství ve slovenštině. Výpovědi natáčel režisér Steven Spielberg, aby zaznamenal pro budoucí generace vzpomínky pamětníků, kteří postupně stárnou a odcházejí.

Software vytvořený pod vedením profesora Luďka Müllera, nedávno jmenovaného profesora ZČU, vyhledává v české části archivu, tedy ve výpovědích namluvených v češtině a v části archivu výpovědí v angličtině, která se vztahuje k bývalému Československu. Jedná se přibližně o tisíc hodin záznamů.

„Začlenění angličtiny nebylo samoúčelné: lidí, kteří v osudné době žili v tehdejším Československu, ale výpověď uloženou v archivu poskytli v angličtině, jsou téměř čtyři tisíce. Důvodem byl třeba jejich dlouhý poválečný pobyt v cizině,“ vysvětluje Luděk Müller z Fakulty aplikovaných věd ZČU.

Databáze je přístupná v Židovském muzeu v Praze a také v Centru vizuální historie Malach na Matematicko-fyzikální fakultě Univerzity Karlovy. Vyhledávání v ní bylo dříve možné pouze pomocí klíčových slov, která byla manuálně přiřazena jednotlivým pasážím. Pokrytí archivu klíčovými slovy však bylo nedostatečné. Nyní již ale více než dva roky mohou lidé využívat pro vyhledávání software odborníků z plzeňského výzkumného centra NTIS.

Cílem projektu AMALACH bylo využít pokročilé metody rozpoznávání souvislé řeči, automatického vyhledávání informací a strojového překladu k tomu, aby vznikl efektivně fungující systém, schopný rychle a přesně vyhledávat zadané dotazy. „AMALACH funguje vlastně jako vyhledávač pojmů. Uživatel si pak může snadno všechny videozáznamy, kde se o dotazovaném pojmu hovoří, přehrát. Pravděpodobnost přítomnosti stanovených pojmů v nahrávce označuje systémem barevných políček,“ objasňuje Luděk Müller, který se například podílel také na vývoji softwaru pro převod mluvené řeči do psaného textu využívaného pro titulkování v České televizi.

Ohlasy uživatelů jsou podle Luďka Müllera pouze kladné. Software obdržel i ocenění za nejlepší demonstrace systémů rozpoznávání mluvené řeči na prestižní mezinárodní konferenci Interspeech 2016 v San Franciscu. V současné době vědci z výzkumného centra NTIS zpracovávají část výpovědí svědků holokaustu ve slovenštině.

Naší technologií můžeme vytvářet software i pro vyhledávání v tematicky jiných archivech,“ vysvětluje Luděk Müller. „Nyní se zabýváme zpracováním nahrávek i písemných dokumentů svědků represí totality v Československu, které byly pořízeny v rámci dokumentační činnosti Ústavu pro studium totalitních režimů v letech 2008-2015,“ doplňuje. V rámci projektu nazvaném „Systém pro trvalé uchování dokumentace a prezentaci historických pramenů z období totalitních režimů“ odborníci zpracují tisíc hodin audionahrávek výpovědí a rozhovorů a dalších 50 tisíc textových a obrazových dokumentů, jako jsou kopie souvisejících listin, dokladů, zápisů z vyšetřování či fotografií. Projekt by měl být ukončen v roce 2019.

Galerie


Fakulta aplikovaných věd

Šárka Stará

06. 02. 2018