Vyučující a studující z Fakulty aplikovaných věd (FAV) se od 24. června do 2. srpna 2024 stanou součástí mezinárodního týmu, jehož vedoucím bude Marek Hrúz z katedry kybernetiky. Společně s ním do USA odcestují i studenti navazujícího a doktorského studia. Workshop je sice vědecky zaměřený, zároveň ale dává šanci mladým lidem, kteří se o obor zajímají, aby se potkali se stejně nebo podobně zaměřenými kolegy. “V našem týmu budou kromě vyučujících a studentů FAV také studenti z Matematicko-fyzikální fakulty UK, USA, Turecka nebo Ghany. Celkem přibližně patnáct až dvacet lidí,” říká student navazujícího magisterského studia Ondřej Valach.
Cestu týmu FAV na Johns Hopkins University odstartoval úspěšný projekt Marka Hrúze, zaměřený na rozpoznávání znakového jazyka. Jím navržený systém řeší úlohu rozpoznávání z videa do textu, kdy text odpovídá přepisu mluveného jazyka. Celá úloha je tudíž pojata jako překlad. “Na základě tohoto návrhu jsem byl pozván. Do původního návrhu jsem zapracoval připomínky odborné komise a vypracoval jsem finální znění projektu,” dodává Marek Hrúz.
Inovativní na celém projektu je zakomponování tzv. large language modelů neboli LLM, kterým je v posledních několika letech věnována značná pozornost. “Tyto modely by se daly napojit na rozpoznávání obrazu a využít toho, že tento model už má obecné znalosti o fungování jazyka,” říká další ze studentů Václav Javorek, Ondřejův spolužák. “LLM mají velký potenciál, ale zároveň jsou poměrně drahé na natrénování,” dodává Václav.
“Idea našeho projektu má obrovský přesah. Pokud by vše vyšlo, mohlo by to do budoucna nastartovat další výzkum v oblasti znakového jazyka. V plánu je i překlad opačným směrem, tedy syntéza znakového jazyka. Slyšící člověk, který neumí znakový jazyk, by tak mohl s neslyšícím snadno komunikovat, protože avatar by mluvené slovo odznakoval např. prostřednictvím tabletu. Nebo by bylo možné pustit si jakékoliv video třeba na YouTube, které by avatar bez problémů převedl do znakového jazyka, a člověk by nemusel řešit, zda je u videa možné pustit titulky. Největší problém je ale v přirozenosti pohybu avatara. Pokud je znakování trhané, neslyšící to ruší při sledování a raději dají přednost titulkům,” svorně dodávají studenti FAV.
Václav Javorek a Ondřej Valach.
Kosterní model používaný v syntéze znakového jazyka. Budoucí avatar bude mít lidské vzezření.
Fakulta aplikovaných věd |
Martina Batková |
06. 05. 2024 |