Prestižní Johns Hopkins University v Baltimoru uspořádá od 24. června do 2. srpna workshop zaměřený na řečové a jazykové technologie, při němž promluví také Marek Hrúz z katedry kybernetiky Fakulty aplikovaných věd (FAV) a výzkumného centra NTIS. Workshop předznamená dvoutýdenní letní škola. Během ní se plzeňský výzkumník ze ZČU chystá americkým studentům přednášet o technologiích, které chce využít při řešení jím navrženého projektu - rozpoznávání znakového jazyka a jeho přepisu do textu.
Projekty a témata, jež se na workshopech řeší, procházejí náročným schvalovacím procesem. Původní jednostránkový návrh Marka Hrúze popisoval rozpoznávání znakového jazyka z videa do textu, kdy text odpovídá přepisu mluveného jazyka, a tudíž je celá úloha pojata jako překlad. “V návrhu projektu jsem se zaměřil na analýzu detekované pózy, což jsme řešili již s Matyášem Boháčkem, který nyní studuje na Stanfordu. Motivací k napsání tohoto projektu mi bylo umožnění překladu na mobilních zařízeních. Nese s sebou rychlejší zpracování, méně dat, apod.,” říká Marek Hrúz.
Předložený koncept sklidil dobrý ohlas a Marek Hrúz byl v listopadu 2023 pozván na osobní setkání na Johns Hopkins University, jemuž byl přítomen i Matyáš Boháček. Přizván byl také odborník Murat Saraçlar z Bogazici University Istanbul, s bohatými zkušenostmi s rozpoznáváním řeči a znakového jazyka. Právě na základě jeho připomínek došlo k pozměnění původního návrhu a jeho přednesení, spolu s dalšími čtyřmi návrhy, před plénem odborníků, kteří návrhy ohodnotili, diskutovali je s vedoucími projektů a dále modifikovali. “Náš projekt byl obohacen o myšlenku použití velkých jazykových modelů (LLM). Toto doporučení navrhl Florian Metze (Meta, Carnegie Mellon University), na základě kterého jsem vypracoval finální znění projektu,” dodává Marek Hrúz.
Projektu výzkumníka z FAV udělila komise první místo. “Ani jeden člen komise se k podpoře nevyjádřil negativně. Toto je velmi vzácný jev, který indikuje velký zájem o zpracování znakového jazyka v komunitě umělé inteligence. Jedná se o skutečně velký úspěch našeho oddělení,” dodává Marek Hrúz. V případě týmu z FAV jde právě o zmíněné LLM, řečové modely, rozpoznávání a syntézu znakového jazyka nebo zpracování obrazu.
V čem spočívá výhoda využití LLM? Tyto modely již mají znalosti o světě, konkrétně i o znakovém jazyce. “ChatGPT umí např. popsat jak provést jednotlivé znaky - tvar ruky, pohyby atd. LLM chápou 'logiku světa', takže můžou znalosti takzvaně halucinovat. Domýšlet si fakta na základě logiky, i když nejsou přímo pozorována v datech,” vysvětluje Marek Hrůz.
Momentálně se řeší rozpočet projektu, Johns Hopkins University shání sponzory u společností zvučných jmen jako jsou např. Amazon, Meta, Google, Microsoft a další. Zároveň se finalizuje složení týmu, jenž tvoří seniorní a juniorní výzkumníci, studenti doktorského studia, a dokonce i dva studenti navazujícího magisterského studia z FAV. V týmu však budou i odborníci z ČR, Turecka, USA nebo Ghany. Na katedře kybernetiky FAV probíhá příprava technologií, aby projekt mohl být během léta úspěšně realizován. “Na katedře o tom diskutujeme v širším kolektivu a ukazuje se skutečně velký záběr expertízy na našem oddělení UI,” těší Marka Hrúze, jenž mezinárodní tým povede.
Do budoucna vidí odborníci z oblasti umělé inteligence potenciál ve spojení s kolegy z oddělení robotiky a automatizace, s nimiž by dokázali naprogramovat humanoidního robota pro komunikaci ve znakové řeči. Cílem workshopu je zároveň propojit lidi na mezinárodní úrovni, aby mohly vzniknout nové excelentní projekty.
2024 Tenth Jelinek Summer Workshop on Speech and Language Technology se koná k poctě Bedřicha (Fredericka) Jelinka, československého rodáka a vědce, který se zabýval informatikou a analýzou řeči. Až do své smrti v roce 2010 působil jako profesor na JHU a zároveň byl ředitelem tamního Centra pro zpracování jazyka. V roce 2014 se workshop konal v Praze na Matematicko-fyzikální fakultě Univerzity Karlovy.
Marek Hrúz při přednášce na konferenci Technica Futura.
Matyáš Boháček.
Fakulta aplikovaných věd |
Martina Batková |
25. 04. 2024 |