Tým z FAV uspěl při konferenci o analýze a rozpoznávání dokumentů

Konference Úspěchy Věda

Tým vědců z katedry informatiky a výpočetní techniky Fakulty aplikovaných věd ze skupiny NLP (Natural Language Processing - Zpracování přirozeného jazyka) se zúčastnil prestižní mezinárodní konference ICDAR (International Conference on Document Analysis and Recognition) 2021.

Konference ICDAR je zaměřena na oblast automatické analýzy obrazových a textových dokumentů. Akce se konala ve švýcarském Lausanne a tým ve složení vedoucí Pavel Král, Ladislav Lenc, Jiří Martínek a Josef Baloun při ní prezentoval nejnovější výsledky výzkumu v oblasti zpracování přirozeného jazyka a analýzy historických map.

Součástí konference byla rovněž mezinárodní soutěž v segmentaci historických map města Paříže z let 1894 až 1937 se třemi úlohami: Detekce stavebních bloků, Segmentace mapového obsahu a Lokalizace průsečíků poledníků a rovnoběžek.

Tým z FAV, jehož hlavním řešitelem byl Josef Baloun, soutěžil ve druhé a třetí úloze a obsadil v mezinárodní konkurenci dvakrát první místo. Výstupy z obou úloh sehrají důležitou roli na poli přípravy historických map k dalšímu zpracování. Konkrétně díky Segmentaci mapového obsahu může být každý mapový list zpracován tak, by došlo k odstranění veškerých okrajů, legend, měřítek, nadpisů a výsledkem byla čistá mapa. Takto připravené mapy lze lépe a jednodušeji zpracovávat a spojit do jedné mapy pro celou oblast. Průsečíky poledníků a rovnoběžek, jejichž nalezení bylo cílem třetí soutěžní úlohy, pak slouží jako záchytné body, na jejichž základě je možné mapu promítnout na současnou mapu oblasti a sledovat proměnu oblasti v průběhu času.

Vyhodnocení probíhalo na 95 mapových listech z různého časového období. Pro segmentaci využil tým kombinaci nejnovějších technik hlubokého učení se standardními metodami počítačového vidění.

Primárně se však tým nezabývá zpracováním map, ale zpracováním přirozeného jazyka, tedy úlohami jako je analýza sentimentu, rozpoznávání pojmenovaných entit, sumarizace nebo různé klasifikace a kategorizace dokumentů.

Jako hlavní nástroj používají jeho členové umělé neuronové sítě, případně další modely z oblasti umělé inteligence. V posledních dvou letech ale čím dál více pracují i se skenovanými, převážně historickými dokumenty, kde je nutné provést segmentaci textu a také rozpoznávání znaků (OCR) a tak získat text. Poté lze provádět výše zmíněné úlohy. Vědci se tak pohybují na pomezí mezi zpracováním obrázků a zpracováním textu. Účast na prestižní konferenci ICDAR, která se na tyto oblasti zaměřuje, to dokládá.

Galerie


Fakulta aplikovaných věd

Michaela Zůzová

15. 10. 2021