Kybernetici z FAV vyvinuli software pro zpřístupnění dokumentů o represích Čechoslováků v SSSR

Přednáška Věda Veřejnost

Téměř tříletou spolupráci odborníků z Ústavu pro studium totalitních režimů (ÚSTR) a vědců z Fakulty aplikovaných věd (FAV) završilo oficiální spuštění digitalizovaného archivu dokumentů NKVD/KGB k československé historii. Slavnostní večer se konal 9. března 2023 v Knihovně Václava Havla.

Cílem projektu Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu bylo vytvořit archiv spisů sovětských bezpečnostních složek, který bude nejen přístupný online, ale zároveň bude možné v tisících spisů jednoduše a efektivně vyhledávat. Spisy obsahují nejen úřední záznamy, ale i výslechové protokoly, rozsudky doplněné o důkazní materiály, jako jsou osobní fotografie nebo dopisy zabavené při vyšetřování. Technické řešení digitálního archivu vzniklo díky týmu vědců z katedry kybernetiky a výzkumného centra NTIS FAV. Jejich software dokáže z naskenovaných dokumentů, které jsou převážně v ruštině, ukrajinštině a češtině, získat text pomocí metody nazývané Optical Character Recognition (OCR). Tento elektronický text pak software uloží do databáze, v níž lze rychle vyhledávat slova vyskytující se v rozpoznaných textech a přiřazených metadatech.

Veřejně přístupná online databáze, v níž je v současnosti uloženo 200 tisíc stránek digitalizovaných dokumentů z ukrajinských archivů, je od minulého týdne k dispozici všem, kteří by do těchto dokumentů měli chuť nahlédnout. Odborné i laické veřejnosti se tak stávají dostupné vyšetřovací spisy vedené na československé občany, spisy uprchlíků z nacistické Evropy, kteří byli vězněni v SSSR, či spisy krajanů, kteří za 2. sv. války kolaborovali s nacisty. Martin Bulín z katedry kybernetiky říká: “Výzvou pro nás bylo propojit námi používané nástroje s jednoduchým uživatelským rozhraním. Předpokládáme totiž, že našimi uživateli budou především humanitně zaměření badatelé a archiv pro ně musí být přístupný a snadno použitelný.“ 

Automaticky byly zpracovány textové a fotografické dokumenty, které ÚSTR v rámci dokumentační činnosti digitalizoval v rozmezí let 2014 až 2022 zejména v ukrajinských archivech. Jedná se převážně o kopie vyšetřovacích spisů osob postižených represí NKVD a KGB na území Sovětského svazu, jejichž osud se váže k československé historii. Dokumenty se tak vztahují například k represím vůči krajanům od 20. do 50. let 20. století, k osudům Čechoslováků v Gulagu, sovětizaci Podkarpatské Rusi po roce 1945 nebo invazi vojsk Varšavské smlouvy do Československa v roce 1968.

Databáze digitalizovaných dokumentů slouží k dalšímu výzkumu, kolegové z ÚSTR například zpracovali výzkumná témata týkající se procesů s českými učiteli ve 30. letech 20. století, příběhů židovských běženců z nacisty okupovaných území nebo amnestií pro československé občany vězněné v SSSR.

Projekt Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu probíhal od března 2020 do konce roku 2022 a finančně ho podpořilo Ministerstvo kultury ČR z programu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity NAKI II. Od března letošního roku byl spuštěn navazující projekt podpořený stejným ministerstvem, jehož cílem je pokračovat v digitalizaci archivních dokumentů a zpřístupnit je - spolu s těmi stávajícími - s pomocí dalších pokročilých algoritmů strojového učení.

Galerie


Náhled webových stránek.

Zprava Martin Bulín, Pavel Ircing a Jan Švec z katedry kybernetiky FAV.

Zahraniční hosté.

Fakulta aplikovaných věd

Jan Švec, Pavel Ircing

14. 03. 2023