Cílem projektu Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu bylo vytvořit archiv spisů sovětských bezpečnostních složek, který bude nejen přístupný online, ale zároveň bude možné v tisících spisů jednoduše a efektivně vyhledávat. Spisy obsahují nejen úřední záznamy, ale i výslechové protokoly, rozsudky doplněné o důkazní materiály, jako jsou osobní fotografie nebo dopisy zabavené při vyšetřování. Technické řešení digitálního archivu vzniklo díky týmu vědců z katedry kybernetiky a výzkumného centra NTIS FAV. Jejich software dokáže z naskenovaných dokumentů, které jsou převážně v ruštině, ukrajinštině a češtině, získat text pomocí metody nazývané Optical Character Recognition (OCR). Tento elektronický text pak software uloží do databáze, v níž lze rychle vyhledávat slova vyskytující se v rozpoznaných textech a přiřazených metadatech.
Veřejně přístupná online databáze, v níž je v současnosti uloženo 200 tisíc stránek digitalizovaných dokumentů z ukrajinských archivů, je od minulého týdne k dispozici všem, kteří by do těchto dokumentů měli chuť nahlédnout. Odborné i laické veřejnosti se tak stávají dostupné vyšetřovací spisy vedené na československé občany, spisy uprchlíků z nacistické Evropy, kteří byli vězněni v SSSR, či spisy krajanů, kteří za 2. sv. války kolaborovali s nacisty. Martin Bulín z katedry kybernetiky říká: “Výzvou pro nás bylo propojit námi používané nástroje s jednoduchým uživatelským rozhraním. Předpokládáme totiž, že našimi uživateli budou především humanitně zaměření badatelé a archiv pro ně musí být přístupný a snadno použitelný.“
Automaticky byly zpracovány textové a fotografické dokumenty, které ÚSTR v rámci dokumentační činnosti digitalizoval v rozmezí let 2014 až 2022 zejména v ukrajinských archivech. Jedná se převážně o kopie vyšetřovacích spisů osob postižených represí NKVD a KGB na území Sovětského svazu, jejichž osud se váže k československé historii. Dokumenty se tak vztahují například k represím vůči krajanům od 20. do 50. let 20. století, k osudům Čechoslováků v Gulagu, sovětizaci Podkarpatské Rusi po roce 1945 nebo invazi vojsk Varšavské smlouvy do Československa v roce 1968.
Databáze digitalizovaných dokumentů slouží k dalšímu výzkumu, kolegové z ÚSTR například zpracovali výzkumná témata týkající se procesů s českými učiteli ve 30. letech 20. století, příběhů židovských běženců z nacisty okupovaných území nebo amnestií pro československé občany vězněné v SSSR.
Projekt Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu probíhal od března 2020 do konce roku 2022 a finančně ho podpořilo Ministerstvo kultury ČR z programu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity NAKI II. Od března letošního roku byl spuštěn navazující projekt podpořený stejným ministerstvem, jehož cílem je pokračovat v digitalizaci archivních dokumentů a zpřístupnit je - spolu s těmi stávajícími - s pomocí dalších pokročilých algoritmů strojového učení.
Náhled webových stránek.
Zprava Martin Bulín, Pavel Ircing a Jan Švec z katedry kybernetiky FAV.
Zahraniční hosté.
Fakulta aplikovaných věd |
Jan Švec, Pavel Ircing |
14. 03. 2023 |