Identifikační číslo: DH23P03OVV033
Spolupráce partnerů: Moravská zemská knihovna v Brně / Knihovna Akademie věd ČR , v.v.i. / Národní knihovna České republiky / Vysoké učení technické v Brně
Doba realizace projektu: 1. 3. 2023 – 31. 12. 2027
Celkové způsobilé výdaje projektu: 30.605.000 Kč
Zdroj finanční podpory: Program NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030
Z hlediska programu NAKI III se projekt zaměřuje jako na hlavní tematickou prioritu na č. 16 Metody identifikace, dokumentace, evidence a interpretace národního nemovitého a movitého kulturního dědictví, a v rámci vedlejších priorit na č. 19 Péče o národní movité kulturní dědictví ve sbírkotvorných institucích s využitím nástrojů a aplikací moderních způsobů ukládání, uchovávání a prezentace a č. 25 Aplikovaný výzkum a využití jeho výsledků pro podporu umění a uměleckého řemesla.
Cílem projektu je otevření grafického obsahu digitálních knihoven veřejnosti, zejména pak uživatelům z kreativních a kulturních odvětví, kteří budou moci nalezené grafické entity využít pro svou tvořivou práci.
Z hlediska novosti nejvýznamnějším výsledkem projektu bude nástroj AnnoPage, který využije metody strojového učení k identifikaci grafických entit na naskenovaných stránkách. Nalezené entity bude dále kategorizovat a doplňovat je automaticky i o stručný textový popis. AnnoPage bude poskytovat dostatečně kvalitní informace k tomu, aby mohl být nasazen do produkčního prostředí. Výstupem systému tak bude metadatová sada obsahující jednak určení pozice entity v rámci naskenované stránky (aby ji bylo možné ze stránky virtuálně vyříznout nebo na stránce označit) a jednak textové údaje charakterizující tuto entitu, získané analýzou entity a zbytku stránky, na které je entita umístěna. Takto získané metadatové sady budou využity v dalších systémech a nástrojích.
Na systém AnnoPage bude přímo navazovat systém PeopleGator, jehož vstupem budou ty obrazové entity, které AnnoPage označí jako grafické objekty zobrazující osoby. PeopleGator využije metody strojového učení k identifikaci osob, které se v rámci obrazových entit vyskytují na více vyobrazeních, a umožní tak vytvoření virtuálního grafu, propojujícího dokumenty zobrazující tyto osoby. Dalším vstupem systému budou i sady snímků osob již identifikovaných, získané z různých otevřených zdrojů (Wikimedia, obalkyknih.cz a dalších). Díky propojení těchto snímků s obrázky nalezenými v digitálních knihovnách bude možné vybudovat databázi identifikovaných osob, jejíž obsah bude prezentován jednak prostřednictvím otevřeného API, jednak v prohledávatelném webovém rozhraní.
Dalším výsledkem projektu bude webové rozhraní komunikující na pozadí s API systému digitální knihovny Kramerius, zaměřené na vyhledávání a prezentaci grafických elementů digitalizovaných dokumentů a zároveň poskytne sadu praktických nástrojů pro pokročilou práci s grafickým obsahem digitální knihovny a jeho dalším využitím. Systém umožní lepší práci s výřezy dokumentů a jejich snadné sdílení, vyhledávání v kategoriích grafických entit identifikovaných v dokumentech pomocí AnnoPage, virtuální propojení dokumentů zobrazujících stejné osoby nebo čtečku optimalizovanou na čtení a export vícestránkových grafických dokumentů (grafiky, komiksy, střihy apod.). Umožní také porovnávání několika zvolených elementů – grafů, map, vyobrazení osob apod.).
Ke standardizaci práce s identifikovanými grafickými entitami poslouží metodika, která navrhne jejich kategorizaci, způsob jejich jednoznačné identifikace a odkazování na ně, způsob zápisu získaných informací do strukturovaných metadatových záznamů a doporučí, jak přistoupit k jejich indexaci v kontextu digitální knihovny nebo jiných systémů.
Všechny výše uvedené nástroje pak budou v rámci poloprovozu integrovány s Českou digitální knihovnou do poloprovozu Česká digitální knihovna – Orbis Pictus, což umožní využití těchto nástrojů také všem knihovnám do České digitální knihovny zapojeným (v době psaní tohoto projektu pokrývá ČDK cca 75 % obsahu digitalizovaného v českých knihovnách). Tím se významně rozšíří také množství obsahu nabízeného díky projektu Orbis Pictus pokročilou formou umožňující další využití netextových částí dokumentů všem uživatelům.
Poslední aktualizace: 11.03.2023, 08:04