semAnt – Sémantický průzkumník textového kulturního dědictví

Identifikační číslo: DH23P03OVV060

Spolupráce partnerů: Moravská zemská knihovna v Brně / Knihovna Akademie věd ČR , v.v.i. / Národní knihovna České republiky / Vysoké učení technické v Brně

Doba realizace projektu: 1. 3. 2023 – 31. 12. 2027

Celkové způsobilé výdaje projektu: 27.462.000 Kč

Zdroj finanční podpory: Program NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030

Fondy českých knihoven a archivů obsahují obrovské množství digitalizovaných dokumentů. Možnosti jejich online prezentace a vyhledávání se v posledních letech výrazně zlepšují. Velká část digitalizovaných tištěných dokumentů je již zpracována pomocí OCR, a je tedy fulltextově dohledatelná. Již také existují nástroje pro automatický přepis starých tisků i ručně psaných dokumentů a jejich kompletní zpracování je nyní jen otázkou času.

Samotné fulltextové vyhledávání, které se v knihovních systémech využívá, je ovšem nejjednodušší možné. Dokáže většinou vyhledat různé tvary slova, ale neumí pracovat s významem. Najít dokumenty k určitému tématu je tedy velmi pracné. Oproti tomu i současné webové vyhledávače s významy slov pracují a umožňují tak najít texty, které sice neobsahují přesný hledaný výraz, ale obecněji hledanému tématu odpovídají.

Hlavním cílem tohoto projektu je proto zlepšit možnosti vyhledávání ve fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu a zlepšit možnosti přirozené navigace mezi tematicky podobnými dokumenty. Uživatelům poskytneme fulltextové vyhledávání rozšířené o pochopení významu dotazů, možnost vyhledávat podle částí textu (například odstavců) s možností současně specifikovat téma, které ho v daném textu zajímá. Systém bude pracovat s automaticky identifikovanými tématy, ale umožní uživatelům definovat vlastní témata na základě příkladů z textů.

Schopnosti identifikace témat v textech v projektu využijeme rovněž pro přehledové vizualizace frekvence výskytů témat a jejich vzájemné interakce. Bude tak možné sledovat vývoj témat v čase, jejich návaznost a proměny či jejich propojení se známými pojmenovanými entitami jako jsou místa a osoby.

Výsledky projektu bude využívat jednak laická veřejnost při rutinní práci s knihovními systémy, jednak vědecká komunita pro kvalitnější analýzu textových dat. Zároveň doufáme, že části projektu najdou uplatnění v softwaru pro mediální analýzu současných médií a sociálních sítí.

Poslední aktualizace: 11.03.2023, 08:07