OmniOMR – rozpoznávání hudebního záznamu v digitálních knihovnách pomocí strojového učení

Identifikační číslo: DH23P03OVV008

Spolupráce partnerů: Moravská zemská knihovna v Brně / Univerzita Karlova, Matematicko-fyzikální fakulta

Doba realizace projektu: 1. 3. 2023 – 31. 12. 2027

Celkové způsobilé výdaje projektu: 24.796.000 Kč

Zdroj finanční podpory: Program NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030 

Z hlediska programu NAKI III se projekt zaměřuje jako na hlavní na tematickou prioritu č. 11 Národní a kulturní identita v uchování, dokumentaci a evidenci kulturního dědictví v oblasti lidové kultury a tradice, hudby, divadla a filmu, a v rámci vedlejších priorit na č. 16 Metody identifikace, dokumentace, evidence a interpretace národního nemovitého a movitého kulturního dědictví a č. 19 Péče o národní movité kulturní dědictví ve sbírkotvorných institucích s využitím nástrojů a aplikací moderních způsobů ukládání, uchovávání a prezentací.

Projekt implementuje jednak detekci a rozpoznávání hudební notace (Optical Music Recognition, OMR) v digitálních knihovních sbírkách, jednak navazující uživatelské rozhraní zaměřené na vyhledávání hudebních dokumentů a v hudebních dokumentech. 

V současnosti není v informačních systémech knihoven hudební notace zpracovávána jinak než než bibliograficky. Moravská zemská knihovna zavedla jako první v ČR do katalogizace hudebních rukopisů a starých tisků vkládání záznamu notového incipitu (prvních několik taktů, resp. tónů) v syntaxi Plaine And Easie Code v souladu s doporučeními RISM (https://www.jstor.org/stable/23504707). Stávající knihovní systémy však neumožňují s takto zapsanou notací dále pracovat, hudební incipit také není pro účely vyhledávání totéž co záznam celé skladby. Při digitalizaci hudebnin jsou ukládány jen jejich digitální obrazy, které procházejí nanejvýš textovým OCR. Pokud se notový záznam vyskytuje v knize, která není zpracována jako hudebnina, není nijak blíže identifikován. V současnosti tak neexistuje možnost v digitalizovaných hudebních záznamech  vyhledávat podobně, jako je možné fulltextově prohledávat dokumenty zpracovan pomocí OCR. Navíc nelze ani systematicky vyhledávat dokumenty hudební kultury ve smíšených médiích.

Důležitost automatické identifikace hudební notace ve velkých objemech digitalizovaných dokumentů dokládá například nedávný objev prvního dokladu nejstarší vrstvy polyfonie (notredamské organum) na českém území ve sbírkách Národní knihovny. (https://www.literarky.cz/kultura/1775-narodni-knihovna-hlasi-unikatni-objev-fragment-sesti-skladeb-ze-13-stoleti)

Aplikace Makarius umožní indexovat a vyhledávat notopis detekovaný a rozpoznaný službou OmniOMR v knihovních sbírkách. Systém bude koncipován jako samostatný funkční celek, který bude možné připojit prostřednictvím API k systému digitální knihovny (např. Kramerius) nebo discovery systému (např. VuFind), používaného českými knihovnami. Aplikace umožní indexaci notových záznamů získaných ze služby OmniOMR a bude implementovat vhodné algoritmy pro vyhodnocení podobnosti dvou notových záznamů. Součástí procesu indexace bude i proces hledání podobných záznamů, které už Makarius zpracoval. Index bude obsahovat i odkazy na skeny notových záznamů a URL jejich prezentace a další potřebná metadata. Prostřednictvím API bude možné vyhledávat notové záznamy nebo zobrazovat notové záznamy podobné zvolenému záznamu. Systém Makarius bude možné začít vyvíjet od počátku projektu s využitím testovacích dat, čímž se vytvoří prostor pro odhalení případných nedostatků, testování vhodných indexačních a vyhledávacích algoritmů a celkově uživatelsky přívětivé provedení aplikace.

Poslední aktualizace: 11.03.2023, 06:59