Začalo se ukazovat, že tak, jako se díky Internetu změnilo publikování informací z relativně elitní činnosti v záležitost dostupnou téměř každému, tak se bude muset i vytváření popisu takto publikovaných informací dostat z rukou specialistů (převážně knihovníků) do rukou osob za tyto zdroje primárně zodpovědných (tedy autorů nebo vydavatelů). Jedině tak bude možné zajistit větší úspěšnost vyhledávání informací z těchto informačních zdrojů.
Aby však měla tato cesta naději na úspěch, bylo nutno nalézt nějaký jednotný metadatový standard, použitelný pro popis elektronických informačních zdrojů. Tento standard by musel být natolik univerzální, aby se dal využít pro co nejširší spektrum popisovaných informačních zdrojů a zároveň natolik jednoduchý, aby jej zvládl kdokoli, kdo je schopen informace na Internetu publikovat. Již z této charakteristiky je zřejmé, že těmto požadavkům nevyhovuje žádný ze standardů, používaných knihovnami pro popis tištěných publikací.
V roce 1995 byl proto organizacemi OCLC
(Online Computer Library Center) a NCSA
(National Centre for Supercomputer Applications) uspořádán ve městě Dublin
v americkém státě Ohio seminář, na němž více než padesát odborníků různého
zaměření z univerzit, knihoven a dalších podobných institucí vytvořilo
základ metadatového standardu, pojmenovaného Dublinské jádro (Dublin
Core, DC). Dublin Core je vytvořen jako sada patnácti volitelných a
libovolně opakovatelných základních prvků, tvořících takzvaný jednoduchý
Dublin Core (viz. tabulka 1). Pokud by tyto prvky nepokrývaly specifické
potřeby nějaké aplikace, je možné jejich význam zpřesnit libovolným kvalifikátorem,
nebo jejich počet rozšířit přidáním dalších prvků, specifických pro danou
aplikaci. Záznam Dublin Core lze uložit jak samostatně, tak přímo do dokumentu
HTML nebo XML, pro lepší vyjádření vzájemných vztahů mezi elementy je možné
pro jeho zápis použít sémantiku RDF. V době psaní tohoto příspěvku je v
běhu hlasování o přijetí Dublin Core 1.1 jako normy NISO Z39.85
| Obsah | Intelektuální vlastnictví | Instanciace zdroje |
| Název (title) | Tvůrce (creator) | Datum (date) |
| Předmět a klíčová slova (subject) | Vydavatel (publisher) | Formát (format) |
| Popis (description) | Přispěvatel (contributor) | Identifikátor zdroje (identifier) |
| Typ zdroje (type) | Správa autorských práv (rights) | Jazyk (language) |
| Zdroj (source) | ||
| Vztah (relation) | ||
| Pokrytí (coverage) | ||
| Tabulka 1 Jednoduchý Dublin Core, verze 1.1 | ||
Těžištěm aplikací Dublin Core ale stále zůstává popis elektronických dokumentů, ať už jde o sbírky digitálních knihoven, nebo o katalogy informačních zdrojů Internetu. Tyto aplikace lze potkat převážně v oblasti vědecké a vzdělávací, jde většinou o oborově zaměřené katalogy nebo sbírky elektronických dokumentů, vzniklých jako výsledek činnosti dané instituce. Zde je namístě zmínit například australský MetaChem katalog elektronických zdrojů z oboru chemie, korejský AUCS národní souborný katalog dizertací a článků z akademických publikací, evropský EULER, umožňující přístup k publikacím ze světa matematiky, nebo z mnoha amerických Digital Library Catalog univerzity v Berkeley, Gateway to Educational Materials amerického ministerstva školství, nebo University of Michigan Library Registry Database. Významné jsou také projekty, jejichž cílem je popis zdrojů Internetu pro účely národní bibliografie zde hrají významnou úlohu projekty skandinávských zemí The Nordic Metadata I a II. Opomenout nelze ani to, že již ve čtyřech zemích světa (v Austrálii, Dánsku, Finsku a Velké Británii) se metadatové standardy, založené na Dublin Core, používají pro popis a vyhledávání dokumentů na všech úrovních státní správy. Podrobnější a rozsáhlejší seznam projektů používajících Dublin Core lze nalézt na stránkách této iniciativy [2].
Aplikace, využívající toho, že jak popisované zdroje, tak i samotná metadata jsou spravována stejnou autoritou, mají nezanedbatelnou výhodu v tom, že je možné dát tvůrcům metadat k dispozici integrované nástroje pro jejich tvorbu, lze zajistit, aby byly všechny zdroje včetně nově vznikajících opatřeny metadaty požadované kvality a je možné metadata bez problémů obousměrně svázat s popisovanými zdroji (například cestou vložení metadat přímo do zdroje). Nezajímavé není v tomto případě ani ekonomické hledisko: jedině pro autora primárního dokumentu neznamená vytvoření metadatového záznamu žádné zvláštní úsilí a časovou zátěž.
Jinak je tomu v případech, kdy je cílem aplikace popis určité podmnožiny informačních zdrojů Internetu. Zde se nelze spoléhat na to, že metadata ve zdroji obsažená jsou kvalitní, ani na to, že popisované zdroje vůbec nějaká metadata obsahují. Dalším problémem, známým i z běžných prohledávačů Internetu, je neexistence zpětné vazby v případě přemístění zdroje nebo změny jeho obsahu nedojde automaticky k aktualizaci metadatového záznamu o zdroji. Projekty tohoto typu jsou většinou doménou univerzitních nebo národních knihoven, nebo institucí knihovnám blízkých.
Zde je nutno na prvním místě jmenovat CORC (http://www.oclc.org/corc/), systém pro kooperativní katalogizaci online zdrojů. Protože jde o projekt organizace OCLC, která je již desítky let nejvýznamnějším centrem spolupráce knihoven a zároveň jedním z kmotrů Dublin Core, má tento systém velké ambice: měl by umožnit integraci klasických katalogů knihoven, udržovaných ve formátech typu MARC a katalogů elektronických informačních zdrojů, vytvářených ve formátu Dublin Core. Samozřejmou věcí jsou proto pro tento systém konverze mezi oběma typy formátů a mnoho dalších funkcí. Problém zpětné vazby je zde řešen využitím serveru PURL (Persistent Uniform Resource Locator, http://purl.org/), který zajišťuje převod mezi trvale přidělenou adresou (PURL) a skutečnou adresou zdroje (URL).
Dalším významným projektem v této oblasti jsou pak The Nordic Metadata Project I a II (http://renki.lib.helsinki.fi/meta/), které sdružují účastníky (převážně univerzity) z Norska, Švédska, Dánska, Finska a Islandu. První projekt, který proběhl v letech 1996 až 1998 a měl za cíl vytvoření sdíleného systému pro tvorbu metadat. Druhý projekt pak na ten první přímo navazuje a bude ukončen v srpnu letošního roku.
V rámci těchto projektů bylo již dosaženo významných výsledků: byl vytvořen systém pro centrální přidělování URN (Uniform Resource Name), tedy jednoznačného identifikátoru, který umožňuje jím opatřené dokumenty identifikovat, i když se změní jejich umístění. Existuje nástroj pro konverzi metadat mezi formátem Dublin Core a národními formáty typu MARC, používanými knihovnami v jednotlivých účastnických zemích. Pro tvorbu metadat je připravena služba, která ze zadaných metadatových údajů vygeneruje zdrojový kód vhodný pro vložení do html stránky, v plánu je její rozšíření o možnost analýzy zadané stránky a automatického vytvoření metadat. Další služba naopak umožňuje zobrazení metadat, obsažených ve zdrojovém kódu stránky a posledním významným počinem je vytvoření prohledávače Nordic Web Index, který se při vyhledávání opírá i o metadata Dublin Core v indexovaných stránkách uložená. Dalším kladem tohoto prohledávače je podpora protokolu Z39.50, umožňující jeho integraci do elektronických katalogů knihoven.
Přestože jsou tyto nástroje určeny primárně pro využití v zemích účastníků projektu, statistiky ukazují, že jej využívají zájemci z více než šedesáti národních domén. Nástroje v rámci tohoto projektu vytvořené jsou navíc volně šířeny a byly již převzaty do mnoha dalších projektů v různých zemích, což bylo usnadněno tím, že už během jejich vývoje bylo počítáno s podporou více jazyků i národních zvyklostí jednotlivých účastnických zemí.
Téměř jediným realizovaným českým projektem, využívajícím Dublin Core, je projekt Digitální knihovny plných textů vytvořené společností Virtus (http://e-lib.rss.cz/). Bohužel obsahuje tato knihovna zatím jen 88 prací, což znamená, že z hlediska metadat jde o mizivé množství, zvláště ve srovnání se zahraničními bázemi obsahujícími popisy statisíců informačních zdrojů.
Projektem, který by mohl tuto situaci změnit je až letos zahájený dvouletý pilotní projekt Národní knihovny ČR, zaměřený na vytvoření metodických, technických, organizačních a právních podmínek pro zajištění trvalého přístupu k domácím elektronickým zdrojům Internetu. Tento projekt, na němž po technické stránce spolupracuje i Masarykova univerzita, chce stavět na výsledcích obdobných projektů realizovaných v jiných zemích a také v nejvyšší možné míře využít postupů a nástrojů v rámci těchto projektů vytvořených.
Ačkoli by konečným cílem tohoto projektu měl být národní depozit elektronických zdrojů, zachycující a trvale uchovávající dokumenty, publikované na českém Internetu, musí být nejprve komplexně vyřešena problematika popisu těchto dokumentů.
Jak již nadpis tohoto článku napovídá, základem pro český standard popisu
elektronických zdrojů byl zvolen Dublin Core. Toto rozhodnutí padlo hned
z několika důvodů:
- v knihovnách používaný formát UNIMARC je příliš komplexní
- neexistuje standardní způsob, jak vložit UNIMARC do zdrojového kódu
HTML dokumentu
- Dublin Core a od něj odvozené standardy jsou ve světě pro tyto účely
používány nejčastěji
- nástroje podporující Dublin Core vyvinuté pro tyto účely jsou dostupné
zdarma.
První etapou tohoto projektu bude převzetí, úprava a odzkoušení dostupných nástrojů pro vytváření metadatových popisů stránek www k tomuto účelu budou pravděpodobně využity především nástroje vzniklé v rámci projektů The Nordic Metadata I a II nebo nástroje dostupné na serveru UKOLN (The UK Office for Library and Information Networking, http://www.ukoln.ac.uk). Tyto nástroje budou lokalizovány a navzájem integrovány tak, aby byla zajištěna základní požadovaná funkčnost v této fázi možnost ručního zadávání metadat do databáze. Poté bude možné přistoupit k jejich odzkoušení při tvorbě katalogu českých elektronických periodik. Na tomto katalogu, který bude přínosem pro český Internet i sám o sobě, budou prověřeny použité nástroje a prakticky se ověří i zvolený standard popisu a jeho pravidla a zároveň budou stanovena kritéria pro výběr elektronických zdrojů pro registraci a v budoucnu i archivaci. Výsledkem této fáze bude nejen zpřesnění těchto pravidel ale možná i úprava samotného standardu Dublin Core, a to buď cestou přidání kvalifikátorů, nebo cestou rozšíření počtu jeho základních prvků. V obou případech bude ale snaha o zachování co největší kompatibility s ekvivalentními formáty používanými v jiných zemích.
Během této etapy začnou také jednání s vydavateli vybraných elektronických periodik, jejichž cílem bude dohodnout oboustranně výhodný model spolupráce. Cílem jednání ze strany nositele projektu bude přesvědčit vydavatele k používání standardu Dublin Core pro popis publikovaných článků samotnými autory a k umisťování tohoto popisu do zdrojového textu článku při jeho publikování. Zároveň se budou hledat nejvhodnější cesty pro budoucí získávání a trvalé uložení dokumentů. To s sebou samozřejmě nese spoustu dalších otázek, které ale již překračují rozsah tohoto článku (autorské právo, kontrola autenticity, apod.).
Po technické stránce bude dalším krokem dotvoření sady nástrojů pro tvorbu záznamů Dublin Core tak aby je byly k dispozici všem zájemcům na českém Internetu. Bude řešena problematika přidělování URN, zpřístupněny budou šablony pro ruční i automatickou tvorbu metadat. Budou vyvolána jednání s provozovateli nejznámějších českých prohledávačů Internetu s cílem prosadit podporu Dublin Core alespoň do jednoho z nich, což by v případě úspěchu znamenalo obrovský průlom do dosavadních zvyklostí na našem Internetu.
Ing.
Petr Žabička (*1970) je studentem doktorského studia na Fakultě
informatiky MU v Brně a pracovníkem odboru automatizace a náměstkem
ředitele Moravské zemské knihovny v Brně.
Spolupracuje s ÚVT MU v Brně na řešení
výzkumného záměru MŠM 143300004 "Digitální knihovny", v jehož rámci je
zkoumána mimo jiné i problematika metadatového standardu Dublin Core.