Digitalia ARTS MUNI Technical Documentation

Digitální knihovna Arna Nováka

Aktualizováno: 4. 2. 2021

Kontaktní email: digitalia@phil.muni.cz

Představení

Cílem Digitální knihovny Arna Nováka (DK AN) je usnadnit přístup k dílu prof. Arna Nováka, literárního vědce, kritika, historika a esejisty (* 2. 3. 1880, † 26. 11. 1939). Zahrnuty jsou digitalizované materiály z fondu Ústřední knihovny Filozofické fakulty Masarykovy univerzity, u kterých autorský zákon umožňuje volné zpřístupnění (vlastní monografie, úvody, doslovy a díla, ze kterých pochází).

Zamýšlenou cílovou skupinou jsou badatelé se zájmem o osobu Arna Nováka, období, ve kterém působil a české literární dějiny obecně. Veškerá díla jsou volně přístupná, vyjma autorsky chráněných ilustrací. Obsah lze číst přímo v prohlížeči nebo stáhnout v několika dále popsaných formátech.

Technické řešení DK AN je ve správě Centra informačních technologií Filozofické fakulty Masarykovy univerzity jako součást infrastruktury pro digitální knihovny FF MU. Digitální knihovna vznikla v roce 2009 a do roku 2020 byla ve správě Ústřední knihovny FF MU. Ta nadále zůstává správcem metadat a dat obsažených v systému a zodpovídá za další rozvoj obsahu. V roce 2020 byla DK AN v rámci projektu LINDAT/CLARIAH-CZ převedena do stávajícího systému Islandora.

Technická implementace

Systém Islandora se skládá z několika komponent:

Podrobnější diagram architektury systému Islandora je součástí jeho dokumentace.

Jednotlivé záznamy v DK AN (díla, části děl a strany) jsou uložené jako Drupal Nodes a seskupené podle typu do Content types. DK AN obsahuje čtyři Content types: Book, Part, Page a Author.

Soubory jsou v repozitáři uložené jako Media a seskupené do Media types. Media jsou následně připojená k jednotlivým Nodes.

Nodes typu Book mohou mít připojené Media types Book cover, Book PDF, Book text, MARC XML.

U Nodes typu Page se jedná o typy Page scan, TIFF scan, Page thumbnail, Illustration a Page text.

Nodes typu Part neobsahují žádné soubory, jenom metadata, mezi které patří odkaz na dílo a rozsah stran. Na základě těchto údajů se na jejich stránkách zobrazí seznam příslušných stran daného díla.

Na zobrazování plných textů ve formátu PDF (Media type Book PDF) se využívá prohlížeč PDFjs. Obrázky jednotlivých stran (Media type Page scan) se dají prohlížet v prohlížeči OpenSeadragon. Ostatní soubory jsou uživatelům zpřístupněné pro stažení na stránkách příslušných děl nebo stran.

Indexace a vyhledávání

Pro indexaci a vyhledávání v repozitáři se využívá Apache Solr.

Index Search content zahrnuje všechny objekty typu Book, Part a Page. Indexují se pole název, název autora, Content type, dílo, rok vydání a plné OCR texty připojené ke stranám a dílům.

Vyhledávaní nabízí 2 možnosti:

Výsledky obou vyhledávaní se dají filtrovat podle roku vydání, buď zadáním rozsahu do textových polí Rok vydání (od) a Rok vydání (do) nebo použitím posuvné lišty v horní části stránky.

Při vyhledávání jsou ignorovány znaky patřící do těchto kategorií (Unicode Character Categories):

Servery, zálohování, integrita a autenticita

Pro provoz systému se využívá infrastruktury pro provoz virtuálních serverů na Masarykově univerzitě postavené na technologii VMware umístěné na ÚVT MU. Operační systém je Ubuntu LTS (dle doporučení Islandora Community).

Zálohování probíhá pravidelně na páskové zařízení postavené na systému Bacula spravované na ÚVT MU.

V Drupalu se zaznamenávají všechny změny v metadatech děl, částí děl, stran a autorů. Uživatelé s rolí Editor mohou verze objektů (tzv. Revisions) zobrazit, porovnat, mazat, anebo navrátit obsah k předchozí verzi.

Uživatelské role

Obsah DK AN je zpřístupněný i nepřihlášeným uživatelům. Takovýto uživatel může ‘prohlížet’ jednotlivá díla a jejich strany, vyhledávat mezi názvy děl, častí děl a autory a také prohledávat plné texty děl. K dispozici pro stažení má všechny typy souborů uvedené níže [Obsažené soubory].

Přihlášení uživatelé s rolí Editor mají přístup k editačním formulářům děl, částí děl, stran a autorů. Mohou také spravovat verze objektů (viz Servery, zálohovaní, integrita a autenticita).

Pro sdílení metadat v DC je vytvořený OAI-PMH endpoint všech děl v DK AN.

Obsah repozitáře (díla, části děl a strany) je přístupný přes REST API. Podporované formáty pro metodu GET jsou csv, json a jsonld.

URI jednotlivých objektů: https://arne-novak.phil.muni.cz/node/[id objektu]

Ochrana osobních údajů

Pro sledování využívanosti stránek je nasazen nástroj Matomo. Sbíraná data jsou uložena na lokálním serveru.

Obsah digitální knihovny

Podmínky použití

Distribuce datové sady neobsahuje autorská díla. Součástí poskytované distribuce datové sady nejsou autorská díla ve smyslu § 2 zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). Autorské právo tak nikterak nebrání libovolnému opětovnému užití obsahu poskytované distribuce datové sady.

Obsažené soubory

Knihovna obsahuje záznamy pro celá díla, jejich části a také jednotlivé strany.

Díla lze zobrazit ve formátu PDF a následně stáhnout, nebo procházet po jednotlivých stranách. Celá díla je možné stahovat také ve formátu TXT. Části děl (například úvody) lze zobrazit ve formátu PDF a následně celé dílo stáhnout, nebo procházet po jednotlivých stranách.

Soubory připojené k dílům:

Strany je po rozkliknutí detailu možné stahovat ve formátu TXT nebo PNG.

Soubory připojené ke stranám:

Postup digitalizace

Skenování proběhlo na knižním skeneru PlusTech OpticBook 4600. Parametry skenování byly: 300 DPI, B&W, TIFF fax G4. Pro zobrazení se generuje obrázek PNG v polovičním rozlišení a odstínech šedé.

Následné zpracování (vyrovnání, centrování, vyčištění) proběhlo ručně za pomoci vlastního programu. Pouze všechna čtyři vydání Dějin literatury české byla zpracována automaticky programem Scan Tailor z důvodu časové náročnosti.

Převod na text byl proveden programem Readiris Pro 10, Corporate Edition. Korektury textu neplánujeme.

Metadata

DK AN ukládá metadata v Drupal Fieds. Jednotlivé typy záznamů v DK AN (Díla, Části děl, Strany a Autoři) mají nadefinovaný seznam příslušných Fields.

Při exportu metadat v schématu DC se tyto Fields namapují na prvky DC schématu.

Metadatové schéma pro díla spolu s mapováním na DC:

Field (česky) Field (anglicky) DC term Povinné Vyhledatelné Veřejné Opakovatelné Příklad hodnoty Standardy a pravidla Komentář
Název Title http://purl.org/dc/terms/title Ano Ano Ano   Patero obrázků z dějin knihy    
Autor Author http://purl.org/dc/terms/contributor Ano   Ano Ano Novák, Arne    
Rok vydání Year of issue http://purl.org/dc/terms/issued Ano   Ano   1920    
Licence Licence http://purl.org/dc/terms/rights Ano   Ano   Volné dílo řízený slovník Hodnoty: Volné dílo, EP, N/A
Klíčová slova Keywords http://purl.org/dc/terms/subject     Ano   Arne Novák    
ID ID http://purl.org/dc/terms/identifier Ano   Ano   24   Identifikátor v knihovně
PID PID http://purl.org/dc/terms/identifier         20706   Systémové číslo v knihovním systému Aleph MU
SYSNO SYSNO http://purl.org/dc/terms/identifier         46428    
Vydavatel Publisher http://purl.org/dc/terms/publisher     Ano Ano Spolek výtvarných umělců Mánes    
Citace Citation http://purl.org/dc/terms/bibliographicCitation Ano   Ano   NOVÁK, Arne. Jan Neruda. 3. vyd. Praha: Spolek výtvarných umělců Mánes, 1920. Zlatoroh, sv. 2.    
Popis Description http://purl.org/dc/terms/description     Ano Ano S podobiznou od M. Švabinského   Popis se obvykle týká fyzického výtisku
Typ Type http://purl.org/dc/terms/type     Ano   Kniha