Navigation überspringen
Ruprecht-Karls-Universität Heidelberg

Digitalisierung an der UB Heidelberg: Workflow und Technik

Konzeption

Gemäß den Prinzipien des Open Access ist die freie und nachhaltige Bereitstellung ihrer wertvollen Hand- und Druckschriftenbestände erklärtes Ziel der Universitätsbibliothek Heidelberg. Dabei werden bei der Digitalisierung und der Internetpräsentation die derzeit gültigen Standards, die auch in der aktuellen Fassung der „DFG-Praxisregeln Digitalisierung“ dokumentiert sind, eingehalten.

Um einen reibungslosen und übersichtlichen Workflow zu gewährleisten, setzt die UB Heidelberg das selbstentwickelte Programm DWork – Heidelberger Digitalisierungsworkflow für die Arbeitsabläufe bei der Digitalisierung und der Webpräsentation ein. Über eine Web-Applikation wird einerseits die Generierung der Präsentationen, andererseits das Archivierungssystem der Scans und der Metadaten gesteuert. Dabei unterstützt „DWork” sämtliche Einzelschritte des Workflows von der Metadatenerstellung bis hin zu den Arbeitsschritten im hauseigenen Digitalisierungszentrum und automatisiert sämtliche Arbeitsschritte einschließlich der Erstellung der Webpräsentation des jeweiligen Werks.

Digitalisierung

Arbeiten am „Grazer Buchtisch“

Zur größtmöglichen Schonung der wertvollen und z.T. sehr fragilen Objekte und zur Erzielung maximaler Bearbeitungseffizienz und Bildqualität erfolgt die Digitalisierung wertvoller Codices, wertvoller Drucke oder großformatiger Tafelwerke auf dem so genannten Buchtisch „Grazer Modell“. Der speziell zur Digitalisierung von Handschriften entwickelte Kameratisch ermöglicht durch seine Konstruktion eine kontaktlose Direktdigitalisierung fragiler Objekte. Das Buch wird mit Hilfe eines Laserstrahls exakt positioniert, das aufgeschlagene Blatt jeweils durch den milden Sog einer Unterdruckeinrichtung fixiert. Durch eine spezielle Konstruktion ist dabei das Objektiv der Kamera im rechten Winkel auf das Blatt ausgerichtet, so dass auch Verzerrungen minimiert werden können. Das Buch muss bei diesem Vorgang nicht vollständig aufgeschlagen werden. Aufgrund der Konstruktion mit über dem Buch schwebender Kamera genügt ein minimaler Öffnungswinkel von etwa 90 Grad. Entsprechend werden die Seiten einzeln aufgenommen, und zwar jeweils zunächst alle Recto- und anschließend alle Verso-Seiten, so dass das Buch nur einmal – nämlich beim Wechsel von recto zu verso – gedreht werden muss. Für die Aufnahmen wird eine Spiegelreflex-Digitalkamera, Typ CANON EOS 5D Mark II, mit einer Auflösung von ca. 21 Mio Pixel und einer Farbtiefe von 24 Bit verwendet. Die digitalen Images werden per Firewire-Schnittstelle unmittelbar zu einem angeschlossenen PC übertragen und ohne lokale Zwischenspeicherung auf dem Festplattensystem eines Fileservers abgelegt. Dies geschieht im kameraspezifischen Rohdatenformat, um Detailverluste, Farbverfälschungen o.ä. zu vermeiden und gleichzeitig die höchstmögliche Übertragungsgeschwindigkeit zu erzielen.

Für weniger empfindliches Material werden im Digitalisierungszentrum derzeit 2 Zeutschel-Aufsichts-Buchscanner eingesetzt: für große Vorlagen bis A0 ein OS14000 und für kleinere Vorlagen bis A2 ein OS12000 (Auflösung/Farbtiefe jeweils 300 dpi/24 Bit). Diese ermöglichen die Digitalisierung von Doppelseiten, die noch während der Scanphase automatisch geschnitten werden.

Diese Geräteausstattung wurde im Januar 2011 um einen Quidenus Scanroboter RBS Pro TT ergänzt.

Qualitätskontrolle der Digitalisate und Aufbereitung für die Internetpräsentation

Nach der Digitalisierung werden die Images in das dem technischen Standard für die Archivierung entsprechende TIFF-Format umgewandelt und mittels professioneller Bildbearbeitungssoftware (Adobe Photoshop) so nachbearbeitet, dass Farb-, Helligkeits-, Kontrast- und Schärfegrad weitest möglich dem Original entsprechen. Die am Grazer Buchtisch getrennt aufgenommenen und zunächst in unterschiedlichen Verzeichnissen gespeicherten Recto- und Verso-Seiten werden maschinell umbenannt und ineinander sortiert.

Vergleich von Original und Online-Digitalisat

Zur Kontrolle von Vollständigkeit und Qualität der Digitalisate werden die Images des gesamten Werks am Bildschirm durchgeblättert und überprüft. Fehlende oder den Qualitätsansprüchen nicht genügende Seiten werden unmittelbar nachdigitalisiert und eingefügt.

Aus den digitalen Seiten wird unter Verwendung des „Metadata Encoding and Transmission Standard“ (METS) das Präsentationsmodell eines virtuellen Buches erstellt. Dazu ist es notwendig, bibliographische Metadaten anzulegen und die Buchstruktur abzubilden. Beides geschieht mit Hilfe des Programms DWork – Heidelberger Digitalisierungsworkflow, durch welches der gesamte Produktionsprozess automatisiert ist.

Dieser Workflow beginnt mit dem Anlegen eines Projektnamens, wodurch der Name der XML-Datei festgelegt wird sowie die notwendigen Verzeichnisse auf dem Server erzeugt werden. Im Hintergrund werden in einer MySQL-Datenbank die Metadaten zu den digitalen Büchern verwaltet, in der mit diesem Schritt die Metadatenfelder für den neuen Projektnamen generiert werden. Nun werden die bibliographischen Daten des jeweiligen Werkes mithilfe des Katkey direkt aus dem lokalen Bibliothekssystem abgerufen. Anschließend erfolgt die Eingabe der Strukturdaten: Kapitel- und Unterkapiteleinträge (Bezeichnung und Seitennummer des Kapitelanfangs) werden in ein freies Textfeld in einer vorgegebenen, einfachen Syntax eingegeben. Dabei ist es auch möglich, dass eine Seite mehreren Kapitel zugeordnet wird, was immer dann wichtig ist, wenn auf der letzten Seite eines Kapitels das folgende Kapitel beginnt.

Im nächsten Schritt werden die beim Scannen erzeugten Dateien in die Datenbank eingelesen, wobei in der Regel der bereits vorher bei der Umbenennung festgelegte Dateiname für die Bezeichnung der Seite übernommen wird. Hier sind sowohl die Seiten- als auch die für Handschriften und ältere Drucke typische Blattbezeichnung möglich, wodurch in der Webpräsentation die Originalzählung angezeigt und auch als Eingabemöglichkeit für den „Sprung zu Seite“ verwendet werden kann. Die Dateibenennung kann an dieser Stelle jedoch auch nach Wunsch geändert werden, z.B. wenn es sich um im Original nicht gezählte Seiten oder Seiten mit Sonderzählung handelt. Es folgen die Image-Konvertierungen (Umwandlung von TIFF in JPG, für jede Seite Generierung von 5 JPG-Derivaten unterschiedlicher Auflösung) und die OCR-Verarbeitung, die ebenfalls über das Workflow-Programm gesteuert werden.

Über eine Exportfunktion werden abschließend die für die Präsentation errechneten Images, die OCR-Daten und die Metadaten im METS-Format exportiert und an das auf dem Webserver der UB liegende Präsentationssystem übergeben sowie das Kopieren der Dateien zur Archivierung angestoßen.

Auf der Datenebene existiert am Ende dieses Prozesses eine auch für die langfristige elektronische Archivierung geeignete XML-Datei. Die bibliographischen Metadaten werden darin unter Anwendung von METS gespeichert. Neben diesen reinen Erschließungs-Metadaten, die im „Metadata Object Description Schema“ (MODS) eingebettet werden, enthält die XML-Datei auch die Strukturdaten für die Navigation in der Handschrift (Abfolge der Seiten sowie die Verknüpfung des manuell erstellten Inhaltsverzeichnisses mit den einzelnen Images). Zum Datenaustausch per OAI-Schnittstelle stehen die ebenfalls in das METS-Schema eingebettete Dublin Core Beschreibungsdaten zur Verfügung. Da in den Dateien selbst nur reiner ASCII-Text gespeichert ist, haben sie einen nur sehr geringen Speicherbedarf von wenigen kB und enthalten zudem keinerlei proprietäre Formatierungen. Ein weiterer Vorteil von XML besteht darin, dass auch zukünftige Änderungen, z.B. an der Definition des Erscheinungsbildes, sehr leicht umzusetzen sind.

Jedes Werk erhält eine zitierfähige Adressierung in Form einer persistenten URL (PURL) und eines Uniform Ressource Name (URN) und auch jede Einzelseite ist eindeutig und nachhaltig referenzierbar. Die Metadaten können per OAI-Schnittstelle abgerufen werden und enthalten alle zur Nutzung durch den DFG-Viewer notwendigen Angaben.

Volltexterfassung mit OCR

Bei der digitalen Präsentation von Druckschriften ist eine Volltextsuche implementiert. Die Bilddateien vor allem der mit Antiqua-Schriften gedruckten Texte werden automatisch mit professioneller OCR-Software (Abbyy-FineReader 8) in der Extended Platform Support (EPS)-Variante auf einem Linux-Server bearbeitet. Die Images werden vor der OCR-Verarbeitung – ggf. inkl. Korrektur der Perspektive – ausgerichtet. Zur Bestimmung der Perspektive wird die diskrete Radon-Transformation des Scans herangezogen. Das XML-Ausgabeformat enthält neben dem erkannten Text die Koordinaten für die Kennzeichnung der in der Volltextsuche gefundenen Textstellen in der Präsentation. Das Ergebnis dieser Bearbeitung sind Volltextdateien, deren Inhalt in einen Index für die Open-Source Suchengine Lucene eingespielt wird. Somit stehen die Textinhalte für eine Volltextrecherche zur Verfügung. Diese soll eine zentrale Stelle innerhalb der WWW-Präsentation einnehmen. Auch wenn mit diesem Verfahren („schmutziges OCR“) keine Vollständigkeit des Suchergebnisses garantiert werden kann und der Volltext nur zur Positivsuche dienen kann, so stellt es doch gegenüber der reinen Imagepräsentation einen großen Mehrwert dar. Deshalb wird bei der Trefferanzeige in der Volltextsuche nicht nur das Image mit „Highlighting“ der Fundstelle angeboten, sondern auch der OCR-Text selbst. So kann der Wissenschaftler die gefundene Textpassage selbst mit dem Image vergleichen. Zudem besteht so die Möglichkeit, bequem Zitate mit Copy & Paste in die eigenen Texte zu übernehmen. Über einen kurzen Informationstext wird der Nutzer über das eingesetzte Verfahren informiert.

Archivierung

Mit der Archiv-Funktion des Workflow-Programms werden die Original-Scandateien zusammen mit den Metadaten im METS-XML-Format in ein separates Verzeichnis verschoben und gepackt. Zu jeder gespeicherten Bilddatei wird eine Prüfsumme gebildet und in einer Datenbank abgelegt. Die Dateien werden durch das Workflow-Programm automatisch auf Plattensystemen des Universitätsrechenzentrums Heidelberg (URZ) archiviert. Die dortige Archivierung erfolgt per redundanter Datenhaltung auf Raid5-Festplattensystemen, die Sicherung geschieht per Band und im TSM-Archivsystem des URZ. Die Konzeption beruht auf dem IBM-Tivoli-Storage-Manager und sieht zusätzlich eine räumlich getrennte Sicherung im Rechenzentrum der Universität Karlsruhe vor. Das Monitoring des URZ umfasst die regelmäßige Überprüfung der Prüfsummen sowie des Vorhandenseins der Sicherung im TSM-System. Die Ablieferung eines Digital Master an die Deutsche Nationalbibliothek ist vorgesehen und soll umgesetzt werden, sobald Systeme für den Routinebetrieb zur Verfügung stehen (KOPAL).

Digitale Präsentation der Bestände und Benutzungsfunktionen

Innerhalb des Webauftritts der UB Heidelberg erhält der Besucher freien Zutritt zu den „digitalen Bücherregalen“, aus denen er einzelne Bücher zur genaueren Betrachtung „herausnehmen“ kann. Die Auswahl kann über thematisch geordnete Listen geschehen bzw. über die Übersicht der entsprechenden Drittmittelprojekte, oder man kann sich – wie z.B. im Falle der deutschsprachigen Palatina-Handschriften – durch eine nach Signaturen der Codices geordnete Übersicht, die neben der kurzen inhaltlichen Benennung eine exemplarische Text- oder Bildseite, die als bildhafter Repräsentant des Codices dient, leiten lassen.

Hinter dem Link zur Hand- oder Druckschrift liegt die Bildschirmpräsentation eines Buches, das auf einfache Weise nutzbar ist. So ist es möglich, eine beliebige Seiten- bzw. Blattzahl direkt anzusteuern, an den Anfang oder das Ende des Dokuments zu springen, aber auch seitenweise vor- bzw. zurückzublättern. Zusätzlich wird jede digitale Reproduktion mit weiteren Informationen und komfortablen Navigationsmöglichkeiten angereichert. Ausgehend von einer Werkeinstiegsseite, die neben den bibliographischen Informationen wie Signatur, Autor, Titel, Herstellungsort und Datierung, auch das Inhaltsverzeichnis mit einzeln anwählbaren Kapitelüberschriften enthält, kann die Handschrift oder der Druck gezielt an einer bestimmten Textstelle „geöffnet“ werden. Über eine „Vorschau“-Funktion kann sich der Betrachter mit Hilfe von Thumbnails einen Überblick über das gesamte Werk verschaffen: Darüber hinaus wird eine Zoommöglichkeit für die Betrachtung einzelner Details in verschiedenen Vergrößerungsstufen sowie eine Druckfunktion angeboten. Die kompletten Hand- oder Druckschriften werden auch als pdf-Dateien zum Download bereitgestellt. Die Einbindung von Social-Bookmarks rundet die Präsentation ab und bietet die Möglichkeit, persönliche Lesezeichen zu vergeben.

Ansprechpartner



i Weitere Informationen:
zum Seitenanfang