Neudecker

Digitale Kuratierungstechnologien für Bibliotheken

Clemens Neudecker1 und Georg Rehm2

1Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, 2Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI)

Abstract

In diesem Artikel werden digitale Kuratierungstechnologien vorgestellt, wie sie aktuell im Rahmen eines vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Verbundprojekts unter der Leitung des DFKI für die Anwendung in verschiedenen Branchen und Domänen entwickelt werden. Das besondere Augenmerk liegt dabei auf deren Anwendungsszenarien in Bibliotheken – nach einer Einführung in die Herausforderungen, die sich durch die Massendigitalisierung in Bibliotheken stellen, werden exemplarisch Einsatzmöglichkeiten von Kuratierungstechnologien im Kontext von Bibliotheken vorgestellt. Anhand von Beispielen aus der bibliothekarischen Arbeit im 21. Jahrhundert, sowie der Nachnutzung digitaler Bibliotheksdaten in Wissenschaft und Kreativwirtschaft, werden die vielfältigen Möglichkeiten und Potenziale der Nutzung von Kuratierungstechnologien zur Datenaufbereitung, -anreicherung und Bereitstellung von attraktiven Diensten in Bibliotheken sowie für die Entwicklung neuartiger Forschungs- und Geschäftsfelder in deren Umfeld aufgezeigt.

This article presents smart technologies for digital content curation that are currently under development in a collaborative project, coordinated by DFKI and funded by the German Federal Ministry of Education and Research. After a brief introduction into the concept of digital curation, the article goes on to explain the various technologies and their use cases across a number of sectors. In the following, we go into greater detail regarding the particular needs and requirements for digital curation technologies in the domain of libraries. Due to their large-scale digitisation activities, libraries are creating vast amounts of digital data. Technologies for digital curation can help leverage the full potential of these data for applications in scholarship, digital humanities, and the creative industries and produce new opportunities for research and industry, as illustrated by a number of examples from the Berlin State Library.

1 Einleitung: Kuratierung digitaler Daten

Das Kuratieren digitaler Informationen, Daten, Meldungen und Medieninhalte hat sich in den vergangenen Jahren als eine grundlegende Tätigkeit mit neuen Anforderungen herauskristallisiert, die von handelsüblichen Content-Management-Systemen schon längst nicht mehr abgedeckt werden. Abstrakt formuliert ist Kuratierung ein komplexer zeit- und wissensintensiver Prozess, in dem Experten – z.B. Redakteure, Wissenschaftler oder interdisziplinäre, verteilte Teams – aus einer thematisch typischerweise homogenen, oft aber auch heterogenen Sammlung von Quellen ein neues, in sich kohärentes und abgestimmtes Gesamtwerk entwickeln, das auf einen spezifischen Fokus ausgerichtet ist, also eine spezielle kommunikative Funktion besitzt.

Die erforderlichen Arbeiten umfassen das Auswählen, Abstrahieren, Einordnen, Internationalisieren, Zusammenfassen, Anreichern, Sortieren, Visualisieren und das zusätzliche Erläutern, Umschreiben, Neuformulieren und Ergänzen der Inhalte, wobei insbesondere zu berücksichtigen ist, dass Geschwindigkeit, Volumen und Anzahl der Quellen der zu verarbeitenden Informationen stetig wachsen (im Digitalkontext z.B. Online-Zeitungen, Nachrichtenportale, Fachinformationen, aber natürlich auch die sozialen Netzwerke wie z.B. Twitter, Facebook, Instagram, Pinterest etc.).

Ein Beispiel: Die Entwicklung eines für ein Museum vorgesehenen interaktiven Exponats, das bei Ausgrabungen entdeckte Artefakte mit Fotos, Beschreibungen und Zeitangaben auf einer interaktiven Karte visualisiert, erfordert die Auswahl der geeigneten Objekte, die Erstellung entsprechender Inhalte (Beschreibungen, Fotos, Videos etc.), die Gestaltung der Karte, die Festlegung thematischer Perspektiven sowie natürlich auch die eigentliche Implementierung. Ein zweites Beispiel aus dem Bereich Online: Die Erstellung eines deutschsprachigen Artikels über eine Naturkatastrophe in Süd-Ost-Asien erfordert die Durchsicht von Agenturmeldungen (Lesen, Sortieren, Auswählen), die Recherche in diversen sozialen Netzwerken (Auswahl und Übersetzung von Texten, Zitaten, evtl. auch Bild- und Videomaterial, Sicherstellung der Authentizität etc.) sowie auch in wissenschaftlichen Diskussionsforen (etwa zum Thema Klimawandel, Tsunamiforschung etc.) und die anschliessende Zusammenfügung der gefundenen Bausteine zu einem neuen, in sich geschlossenen Beitrag, der evtl. zu späteren Zeitpunkten fortlaufend ergänzt wird.

Typische Arbeitsabläufe dieser Form lassen sich in zahlreichen Branchen und Domänen identifizieren, in denen – bewusst sehr abstrakt formuliert – eine oder mehrere Personen aus eingehenden Informationen ausgehende Informationen produzieren. Nicht nur im Rahmen der aktuellen Diskussion zu den Themen „Digitalisierung“ und „Neue Arbeit“ stellt sich in diesem Zusammenhang die Frage, wie derartige Workflows in unterschiedlichen Bereichen und Branchen bestmöglich durch smarte semantische Technologien unterstützt werden können. In diesem Artikel sehen wir uns den Zusammenhang zwischen Kuratierungstechnologien und Bibliotheken etwas genauer an.

2 Digitale Kuratierungstechnologien

Bevor wir uns den Bibliotheken zuwenden, gilt es jedoch zu erläutern, was Kuratierungstechnologien eigentlich sind. Die entsprechenden Grundlagen werden derzeit im Rahmen eines vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Verbundprojekts [1] untersucht, in dem das DFKI als Forschungspartner und Koordinator gemeinsam mit den vier Berliner Unternehmen ART+COM AG, Condat AG, 3pc GmbH und Kreuzwerker GmbH „Digitale Kuratierungstechnologien“ (DKT) diverse Prototypen entwickelt. [2]

Das Ziel dieses ersten Pilotprojekts ist es, komplexe, von Redakteuren und Wissensarbeitern durchgeführte digitale Kuratierungsprozesse durch Sprach- und Wissenstechnologien zu unterstützen. Das DFKI bringt verschiedene Komponenten aus diesem Bereich ein, entwickelt diese weiter und baut gemeinsam mit den o.g. KMU-Partnern eine Plattform für digitale Kuratierungstechnologien auf, die u.a. Funktionen zur Recherche, Anreicherung, Analyse, Kombination (z.B. thematisch, chronologisch, räumlich), Zusammenfassung und Internationalisierung von Inhalten zur Verfügung stellt. Die einzelnen Kuratierungstechnologien werden als RESTful APIs angeboten, die flexibel zu Workflows von Services kombiniert werden können. Ermöglicht wird dies über eine flexible Plattform, die intern mit Annotationen im Natural Language Processing Interchange Format (NIF) arbeitet und in dem ebenfalls vom DFKI koordinierten EU-Projekt FREME entwickelt wurde. [3]

Die über diese Plattform zur Verfügung stehenden Kuratierungsservices können von den vier KMU-Partnern des Verbundes im Rahmen ihrer jeweiligen Nutzungsszenarien (nahezu) beliebig in die jeweiligen branchenspezifischen Lösungen integriert werden, was wiederum die Implementierung branchenspezifischer Workflows und skalierbarer Anwendungen ermöglicht. Die Plattform erlaubt es also den Industriepartnern, innovative und effizienz- sowie qualitätssteigernde Lösungen für ihre unterschiedliche Branchen effizienter zu entwickeln, zu betreiben und zu verwerten. In dem Projekt stehen die folgenden vier Branchen im Fokus:

  1. Museen und Showrooms
  2. TV-/Radio und Web-TV-Sender
  3. Verlage und Medienhäuser
  4. Öffentliche Archive

Die vom DFKI eingebrachten Technologien umfassen computerlinguistische Methoden, Komponenten und Ansätze aus dem Gebiet der Sprach- und Wissenstechnologien, die im Kontext zahlreicher Projekte (BMBF, BMWi, EU/EC etc.) entwickelt wurden. Die Technologien können grob den drei Bereichen Semantische Analyse (Informationsextraktion, Named Entity Recognition, Temporale Analyse, Geolokalisierung, Annotation mit allgemeinen Metadaten, Clustering, Klassifikation, Sentiment-Analyse), Semantische Generierung (Textgenerierung, Semantic Storytelling) und Mehrsprachige Technologien (maschinelle Übersetzung, mehrsprachige Linked Data) zugeordnet werden.

Die Plattform besitzt im Kontext der Wertschöpfungskette eine spezielle Bedeutung. Je nach Anwendungsfall und Branche fällt die Wertschöpfungskette zur Kuratierung von Inhalten unterschiedlich aus, so dass (mindestens) drei Klassen beteiligter Akteure zu unterscheiden sind:

  • die kuratierende Institution, z.B. Museum, Fernsehsender, Verlag oder Archiv;
  • Dienstleister/Agenturen, die für die kuratierende Institution Inhalte und Technologien bereitstellen bzw. Komplettlösungen entwickeln;
  • an der Kuratierung beteiligte Redakteure und Wissensarbeiter, z.B. interne Mitarbeiter oder Dienstleister, aber auch externe Wissenschaftler, Experten oder Freiberufler.

Die Plattform für digitale Kuratierungstechnologien soll diesen Akteuren umfassende Funktionalitäten bieten, die möglichst den gesamten Kuratierungsprozess flexibel unterstützen. Durch den Einsatz von Sprach- und Wissenstechnologien können einzelne, bisher typischerweise rein manuell bzw. intellektuell durchgeführte Kuratierungstätigkeiten zumindest (teil-)automatisiert werden. Die Nutzer der Plattform können grössere Mengen an Inhalten schneller sichten und weiterverarbeiten. Insgesamt wird mit der Plattform somit eine Effizienzsteigerung und Kostensenkung des Kuratierungsprozesses angestrebt – bei gleichbleibender oder sogar verbesserter Qualität des erzeugten Outputs.

Das DFKI entwickelt die vorhandenen bzw. verfügbaren Komponenten so weiter, dass sie den Anforderungen der KMU-Partner genügen und im Rahmen erster prototypischer Anwendungen evaluiert werden können; die tatsächliche Integration in die jeweiligen Branchenlösungen ist für einen späteren Zeitpunkt geplant. Um in diesem Zusammenhang eine erfolgreiche Markteinführung zu gewährleisten, fokussieren wir insbesondere die folgenden Zielmerkmale der Plattform: Wir streben vollständig integrierte, robuste, performante und skalierbare Komponenten mit flexiblen APIs an, die eine effiziente Einbettung in die branchenspezifische Kuratierungsworkflows erlauben. Ferner ist eine möglichst einfache Nutzbarkeit der Cloud-Plattform von zentraler Bedeutung (SaaS). Für die Branchenlösungen ist auf Seiten der KMU-Partner jeweils eine sehr hohe Usability hinsichtlich User Interfaces, Interaktionsdesign und Informationsvisualisierung vorgesehen. Neben den jeweils eigenständigen und branchenspezifischen Schnittstellen der vier KMU-Partner arbeitet das DFKI an einer Art grafischem Kuratierungs-Dashboard, dessen aktueller Stand in den nachfolgenden Abbildungen exemplarisch dargestellt wird. Einen dynamischeren Eindruck der aktuellen Version des Dashboards vermittelt ein kurzes Screencast-Video, das auf YouTube zur Verfügung steht. [4]

Dashboard

Abbildung 1: Das am DFKI entwickelte Kuratierungs-Dashboard, das einen unmittelbaren Zugriff auf die verschiedenen im Projekt DKT entstandenen Kuratierungsservices bietet (1/2)

Dashboard

Abbildung 2: Das am DFKI entwickelte Kuratierungs-Dashboard, das einen unmittelbaren Zugriff auf die verschiedenen im Projekt DKT entstandenen Kuratierungsservices bietet (2/2)

3 Kuratierungstechnologien in Bibliotheken

Im Folgenden werden wir uns mit der Frage beschäftigen, inwieweit (insbesondere digitale) Bibliotheken von den oben genannten Entwicklungen profitieren können, welche Anforderungen und Anwendungsfälle sich im besonderen Kontext der bibliothekarischen Arbeit im 21. Jahrhundert für den Bereich der digitalen Kuratierung ergeben, aber auch welche Nutzungspotenziale Bibliotheken beherbergen, die sich für Wissenschaft und Wirtschaft durch eine entsprechende Aufbereitung und Anreicherung der digitalen Bestände mit Kuratierungstechnologien erschliessen lassen.

3.1 Die Auswirkungen der Digitalisierung

Bibliotheken sind in erster Linie grosse Wissensspeicher – neben unzähligen Dokumenten wie Büchern, Zeitungen, Zeitschriften und vielen weiteren Informationsträgern mehr, die in Bibliotheken aufbewahrt und dort der Öffentlichkeit zugänglich gemacht werden, bilden dabei auch Ontologien und Systematiken einen elementaren Bestandteil einer jeden Bibliothek – um dieses Wissen zu ordnen, zu erschliessen und zu kontextualisieren und damit letztendlich auch besser find- und nutzbar zu machen. In der Vergangenheit waren die Ordner dieses Wissens die Kataloge – umständlich recherchierbar in der Form von Karteikarten und komplizierten Systematiken, die sich oft nur nach eingehender Beschäftigung mit der Thematik und einer bibliotheksspezifischen Logik in ihrem vollständigen Potenzial nutzen lassen.

Die Massendigitalisierung in Bibliotheken seit Ende der 90er Jahre, gefördert durch nationale und europäische Mittel, aber auch in Form von Private-Public-Partnerships, hat hier eine gewaltige Transformation ausgelöst, in der Bibliothekare immer mehr zu Dienstleistern werden und ganze Regalkilometer von Karteikarten von intuitiven und schnell von überall zugänglichen Suchinterfaces à la Google und institutionenübergreifenden Discovery-Systemen abgelöst werden bzw. bereits in weiten Teilen abgelöst sind.

So werden bereits seit mehr als zwei Jahrzehnten in grossem Stil und unter Zuhilfenahme modernster Technologien und Scanrobotern Dokumente in Bibliotheken digitalisiert und mittlerweile auch in den meisten Fällen mit optischer Texterkennung (OCR) zusätzlich zum reinen Scannen verarbeitet, so dass neben digitalen Faksimiles auch in ganz erheblichem Umfang elektronische Volltexte entstehen. Darüber hinaus sind auch digitale Normdatenrepositorien wie z.B. die von der Deutschen Nationalbibliothek in Gemeinschaft mit einer Vielzahl deutscher Bibliotheken und weiterer Institutionen kooperativ geführte Gemeinsame Normdatei (GND) erstellt worden. Die Kodierung von normierten Personen- und Ortsnamen sowie Schlagwörtern in der GND mittels eines eindeutigen Identifiers erlaubt so die institutionenübergreifende Vernetzung und Recherche in den digitalen Katalogen bzw., durch die Verknüpfung mit internationalen Normdatenrepositorien wie dem Virtual International Authority File (VIAF) und den Library of Congress Subject Headings (LCSH), aber auch Community-basierten Normdatensystemen wie bspw. WikiData, den Brückenschlag in Einrichtungen und Datenbestände weit über die Landesgrenzen hinaus.

In der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz (SBB) sind so bereits über 7 Millionen Seiten elektronischer Volltexte entstanden, bei einem Wachstum von bis zu 2,5 Millionen weiteren Seiten pro Jahr. So wurden z.B. im Rahmen des EU-Projekts Europeana Newspapers [5] 1,7 Millionen Zeitungsseiten aus Berliner Tageszeitungen digitalisiert, mit Texterkennung verarbeitet und in dem überregionalen Zeitungsportal der Staatsbibliothek zu Berlin, ZEFYS, das aktuell ca. 3,3 Millionen gescannte Zeitungsseiten und vollautomatisch erzeugte Volltexte enthält, öffentlich frei zugänglich gemacht. Auch die überregionalen Dienste der SBB wie die in Kooperation mit der Deutschen Nationalbibliothek betriebene Zeitschriftendatenbank (ZDB) mit ihren etwa 15 Millionen Bestandsdaten zu Zeitungen und Zeitschriften aus dem deutschsprachigen Raum oder der Kalliope-Verbundkatalog (KPE) zu Nachlässen mit über 3 Millionen Verzeichniseinheiten sind mittlerweile rein digitale Angebote. Was insbesondere die drei genannten Bestände für die Nutzung in Wissenschaft und Wirtschaft besonders interessant macht ist, dass in allen drei Ressourcen Millionen von Daten unter weitgehend freien Lizenzen (CC0, Public Domain) zur Verfügung stehen, die bereits einen hohen Grad an Standardisierung und Verknüpfung mit redaktionell betreuten Normdaten erreicht haben und in grossen Verbänden mit zahlreichen beteiligten Einrichtungen in Deutschland und darüber hinaus kollaborativ kontinuierlich weiter ausgebaut werden. Langfristig soll hierdurch ein digitaler „Datenhub“ aufgebaut werden, auf den Dritte in komfortabler Weise über generische Schnittstellen (APIs) zugreifen können, um hochgradig strukturierte und reichhaltige Information aus diesen Datenquellen abzurufen, statistische Auswertungen und Analysen zu berechnen oder aufschlussreiche Visualisierungen zu generieren.

3.2 Herausforderungen für Digitale Bibliotheken – und wie Digitale Kuratierungstechnologien dabei helfen können

Aus der in hohem Tempo voranschreitenden Digitalisierung sowie der Menge bereits digital verfügbarer Daten, ob Metadaten oder Volltexte, ergeben sich aber auch gewaltige neue Herausforderungen für eine über die reine Verschlagwortung deutlich hinausgehende semantische Erschliessung und Analyse der digitalisierten Bestände.

Die Daten in den Verbundkatalogen KPE und ZDB werden in standard-, normdaten- und regelbasierten Datenbanken erfasst und gepflegt. Auf Basis der Vorlage werden Metadaten erzeugt und Entitäten wie Personen, Körperschaften, Orte, Fachgebiete, Themen etc. zum einen kontextabhängig etwa als Verfasser, Adressat, Aktenbildner, Herausgeber, Entstehungs- oder Verlagsort, bestandshaltende Einrichtung, und zum anderen mit persistenten Identifiern der GND eindeutig ausgezeichnet. Durch die Auszeichnung von Entitäten mit eindeutigen Identifiern, die Zuordnung von Entitäten zu Wissensgebieten mittels Notationen und die Nutzung der Metadaten in den Digitalisierungsworkflows ist so ein stetig expandierendes referentielles System verteilter Datenangebote entstanden, die unterschiedliche Facetten über die Objekte und Vorgänge speichern. Diese Metadaten bieten z.B. einen einmaligen Zugang für die Analyse des Aufkommens, Verlauf und Niedergangs – von Moden, von Konjunkturen – oder schlicht des öffentlichen Diskurses.

Aktuell ist diese qualitativ hochwertige Form der Erschliessung jedoch immer noch ein weitestgehend manueller Vorgang, der in der Masse nur durch die Arbeitsteilung einer grossen Zahl von Redaktionen in verteilten Bibliotheken bewältigt wird. Smarte Technologien aus Computerlinguistik und Informationswissenschaften bieten hier ein enormes Potential, um zukünftig einen grossen Teil der redaktionellen Arbeitsschritte zu automatisieren und so bei gleichzeitiger Beibehaltung einer redaktionellen Endkontrolle Personalaufwände in erheblichem Masse zu reduzieren. Auch sind die aktuell eingesetzten Redaktions- und Erfassungssysteme aus heutiger IT-Sicht stark gealtert und bieten weder intuitive oder komfortable Benutzerinterfaces, noch ausreichende Möglichkeiten zur Anbindung weiterer Technologien und Datenquellen über generische APIs.

Um ein konkretes Beispiel zu geben: im Rahmen der Neuerwerbung eines Nachlasses wird ein entsprechender Datensatz im KPE-Erfassungssystem erzeugt. Im Nachlass finden sich Dokumente wie z.B. Briefwechsel mit anderen Personen, Notizen und Aufzeichnungen, in denen weitere Personen oder Orte genannt sind. Die für die spätere Bereitstellung und Nutzung benötigten Informationen zu den Entitäten werden in eine Erfassungsmaske eingegeben, ein Vorhandensein in der GND überprüft und im Falle eines Treffers manuell der Identifier des GND-Datensatz hinzugefügt bzw. ein neuer Datensatz angelegt und der Bestand mit diesem Datensatz angereichert. Weite Teile dieses Geschäftsgangs lassen sich durch den Einsatz moderner sprachtechnologischer Verfahren automatisieren, so z.B. die Erkennung von Entitäten wie Personennamen, Ortsnamen und Körperschaften, aber auch deren Abgleich mit vorhandenen Datensätzen sowie die eindeutige Zuordnung anhand ihres Kontextes (z.B. Geburts- oder Sterbedaten, Auftauchen gleicher Themen und Schlagwörter in hoher Häufigkeit oder in unmittelbarem Kontext).

Insbesondere die automatische Erkennung von Eigennamen (Named Entity Recognition, NER), deren Disambiguierung und schliesslich die (idealerweise multilinguale) Verlinkung mittels Ontologien (Linked Open Data, LOD), die Normalisierung von Schlagwortverzeichnissen und Vokabularien zur Beschreibung von Beständen spielen im Zuge der Digitalisierung von Beständen in Bibliotheken – und gleichermassen in Museen und Archiven – eine besonders wichtige Rolle.

Auch Methoden, die es Nutzern erlauben, eigene Annotationen und Verknüpfungen zu externen Datenbeständen herzustellen sowie deren persistente und zitierfähige Bereitstellung und schliesslich auch die transparente Versionierung immer dynamischerer Daten treten stärker in den Vordergrund. Das Stichwort Forschungsdaten bietet eine Vielzahl an Herausforderungen hinsichtlich eines nachhaltigen, service- und nutzerorientierten Datenmanagements in Bibliotheken, wie es für den heutigen Wissenschaftsbetrieb unabdingbar ist.

Dafür wird z.B. an der SBB aktuell mit einer Reihe von technologischen Frameworks experimentiert, um eine nachhaltige Datenkuratierung in die digitalen Workflows zu integrieren. Open Source Software wie Apache UIMA [6], Apache Stanbol [7] oder das Factorie Framework der University of Massachusetts [8] für maschinelles Lernen, sind dabei einige der Technologien, deren Potentiale aktuell erprobt werden. Allein, bis zum produktiven Einsatz solcher Technologien in bibliothekarischen Standardprozessen und Geschäftsgängen bestehen durchaus noch zahlreiche Hürden – so sind z.B. die vollautomatisch erzeugten Volltexte noch oft von unzureichender Qualität, die semantische Anreicherung von insbesondere historischen Texten schwierig und die Verknüpfung von bibliographischen Metadaten mit Normdaten oder gar mit Beständen in anderen Sprachen oder Medientypen dringend verbesserungsbedürftig.

Technische Verfahren und Dienste müssen darüber hinaus an die besonderen Anforderungen in Bibliotheken angepasst werden – sowohl was Datenformate und Standards, als auch was die Bedienbarkeit und Dokumentation betrifft. Die Gewährleistung der Betreuung von neuen Diensten und Workflows etwa für die Aktualisierung der Datenbasis ist ohne eine Integration in Geschäftsgänge kaum zu gewährleisten, da die Technologie von einer hohen Komplexität ist. Bibliotheken selbst können derartig komplexe technische Verfahren nicht ohne Hinzuziehung externer Experten und Anwendungen bewältigen, wie sie z.B. im Projekt DKT vorhanden sind.

3.3 Anwendungsfall Wissenschaft und Forschung

Bereits 2006 erschien der Artikel „What Do You Do with a Million Books?“ mit dem Greg Crane, aktuell Humboldt-Professor am Lehrstuhl für Digital Humanities der Universität Leipzig, auf die Überforderung der klassischen Geisteswissenschaften vor dem Hintergrund der digitalen Verfügbarkeit von Millionen von Büchern als Effekt der Massendigitalisierung in Bibliotheken aufmerksam machte. Vieles hat sich seitdem verändert – eine neue Disziplin ist entstanden bzw. im Entstehen begriffen, die Digital Humanities. Gegenüber traditionellen, überwiegend qualitativen Methoden in den klassischen Geisteswissenschaften stehen die Vertreter der Digital Humanities für eine mehr an quantitativen Methoden und statistischen Analysen interessierte neue Generation von Wissenschaftlern. Insbesondere Bibliotheken mit umfangreichen digitalisierten Sammlungen gehören zu ihren bevorzugten Daten- bzw. Diensteanbietern.

Oftmals ergeben sich daraus erhebliche neue Anforderungen an Bibliotheken bezüglich der Bereitstellung von digitalem Material in Form von hochgradig erschlossenen, strukturierten und qualitativ belastbaren digitalen Versionen ehemals analoger Quellen sowie entsprechender Online-Dienste. Der Anspruch ist dabei – mit gutem Recht – bei erheblich grösseren Mengen an digitalen Daten in Bibliotheken ebenso eine durchgängig hohe Qualität und einen hohen Grad der Erschliessung anzutreffen. Dafür benötigen Bibliotheken Werkzeuge, die es Ihnen erlauben, die im Zuge der Massendigitalisierung fortlaufend entstehenden Daten in einfacher und skalierbarer Weise auf ein Niveau vergleichbar mit dem von in aufwändiger Arbeit intellektuell erschlossener Kollektionen zu heben.

Genau so sind aber auch die Digital Humanities selbst potentielle Anwender von digitalen Kuratierungstechnologien. In grossen nationalen und internationalen Zusammenschlüssen, vgl. die europäische Forschungsinfrastruktur Common Language Resources and Technology Infrastructure (CLARIN) [9], steht die Entwicklung und Anpassung von Methoden der Computerlinguistik für die semantische Analyse des digitalen Kulturerbes an vorderster Stelle. Eine Vielzahl von neuen und bislang nicht durchführbaren wissenschaftlichen Studien wird erst durch die Verfügbarkeit grosser Mengen von digitalisierten Dokumenten möglich gemacht, allerdings müssen die für die Analysen genutzten Methoden und Techniken dabei nicht nur einen hohen Grad an Robustheit und gleichzeitig Flexibilität vorweisen, sondern auch über entsprechende, für Fachwissenschaftler intuitiv bedienbare Benutzeroberflächen bzw. geeignete Schnittstellen zur Einbindung in von der wissenschaftlichen Community genutzte Toolkits und Frameworks bieten.

3.4 Anwendungsfälle aus Medien, Bildung und Kreativwirtschaft

Die Digitalisierung insbesondere rechtefreier Dokumente und Materialien aus Bibliotheken sowie deren anschliessende Tiefenerschliessung mit Hilfe von Kuratierungstechnologien bietet aber auch neue Anknüpfungspunkte für Anwendungen aus dem Bildungsbereich, den Medien und der Kreativwirtschaft. Im Folgenden werden hierfür kurz drei Beispiele dargestellt.

Insbesondere die Zeitungsdigitalisierung bietet grosses Potential zur Nachnutzung im Journalismus bzw. Data Journalism. Im Zuge einer Recherche ist ein Journalist z.B. an Daten und Artikeln aus historischen Zeitungsarchiven interessiert. Sind die von den Bibliotheken digitalisierten Zeitungen mit Volltexten versehen und Entitäten wie Personen, Orte und besondere Ereignisse durch die Anreicherung mittels digitaler Kuratierungstechnologien darin ausgezeichnet, kann auf schnelle und einfache Weise ein Artikel mit entsprechenden historischen Daten sowie Links auf die digitalen Versionen angereichert werden. Stehen die Digitalisate und Dienste auch über technische Schnittstellen bereit, ist sogar eine direkte Anbindung an Redaktionssysteme denkbar, so dass beim Verfassen eines Artikels direkt in der Oberfläche, in der ein Artikel erstellt wird, bei Erwähnung von Personen und Ereignissen Vorschläge inklusive Links zu passenden Digitalisaten unterbreitet werden, die dann direkt in den Artikel eingebettet werden können. Bei einer vollumfänglichen Verarbeitung von Digitalisaten mit digitalen Kuratierungstechnologien ergeben sich weitere, neue Möglichkeiten um im Rahmen des Data Journalism Digitalisate in die journalistische Arbeit einzubinden. So arbeiten Bibliotheken an Online-Diensten, die es Journalisten erlauben sollen, direkt aus den digitalen Beständen von Bibliotheken statistische Auswertungen und interaktive Visualisierung von z.B. Zeitverläufen oder sozialen Netzwerken zu erstellen, die einen journalistischen Beitrag zusätzlich aufwerten – vergleichbare Technologien entstehen derzeit für die unterschiedlichen Anwendungsfälle in dem BMBF-Projekt DKT.

Zeitleiste

Abbildung 3: Interaktive Zeitleiste zu historischen Erdbeben auf der Basis von digitalisiertem Kulturerbe im DARIAH Geobrowser, http://geobrowser.de.dariah.eu/

Netzwerk

Abbildung 4: Soziales Netzwerk (Personen, Organisationen) des Mediziners Robert Koch, dynamisch visualisiert im Kalliope Verbundkatalog, http://kalliope-verbund.info

Eine Anwendung von digitalisierten bibliothekarischen Materialien für den Bildungsbereich wurde im Rahmen einer Zusammenarbeit der europäischen digitalen Bibliothek, Europeana, in Kooperation mit EUROCLIO umgesetzt. Digitalisate der SBB und weiterer europäischer Kultureinrichtungen mit Public Domain Status aus dem EU-Projekt Europeana 1914-1918 wurden für die Entwicklung einer iTunesU Lern-App zum 1. Weltkrieg herangezogen. Auf Basis sorgfältig ausgewählter Digitalisate wurden interaktive Übungen erstellt, die es Schülern erlauben, ihre Kenntnisse und ihr Verständnis der Ereignisse des 1. Weltkriegs auf der Basis von digitalisierten Dokumenten wie Karten, Briefwechseln und Illustrationen aus dem Zeitraum 1914-1918 zu überprüfen. Dies war zum einen dadurch möglich geworden, dass die Materialien rechtefrei sind, zum anderen, indem durchgängig auf eine hohe Qualität der Digitalisierung und die Verknüpfung zu weiteren relevanten digitalisierten Zeitdokumenten aus Einrichtungen mit Sammlungen zum 1. Weltkrieg hingearbeitet wurde. Bei einer solchen Form der Verbreitung von digitalisiertem Kulturerbe spielen Kuratierungstechnologien eine besonders wichtige Rolle – durch die semantische Erschliessung und Verknüpfung mit ähnlichen Dokumenten aus Bibliotheken in ganz Europa können die verschiedenen Perspektiven einzelner Länder im digitalen Kontext nebeneinander gestellt werden. So kann ein attraktives Lernerlebnis auf einem Niveau geschaffen werden, wie es das von vergleichbaren analogen Materialien weit überschreitet.

Europeana

Abbildung 5: Europeana, iTunes U Course World War I: A battle of perspectives, http://pro.europeana.eu/blogpost/europeana-launches-multi-touch-book-and-itunes-u-course-on-the-first-world-war

Eine weitere, gänzlich neuartige Verwendung von Digitalisaten aus Bibliotheken wird aktuell an der SBB konzipiert. In Zusammenarbeit mit Medizinhistorikern der Heinrich-Heine-Universität Düsseldorf werden digitalisierte Dokumente aus diversen Sammlungen identifiziert, die es gemeinsam erlauben, das Bild der Öffentlichkeit zu Gesundheit, Ernährung und Wohlbefinden einer bestimmten Zeitepoche zu rekonstruieren. Hierfür werden eine Vielzahl von Kuratierungstechnologien herangezogen, um z.B. entsprechende Textstellen zu identifizieren, automatisiert zu analysieren und miteinander sowie mit Informationen zu Gesundheitsthemen aus freien Datenquellen wie Wikipedia/WikiData in Verbindung zu setzen, um ein fundiertes Gesamtbild der vorherrschenden Meinungen zu gewinnen. Auf Basis dieser Informationen soll schliesslich eine App entwickelt werden, die biometrische Daten des Benutzers mit solchen historischen Auffassungen zum körperlichen Wohlbefinden in Verbindung setzt. Neben dem rein experimentellen Charakter bietet sich dadurch auch eine interessante Perspektive auf die Veränderung von Körperkult und Gesundheitsbewusstsein im Wandel der Zeiten.

Insbesondere seit 2012 haben sich derartige kreativen Formen der Nachnutzung von digitalisierten Datenquellen aus Bibliotheken, speziell in Form von Library Labs (Balk, Neudecker und Kwant 2014) auch zunehmend als Experimentierfeld für eine wirtschaftlich relevante Perspektive der Zusammenarbeit des öffentlichen Dienstes mit Forschungseinrichtungen und KMU etabliert. Die Vielfalt der verfügbaren Daten bedingt dabei aber immer auch eine besondere Form der Aufbereitung und Bereitstellung, so dass diese auch ohne grosse Hürden von KMU und auch Startups in attraktiven Anwendungen und Diensten eingebunden werden können.

4 Schlussfolgerungen

Projekte wie DKT oder, auf europäischer Ebene, FREME, sind wichtige Wegbereiter, um einerseits die Wissensspeicher in Bibliotheken in ihrem gesamten Reichtum ins Digitale zu übertragen sowie sie auch tiefergehend zu erschliessen und anzureichern und damit für Wissenschaft, Wirtschaft und die Öffentlichkeit besser und einfacher nutzbar zu machen. Neue und innovative Technologien müssen mittelfristig als Standardprozesse in die Kuratierung des rasant wachsenden digitalisierten kulturellen Erbes integriert und deren Potenziale innerhalb der bibliothekarischen Tätigkeiten bzw. dem Informationsmanagement entfaltet werden. Andererseits können auch Bibliotheken z.B. durch die Bereitstellung grosser und frei nutzbarer Datenmengen mit einem hohen Grad an Qualität der semantischen Erschliessung sowohl die Weiterentwicklung und Verbesserung der Methoden befördern, als auch durch die Nachnutzung der digitalen Bestände in Kombination mit digitalen Kuratierungstechnologien interessante Möglichkeiten für die Entwicklung und den Ausbau neuer Geschäftsfelder entwickeln. Eine enge Abstimmung zwischen Bibliotheken und den Entwicklern von digitalen Kuratierungstechnologien ist dabei immer die Voraussetzung für eine volle Entfaltung der erzielbaren Synergieeffekte.


[1] Das Projekt „Digitale Kuratierungstechnologien“ wird unterstützt durch das Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms „Unternehmen Region“, Wachstumskern-Potenzial (Nr. 03WKP45).

[2] http://www.digitale-kuratierung.de

[3] http://www.freme-project.eu

[4] https://www.youtube.com/watch?v=TgP_TxoobuU

[5] http://www.europeana-newspapers.eu

[6] https://uima.apache.org/

[7] https://stanbol.apache.org/

[8] http://factorie.cs.umass.edu/

[9] https://www.clarin.eu/


Literatur

Balk, H., Neudecker, C. und Kwant, E. (2014). What makes innovation work? Innovation practice in the National Library of the Netherlands. In: IFLA Journal 40.3. DOI: 10.1177/0340035214545460.

Bourgonje, P., Moreno Schneider, J., Rehm, G. und Sasaki, F. (2016). Processing Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies for Smart Curation Workflows. In: Proceedings of the 2nd International Workshop on Natural Language Generation and the Semantic Web (WebNLG 2016). Edinburgh: The Association for Computational Linguistics, S. 13–16. URL: https://www.dfki.de/lt/publication_show.php?id=8731.

Crane, G. R. (2006). What Do You Do with a Million Books? In: D-Lib Magazine 12.3. DOI: 10.1045/march2006-crane.

Neudecker, C. (2016a). An Open Corpus for Named Entity Recognition in Historic Newspapers. In: Proceedings of the 10th edition of the Language Resources and Evaluation Conference. Portorož. URL: http://www.lrec-conf.org/proceedings/lrec2016/pdf/110_Paper.pdf.

— (2016b). Who cares about yesterday’s news? Use cases and requirements for newspaper digitization. In: Proceedings of the IFLA 2016 News Media Conference. Hamburg. URL: http://blogs.sub.uni-hamburg.de/ifla-newsmedia/?page_id=242#ps.

Neudecker, C., Wilms, L., Faber, W. J. und Veen, T. van (2014). Large-scale refinement of digital historic newspapers with named entity recognition. In: Proceedings of the IFLA 2014 Newspaper Section Satellite Meeting. Geneva. URL: http://www.ifla.org/files/assets/newspapers/Geneva_2014/s6-neudecker_faber_wilmsen.pdf.

Rehm, G. (2016). Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. In: Vitako Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V. 2. URL: http://www.dfki.de/lt/publication_show.php?id=8371.

Rehm, G. und Sasaki, F. (2015). Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte. In: Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015). Duisburg. URL: https://www.dfki.de/lt/publication_show.php?id=8014.

— (2016). Digital Curation Technologies. In: Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016). Im Druck. Riga.