Patrick Wildermann
2. April 2024
Wie lässt sich das Beste aus den eigenen Daten machen? Vor dieser Frage stehen schon seit langem sämtliche der Kulturerbe-Institutionen, die über die Ressourcen und das Knowhow für die Digitalisierung ihrer Sammlungen verfügen. Wobei sich immer mehr die Erkenntnis durchsetzt, dass es nicht ausreicht, Digitalisate der Sammlungen nur auf der Homepage zur Verfügung zu stellen, wo gezielt suchende Interessierte sie finden und downloaden können. Zumindest dann nicht, wenn eine Institution die vollen Potenziale des Internets nutzen und sich die Frage stellt: Was könnte mit digitalem Kulturerbe möglich werden – vor allem, wenn es verlinkte offene Daten sind?
Wie das Prinzip Linked Open Data funktioniert
Das Prinzip der Linked Open Data (LOD) steht für das Gegenteil der unter Kulturinstitutionen lange verbreiteten Haltung, Hüter*innen der Schätze zu sein. Es geht darum, Datensets offen verfügbar zu machen – und zwar so, dass die Werke oder Artefakten, die sie beschreiben, automatisiert aufgefunden werden können. Gerade auch von Menschen, die nicht schon wissen, in der Datenbank welcher Institution genau sie nach den Informationen, die sie benötigen, suchen sollen.
Grundlage für Linked Open Data sind die Ideen und Techniken des sogenannten Semantic Web. Tim Berners-Lee, Begründer des World Wide Web, hat es so beschrieben: „Das Semantic Web ist eine Erweiterung des herkömmlichen Webs, in der Informationen mit eindeutigen Bedeutungen versehen werden, um die Arbeit zwischen Mensch und Maschine zu erleichtern“ („The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation“). So kann beispielsweise das Wort „Bremen“ in einem Webdokument um die Information ergänzt werden, ob hier der Begriff des Schiffs-, Familien- oder Stadtnamens gemeint ist. Was für den Computer vormals nur Zeichenketten waren, wird auf diese Weise zu berechenbarer Bedeutung.
Wenn wir von verknüpften Daten sprechen, meinen wir strukturierte Daten, die mit anderen Daten verknüpft sind – was bedeutet, dass die Verbindungen zwischen Datensätzen sowohl für Maschinen als auch für Menschen verständlich sind. Diese Verknüpfungen können zwischen bestimmten Dingen – zum Beispiel Ereignisse, Personen oder Orte – hergestellt werden, auf die sich die Datensätze beziehen. Tim Berners-Lee hat vier Gestaltungsprinzipien für Linked Data beschrieben. Erstens: Die Verwendung von URIs (Uniform Resource Identifiers), um den Dingen eindeutige Namen zu geben. Zweitens sollten diese URIs mit Hilfe eines HTTP-Protokolls online auffindbar gemacht werden. Drittens: Die Art und Weise, wie Informationen über diese URIs bereitgestellt werden (unter Verwendung von RDF und SPARQL für Abfragen) muss standardisiert sein. Und schließlich sollten in diese Informationen Links zu anderen URIs aufgenommen werden. Durch diese Verknüpfung werden alle möglichen Dinge in einem Netz miteinander verbundener Daten – einem so genannten Wissensgraphen – verlinkt.
Verknüpfte Daten sind besonders wertvoll, wenn sie nach dem Konzept der offenen Daten kombiniert werden. Das heißt: Daten, die für jeden offen und unter einer freien Lizenz zugänglich sind. Wo schon verknüpfte Daten Datensilos aufbrechen, indem sie die Verbindungen zwischen Datensätzen maschinenlesbar machen, bricht die offene Lizenzierung dieser verknüpften Daten die Silos noch weiter auf – indem sie es jedem ermöglicht, auf sie zuzugreifen, sie wiederzuverwenden und somit auch zu verknüpfen und abzufragen. Was zum Wachstum eines globalen Wissensgraphen beiträgt. Entsprechend wertvoll ist das Prinzip beispielsweise für Kultureinrichtungen, die im öffentlichen Interesse Daten anbieten wollen, anstatt sie nur in geschlossenen und proprietären Datenbanken zu verwahren oder ausschließlich über eigene Interfaces anzubieten, wo sie nicht nachgenutzt werden können.
Ein Bestimmungsmaß für die Qualität von LOD bieten die FAIR Guiding Principles for scientific data management and stewardship, die 2016 als Artikel in der Fachzeitschrift Nature veröffentlicht wurden. FAIR steht als Akronym für die Auffindbarkeit (Findability), Zugänglichkeit (Accessibility), Interoperabilität (Interoperability) und Wiederverwendbarkeit (Reuse) wissenschaftlicher Daten.
Wenn komplexe Realitäten maschinenlesbar werden
Wie aber können Kulturinstitutionen Linked Open Data aufbauen? Um verschiedene Menschen, Orte, Dinge oder Konzepte in Daten zu repräsentieren und sie auffindbar zu machen, braucht es eindeutige Referenzen. Das „Bildnis eines Musikers” (Portrait of a Musician) von Leonardo da Vinci zum Beispiel ist auch unter dem Titel „Bildnis eines jungen Mannes“ bekannt – und beide Titel sind wiederum auch von anderen Künstler*innen verwendet worden, so wie es eine Vielzahl von Gemälden namens „Madonna mit Kind“ gibt. Um die eindeutige Zuordnung zu ermöglichen, braucht man eindeutige Identifier – wiederum laut Tim Berners-Lee eines von vier Prinzipien für Linked Data, die möglichst international anerkannt sein sollten.
In der Bibliothekswelt – wo Einrichtungen vielfach über die gleichen Titel verfügen und Leihen zwischen Bibliotheken gang und gäbe sind – ergibt es schon seit langem Sinn, ein geteiltes System von eindeutigen URIs zu haben. Das bekannteste Beispiel in Deutschland ist in diesem Zusammenhang die Gemeinsame Normdatei (GND) der Bibliotheken, die von der Deutschen Nationalbibliothek (DNB), allen deutschsprachigen Bibliotheksverbänden, der Zeitschriftendatenbank (ZDB) und zahlreichen weiteren Institutionen kooperativ geführt wird. Ähnliche Normdateien – im Englischen „authority files“ – existieren für Wissenscommunitys in verschiedenen Ländern und Regionen genauso wie für verschiedene Disziplinen und Wissensbereiche.
Um nun wiederum die Beziehung zwischen Datenobjekten („Items“) zu beschreiben – etwa zwischen Künstler*in und Werk – braucht es in der Welt der Daten eine Ontologie. Kurzgefasst: eine Methode, die eingrenzt, wie die Welt in reduzierter Weise beschreibbar wird. Schließlich bilden Daten die Realität nie in ihrer Gesamtheit ab, sondern müssen sie bis zu einem bestimmten Grad vereinfachen. Ein Beispiel für eine Ontologie ist der LIDO-Standard in Museen („Lightweight Information Describing Objects“), ein Schema zum Austausch von Metadaten von Sammlungsobjekten. Es zielt darauf, auch komplexere Zusammenhänge etwa bezüglich der Entstehung eines Kunstwerks zu fassen – wenn ein Bild beispielsweise keinem konkreten Jahr zugeordnet werden kann, weil es zu einem bestimmten Zeitpunkt begonnen, aber erst später fertiggestellt wurde.
Die Beziehungen zwischen Datenobjekten müssen nach dem LOD-Prinzip maschinenlesbar sein. Die Maschine muss verstehen, worum es sich (um im Beispiel zu bleiben) bei Leonardo da Vinci und seinen Kunstwerken handelt. Verdeutlich wird das über sogenannte Triples aus Subjekt-Prädikat-Objekt. Über ein solches Triple lässt sich etwa die Aussage treffen: Leonardo da Vinci ist ein Mensch. Das Subjekt: Leonardo da Vinci. Das Objekt: Mensch. Das Prädikat, das die Beziehung darstellt: ist ein. Auf diese Weise werden Daten aus den verschiedensten Datenbanken rund um die Welt durchsuchbar.
Wie Wikidata die Welt verbindet
Zu diesen Datenbanken zählt seit 11 Jahren Wikidata, die freie Datenbank von Wikimedia. Wikidata ist längst ein wichtiger Hub für LOD geworden. Ein Ort, wo Normdateien aus allen Teilen des World Wide Web zusammenkommen, Knotenpunkte bilden, aufeinander verweisen und sich mit anderen URIs verlinken. Das Alleinstellungsmerkmal von Wikidata ist genau diese Vernetzung disparater Datenquellen.
Als Beispiel soll das Wikidata-Item der mexikanischen Malerin Frida Kahlo dienen. Ihr Wikidata-Eintrag ist gekennzeichnet mit der Nummer Q5588. Diese Nummer entspricht in Linked-Open-Data-Begriffen dem URI – ein online auffindbarer, eindeutiger und einzigartiger Identifier. Die Triple-Statements, die Aussagen über Frida Kahlo treffen, werden in der Wikidata-Terminologie nicht über Subjekt-Prädikat-Objekt, sondern über „Item-Property-Value“ abgebildet. Wie die Aussage über ihre Staatsbürger*innenschaft: „Country of Citizenship: Mexico“ (Item: Frida Kahlo, Property: Citizen of, Value: Mexico). Um Statements noch spezifischer zu machen, kommen sogenannte Qualifier ins Spiel. Der Aussage „Cristina Kahlo y Calderón ist Frida Kahlos Schwester“ wird hinzugefügt: „jüngere Schwester“.
Frida Kahlos Eintrag in Wikidata listet aber vor allem eine große Zahl externer Identifier auf: von VIAF (Virtual International Authority File) über die „National Library of Brazil“, die „National Library of Chile“ und die GND bis hin zu abseitigeren wie ihrer „Good Reads Author ID“ (mit 987 Followern) oder Frida Kahlos „Twitter username“. Wer einen Überblick bekommen möchte, in welchen Sammlungen rund um die Welt die Werke von Frida Kahlo zu finden sind und welche Datenbanken Informationen über die Künstlerin bieten, wird auf Wikidata fündig.
Generell ist dies die Idee von Linked Open Data im Kontext von Kultur: Daten global auffindbar zu machen – schließlich besitzt Kultur globale Relevanz – und mit LOD z.B. die Verfolgung des Wegs bestimmter Künstler*innen oder Autor*innen zu ermöglichen, gerade, wenn sie in verschiedenen Ländern gearbeitet haben. Weiter gefasst könnten auch die Bewegung von Kunstwerken zwischen Händler*innen und Institutionen aufspürbar und nachvollziehbar werden. Auch von solchen, die etwa in kolonialen Kontexten geraubt wurden – sofern die Informationen über sie als LOD geteilt sind.
Wie Institutionen eine neue Rolle einnehmen können
Linked Open Data bieten Kulturerbe-Institutionen im Internet-Zeitalter die Möglichkeit, neue Verbindungen zur Welt aufzubauen und neue Zugänge zu schaffen. Die Einrichtungen können mit einem globalen Publikum in Kontakt kommen, das sich für die Geschichten interessiert, die sie sammeln und bewahren, sie können diese Geschichten global teilen und neue Formen der Kollaboration erproben, sie können dafür sorgen, dass ihre Geschichten sich mit den Geschichten der Welt verbinden. Daraus lassen sich wertvolle Schlüsse und Erkenntnisse ziehen – nicht zuletzt über die eigene Rolle. Die Kultureinrichtungen haben die Chance, eine neue Position einzunehmen: als Akteur*innen in den globalen Commons.
Es hört sich sehr spannend an, wenn man sich vorstellt, dass sich einmal alle Sammlungen der Welt miteinander verbinden können, Erfahrungen austauschen, und dadurch zu jedem Künstler ein Gesamtbild entworfen werden kann, soweit sein Werk in öffentlichen Einrichtungen liegt, steht; dazu auch Privatsammler einzuladen, wäre der nächste Schritt…….;
dies würde ich mir auch für die Krankenhäuser der Welt wünschen, so daß überall die bereits vorhandenen medizinischen Erfahrungen und mögliche Behandlungen gläsern gemacht und Verfahren aufgefunden werden können, national zunächst und dann auch international; so könnten Menschen gezielt besser behandelt und an die Spezialisten verwiesen werden, die sie jeweils benötigen.
In der Botanik könnte man einen Überblick über die vorhandenen Resourcen erhalten, die durch Sammlertätigkeit zusammengetragen eventuell eine Lösung für die Ernährung der Zukunft bereithalten könnten, wenn die wenigen immer mehr industrialisierten Nahrungsmittel versagen. Wichtig dabei, es sollte zum Wohl der gesamten Menschheit für alle verfügbar bleiben; das scheint mir ein unabdingbares Ziel. das darf nie aus den Augen verloren werden…….