zurück

Datenpartnerschaften mit Wikidata: Projekt Durchblick

Worum geht es bei Durchblick? Was ist das für eine Sammlung und wie ist sie zu Stande gekommen? Antworten hier im Blog.

Jens Ohlig

21. August 2017

This blog post is also available in English.

Dr. Georg Schelbert arbeitet an der  Humboldt-Universität Berlin im Institut für Kunst- und Bildgeschichte (IKB) und ist dort als Leiter der Mediathek tätig. Er beschäftigt sich gleich im mehrfachen Sinne mit Durchblick: zum einen geht es um Dias, durch die man ganz konkret hindurchsehen kann. Zum anderen geht es bei dem Projekt darum, einen Durchblick bei einem großen Kulturschatz zu gewinnen. Dabei setzt das Projekt Durchblick der HU auf Wikidata. In dieser Form ist die Datenpartnerschaft mit Wikidata nicht auf eine Datenspende bezogen, sondern darauf, Wikidata als Dreh- und Angelpunkt für andere Datensammlungen zu benutzen, um für Objekte in Sammlungen gemeinsame Identifikationsnummern zu haben.

Worum geht es bei Durchblick? Was ist das für eine Sammlung und wie ist sie zu Stande gekommen?

Wir haben unser Projekt kurzerhand „Durchblick!“ genannt, weil wir uns die Aufgabe gestellt hatten, eine große Menge von Glasdias, die viele Jahrzehnte lang im Fach Kunstgeschichte an der Humboldt-Universität verwendet wurden, wieder zugänglich zu machen.

Jedes kunsthistorische Institut hatte und hat mehr oder weniger große Diasammlungen, die in Vorlesungen und Seminaren eingesetzt wurden. Dabei kamen vor allem zwei Formate zum Einsatz: Zunächst die sogenannten Glasdias oder Großdias, die so heißen, weil die schwarzweisse Fotoschicht direkt auf einer 8,5 x 10cm großen Glasplatte aufgebracht ist und die seit dem späten 19. Jahrhundert und bis nach der Mitte des 20. Jahrhunderts produziert wurden. Und dann die sogenannten Kleinbilddias, die letztlich auf farbigen 35mm-Kinofilm zurückgehen und die von den 1940er Jahren bis heute gebräuchlich waren. Im Projekt Durchblick interessieren uns nur die Glasdias. Die Berliner Sammlung ist eine der ältesten und größten Bestände, da einige der Berliner Kunstgeschichtsprofessoren wie Herman Grimm (Sohn von Wilhelm Grimm) oder Heinrich Wölfflin das Potential der projizierten Fotografie früh erkannten und nutzten. Die Sammlung spiegelt damit auch die Interessen berühmter Fachvertreter in Forschung und Lehre. Zwar besteht heute nach Kriegsschäden ein erheblicher Anteil des Bestands aus Ersetzungen und Ergänzungen seit den 1950er Jahren, aber dadurch kamen auch zeitbedingt interessante neuere Bildthemen wie DDR- und Sowjetkunst, Städtebau und sogar Verkehrsplanung hinzu.

Wie kann ich mir so eine Digitalisierung und digitale Erschließung einer Sammlung vorstellen?

Wir haben für die Digitalisierung – wie auch für andere Aspekte des Projekts – einen möglichst effektiven Weg gesucht. Weil uns diese Dias nicht mehr nur als Bild interessieren, sondern auch als Objekt (mit seiner Beschriftung, Gebrauchsspuren, Beschaffenheit), haben wir ein Aufnahmeverfahren entwickelt, das zugleich die Rahmung des Dias, als auch das von unten beleuchtete Transparentbild aufnimmt. Wir verwenden dafür ein klassisches Repro-Stativ, mit Beleuchtung von oben und unten und eine hochauflösende Digitalkamera (36MP). Auf diese Weise konnten wir die ca. 56.000 Dias in rund einem Jahr digitalisieren und zunächst einmal weitgehend ohne Metadaten online stellen. Die einzigen Metadaten sind zu diesem Zeitpunkt nur allgemeine systematische, die auch etwas über die Bildinhalte aussagen (z.B. Italien, Malerei, Renaissance). Über die Beschriftungen der einzelnen Fächer, aus denen die Dias stammen, können Digitalisate noch gezielter aufgerufen werden.

Die Erschließung von Fotografien oder Dias, die Kunstwerke zeigen, erfolgt normalerweise, indem sowohl das abgebildete Kunstwerk als auch – wenn es historisch ist – das Foto oder Dia beschrieben wird. Das erfolgt oft nach bestimmten Standards, die Pflichtfelder und Terminologien vorgeben. Allerdings bedeutet die Beschreibung der auf unseren Dias befindlichen Kunstwerke einen im Grunde überflüssigen Aufwand. Da es sich zumeist um bekannte oder sogar berühmte Kunstwerke handelt, ist anzunehmen, dass diese andernorts bereits beschrieben wurden. Unabhängig davon, mit welcher externen Beschreibung der Kunstwerke wir in Zukunft arbeiten wollen, schien es uns zunächst sinnvoll, sie mit sogenannten Normdaten-Identifiern zu versehen. Bei Personen würde man entweder eine große Normdatendatei wie die GND (Gemeinsame Normdatei der Deutschen der Nationalbibliothek) oder gleich den Meta-Identifier VIAF (Virtual Internet Authority File) verwenden. Für Bau- und Kunstwerke gibt es kein ausreichend umfangreiches Verzeichnis. Die GND ist auf diesem Gebiet viel zu lückenhaft. Daher schien uns Wikidata eine neue Lösung zu sein. Dort gibt es zumindest in manchen Bereichen bereits sehr dichte Bestände an Bau- und Kunstwerken.

Wikidata bringt weitere Vorteile mit sich: Wikidata kann von jedem Nutzer um weitere Items erweitert werden, wenn dort etwas nicht vorhanden ist. Wikidata-Items enthalten weitere Daten und sind zumeist mit mindestens einem Wikipedia-Artikel verbunden. Die Struktur der Daten in Form von Statements verbindet das Item mit einem ständig wachsenden Wissensnetz, dessen Inhalte zukünftig ebenfalls genutzt werden könnten. Etwas unmittelbare Beschreibungsarbeit bleibt dennoch: Alle Eigenschaften des Dias selbst, einschließlich der auf ihm befindlichen Beschriftungen, müssen wir für das Einzelobjekt selbst dokumentieren. In Zukunft stellen wir uns einen Workflow vor, bei dem direkt aus der transkribierten Beschriftung das passende Wikidata-Item gesucht und zur Bestätigung vorgeschlagen wird.

Für das Projekt gab es ja auch einen Preis. Was ist das für ein Preis und wie kam es dazu? Und was sind eigentlich “digital Humanities”?

Man muss wohl mit der letzten Frage anfangen. Digital Humanities wird unterschiedlich definiert. Im weiteren Sinn sind damit jeder methodische Einsatz von Computern in den Geisteswissenschaften gemeint. Reine Digitalisierung, oder die Anwendung von Office-Programmen würde nicht darunter fallen, aber schon die Aufbereitung und Bereitstellung von Digitalisaten mit Metadaten, vor allem wenn dann auch mit diesen Daten geforscht wird. Im engeren Sinn werden unter Digital Humanities Analysen von Textcorpora sowie Herstellung derselben verstanden. Daher hat es uns besonders gefreut, dass ein Projekt, das mit materiellen Objekten und Bildern arbeitet und sich Gedanken über eine möglichst effiziente Erschließung derselben gemacht hat, einen Preis bekommen hat.

Der Digital Humanities-Preis wird seit 2015 vom interdisziplinären Forschungsverbund Digital Humanities für innovative Projekte in den Digital Humanities vergeben. Die Jury setzt sich aus InformatikerInnen, Informationswissenschaftlern und WissenschaftlerInnen anderer Fachrichtungen zusammen. Die Einschätzung, dass man mit Wikidata im GLAM-Bereich noch mehr machen kann, spielte bei der Entscheidung sicherlich eine Rolle.

Wie bewerten Sie die Datenqualität bei Wikidata, die Dokumentation und den technischen Zugriff? Können wir daran etwas verbessern?

Die Datenqualität ist natürlich sehr unterschiedlich. Sowohl können die Statements unzutreffend  sein, als auch nicht die Parameter inkonsistent sein – anscheinend ist es bspw. nicht möglich, nach Selbstporträts zu suchen, weil diese Kategorie kaum vergeben wurde, während jedoch Dutzende Selbstporträts von Rembrandt in Wikidata ein eigenes Item besitzen. Am besten funktioniert Wikidata – wie auch die Wikipedia — meiner Meinung nach dort, wo es um (vergleichsweise) harte Fakten oder den Verweis auf andere Ressourcen geht. Das sind Dinge wie Geburtsdaten vom Personen, Geoordinaten, Zugehörigkeit zu Institutionen etc. Vor allem aber sind es die weiteren Identifier, die in einem Wikidata-Item enthalten sind. Diese sind für uns wichtiger als die Statements selbst. Sicherlich wäre es vorteilhaft, wenn wir bei sämtlichen Kunstwerken, die wir mit Wikidata verknüpft haben, nicht mehr die Künstler, die Maße, die Stilzuordnung, den aktuellen Museumsstandort oder die zugehörigen Literaturtitel heraussuchen müssten. Aber viel wichtiger ist für zunächst einmal, dass wir Werke eindeutig identifiziert haben, etwa die andernfalls schwer unverwechselbar zu bezeichnenden Rembrandtschen Selbstporträts als Apostel Paulus (https://www.wikidata.org/wiki/Q2267759) und als Zeuxis (https://www.wikidata.org/wiki/Q2267594).

Bislang arbeiten wir weitgehend händisch. D.h. wir suchen auf der Basis der Beschriftungen der Dias nach passenden Wikidata-Items und übernehmen dann den Identifier. Einfachere Suchmöglichkeiten (der Query Service mit Query Helper ist ein Anfang), wären hierbei hilfreich. Derzeit ist letztlich immer noch die Google-Suche (die Falschschreibungen ausgleicht) am effektivsten. Sie liefert i.d.R. Wikipedia-Seiten auf einer der ersten Plätze. Von dort aus kann man dann  schnell zur Wikidata-ID gelangen.

In den Fällen, in denen ein Werk fehlt (auch bei den berühmten Rembrandt-Selbstporträts wird Wikidata noch nicht vollständig sein), tragen wir es selten von Hand nach. Um das mit größerer Regelmäßigkeit zu tun, wären Templates, die auf den GLAM-Bereich zugeschnitten sind, hilfreich (z.B. ein Template, mit dem man schnell Item für Gemälde, Skulpturen oder Baudenkmäler anlegen kann); die Quick-Statements sind noch nicht einfach genug. Es wäre auch denkbar, ganze Kataloge oder sonstige Konvolute in Wikidata hochzuladen. Hier scheint mir aber zunehmend das Problem der Doublettenvermeidung zu bestehen. Je mehr Kunstwerke in Wikidata verzeichnet sind, desto größer ist die Wahrscheinlichkeit, dass ein bestimmter Anteil eines Massen-Upload aus einer GLAM-Datenbank bereits enthalten ist und Doubletten zur Folge haben würde.

Ein weiterer Punkt ist die Datenübernahme aus Wikidata. Derzeit übernehmen wir noch nicht systematisch Daten aus Wikidata. Jedoch planen wir, auf der Basis der Wikidata-Identifier, einen Teil der (allgemeinen) Informationen zu den Kunstwerken entweder on the fly oder in Form von regelmäßigen Datenimporten aus Wikidata zu holen. Dies, um – wie gesagt – nicht Dinge noch einmal zu sagen, die „die Welt“ bereits weiß.

Wohin rollt der Ball in Sachen Wikidata und GLAM? Kann Wikidata wirklich so etwas wie ein Meta-Vokabular für Sammlungen werden?

So allgemein kann man das schwer sagen wohin der Ball rollt. Aber ich könnte mir vorstellen, dass zumindest das klassische Kulturerbe, also zumindest das was in Museen hängt und auf den Denkmallisten steht, in Wikidata komplett vertreten sein könnte. Andere Communities wie Ethnologie oder Kulturwissenschaft hätten sicher noch eine Reihe weiterer Gegenstände vorzuschlagen. Mit einem umfangreichen Kulturkorpus könnte Wikidata zu einer zentralen, fast schon globalen Referenz für Kulturgut werden. In Bezug auf die sogenannten Normdaten, die entweder national (Nationalbibliotheken, nationale Kulturgutverzeichnisse) oder nach Gegenstand (Museen) organisiert sind, könnte Wikidata auch die Rolle einer Metanormdatenreferenz einnehmen, die auch die anderen Identifier bereithält. Es könnte theoretisch auch eine Art Vokabular werden, indem Kunstwerke mit Wikidata-Items verschlagwortet werden. Dabei würde es sich dann um Begriffe handeln, wie z.B. Kunstgattungen („Gemälde“, „Porträt“), Techniken („Ölmalerei“), Stile („Barock“), oder dergleichen. Allerdings spielt bei Vokabularen auch die innere Systematik eine Rolle (wie die Begriffe voneinander abhängen, z.B. „Malerei – Landschaftsmalerei – Gebirgslandschaft“), so dass hier vielleicht weiterhin Systematiken wie Iconclass oder AAT verwendet werden.

Inwieweit Wikidata auch hinsichtlich der Statements über die Kunstwerke eine zentrale Rolle bekommen könnte, ist mir weniger klar. Grundsätzlich wäre das Datenmodell dafür geeignet, aber der allgemeine Wunsch nach zertifizierter und möglichst originärer Information wird vielleicht eher dazu führen, dass die Informationen zu den Werken (ebenso wie das Digitalisat selbst) bei den Museen gesucht wird. Wikidata könnte dann aber die Funktion bekommen, dort hin zu führen.

Ein weiteres Szenario wäre, dass Wikidata – so wie manchmal schon die Wikipedia – als Repositorium fungiert, in dem die Informationen zu Dingen eingegeben werden, die nirgendwo anders digital dokumentiert sind.

Insgesamt wird sich sicherlich noch einiges bewegen zwischen Wikidata und der GLAM-Welt. Auch der Umstand, dass eines der größten kulturhistorischen Museen der Welt, das British Museum in London, ein Dokumentationssystem (ResearchSpace) entwickelt, das auf der gleichen Software wie Wikidata aufbaut (Metaphacts), scheint mir ein Zeichen dafür zu sein, dass GLAM und Wikidata sich in ähnliche Richtungen bewegen.

Hinterlasse einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert