Posts Tagged ‘Wikidata’



Ein kategorischer Imperativ?

Dies ist der dritte in einer kurzen Serie von Blog-Einträgen, in denen ich einige der Design-Entscheidungen für Wikidata erkläre. Der erste handelte von der Einschränkung von Eigenschaften und ihren Werten, im zweiten ging es um Wahrhaftigkeit und Überprüfbarkeit. Die Essays spiegeln meine persönliche Meinung wider und sind nicht als offizielle Haltung des Wikidata-Projekts zu verstehen.

Zunächst ein Name, der Leuten, die sich mit Wissensrepräsentation beschäftigen, sehr, sehr stark am Herzen liegt: Barbara. Er wurde vor etwa 2500 Jahren eingeführt von Aristoteles (Lehrer von Alexander dem Großen, der im Alter von 33 Jahren die gesamte bekannte Welt erobert hatte. Schule und gute Lehrer spielen also eine Rolle!) und ein Jahrtausend später von meinem Lieblings-Philosophen Boethius benannt. (Ernsthaft, dieser Kerl ist genial! Erst hatte er alles, was man sich in dieser Zeit hätte wünschen können – und dann verlor er alles. Lest mal seine Biographie, lohnt sich. Er hatte seine beiden Söhne zu Konsuln des mächtigstes Reichs der Welt gemacht und dann wurden ihm unverhofft all seine Reichtümer genommen, Familienmitglieder wurden umgebracht und er selbst durfte im Gefängnis auf seine eigene Hinrichtung warten. Und anstatt zu jammern, setzte er sich hin und schrieb ein Buch darüber, was im Leben wirklich wichtig ist. Lest seinen Trost der Philosophie. Es verharrte einige Jahrhunderte auf der Bestseller-Liste, und das nicht ohne Grund. Könige schrieben es sogar von Hand ab!) Barbara ist eine logische Grundlage für alles, was mit Klassen zu tun hat. Vielleicht kennt ihr Klassen als Typen, Kategorien, Gattungen oder irgendetwas anderes, das irgendwie taxonomisch ist. Barbara ist ein Syllogismus, also eine Regel zum korrekten Schließen. Der Modus Barbara besagt, dass, wenn für alle A gilt, dass sie B sind und alle B auch C sind, dann sind auch alle A zwangsläufig C. Ein Beispiel: Wenn wir wissen, dass alle Milliardäre Menschen sind und alle Menschen sterblich sind, dann zack, können wir daraus schließen, dass auch alle Milliardäre sterblich sind.
Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

A categorical imperative?

(Die deutsche Version dieses Artikels ist hier.)

This is the third in a short series of blog entries in which I explain some of the design decisions for Wikidata. The first one was about restricting property values or properties, the second about veracity and verifiability. The essays represent my personal opinion, and are not to be understood as the official opinion of the Wikidata project.

At first a name people doing knowledge representation care very, very strongly about: Barbara. Introduced about 2500 years ago by Aristotle (Teacher to Alexander the Great, who had conquered the known world and beyond by the age of 33. School and awesome teachers do matter!) and named a millennium later by my favorite philosopher, Boethius. (Seriously, this guy is awesome. He had everything you could have hoped for back in that time, and he lost it all. Read his bio. He had both his sons made consuls of the mightiest empire of the world, and then suddenly he got his riches taken, family members executed, and was awaiting his own execution in exile in a prison. Instead of lamenting, he sat down and wrote a book about what really is important in life. Read his Consolation of Philosophy. It remained on the bestselling list for a few centuries, not without a reason. Kings copied it by hand!) Barbara is part of the logical foundation of anything that has to do with classes. You might know classes as types, categories, genera, or anything else that is somehow taxonomical. Barbara is a type of syllogisms, thus a rule for correct reasoning. Modus Barbara states that if all A are B and all B are C, well then also all A are C. As an example: If we know that all billionaires are human, and we know that all humans are mortal, bang, all billionaires are mortal, too.
Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Wikidata quality and quantity

One of the goals of the Wikidata development project is a community that is strong enough to maintain the content in Wikidata. The community is – as with all other Wikimedia projects – the only guarantee of quality and sustainability.

None of the objectives of the Wikidata development project is to be the largest collection of data on the net. The sheer number of statements in Wikidata is not a metric that is indicative of healthy growth or quality. Since it is an easy to get and understandable number it is nontheless used a lot, but we should not attach too much importance to it.

This leads to the question, which metrics are meaningful for quality in Wikidata? And I have to admit: we do not know. This may seem particularly ironic since my dissertation was on the topic of quality measurement of knowledge structures. But it is not surprising: the opportunity to make statements in Wikidata exists since about half a year. The site is in continuous development, and some important pieces for quality assurance that are planned for Wikidata are not yet developed – including, for example, ranks for statements, web links as a data type, the protection of individual statements and aggregated views of the data. How to make quality measurable in Wikidata, which metrics correlate with quality – it has simply not yet been investigated sufficiently. I expect that science will provide some answers in the coming months and years.

To get an overview of the development of Wikidata, we must temporarily take assumptions about what numbers likely indicate quality. I do hereby call the community to make suggestions and discuss. A few first thoughts below.

The number of data elements (items) seems to not be a useful measure. This number is so far almost exclusively characterized in that items are required for the storage of language links. Accordingly, there was initially strong growth, while the links were transferred, and in recent months, the number is relatively stable.

The number of edits per page seems to be more meaningful. Last week it went above 5.0 and is rising quickly. The number of edits alone in Wikidata is less meaningful than in many other Wikimedia projects as an extraordinarily high proportion of the edits are done by bots. Bots are programs written by users to automatically or semi-automatically make changes. The bots are controlled by a group of about 80 users. This leads many to the idea that Wikidata is only written by bots. But that’s not true: every month 600000-1 million edits are performed by human user. These are numbers that can be reached only by the most active Wikipedias – including their own bot edits. Worries about Wkidata’s growth being too fast and that the quality of the data would suffer, have so far, except for anecdotes, not proven true.

Perhaps the simplest metric is the number of active users. Active users in Wikimedia projects are defined as the users who contributed at least five edits in a given month. Wikidata has nearly 4,000 active users, making it rank 6th among the most active of the Wikimedia projects together with the Japanese and Russian Wikipedia behind only the English Wikipedia, Commons, the German, French and Spanish Wikipedia. In other words, Wikidata has more active users than 100 smaller Wikipedias combined! Whenever the smaller Wikipedias access Wikidata, they rely on a knowledge base that is maintained by a much larger community than their own Wikipedia. But the advantages don’t end there: by using the content of Wikidata in the Wikipedias it becomes more visible, gets more attention, and errors are more likely to be found (although we still lack the technical means to then correct the error easily from Wikipedia – but that is on the development plan). This mainly benefits the smaller Wikipedias.

But it also already has useful advantages for the larger Wikipedias: An exciting – and for me completely unexpected – opportunity for quality assurance came when the English Wikipedia decided not to simply take IMDB IDs from Wikidata but instead load them from Wikidata to compare them with the existing numbers in Wikipedia, and in the case of inconsistency to add a hidden category to the article. This way difficult to detect errors and easily vandalisable data got an additional safety net: it may well be that you have a typo in the number on the English Wikipedia, or some especially funny person switched the ID for Hannah Montana’s latest film with that ofNatural Born Killers in the French Wikipedia – but now these situations are detected quickly and automatically. This data that is validated in several ways can then be used by the smaller Wikipedias with little concern.

As mentioned earlier, a lot is still missing and Wikidata is a very young project. Many of the statements in Wikidata are without a source. Even in the German Wikipedia the statement, Paris is the capital of France, does not have a source. We impose much stricter rules on a much smaller project after such a short time? But, then one may interject, if a statement has no source, I can not use it in my Wikipedia. And that is perfectly okay: it is already possible now, to just use data from Wikidata if they have a source of a certain type.

There are two ways to ensure the long term quality of Wikipedia: Allow user to be more effective or attract more users. We should continue to pursue both ways and Wikidata uses both ways very effectively: the mechanisms described above aim to give users the means to make more powerful tools and processes to build quality assurance, simultaneously Wikidata has already brought more than 1300 new users to the Wikimedia projects who had not edited in the other Wikimedia projects before.

Wikidatas main goal is to support the Wikimedia projects: it should enable higher quality of the content and reduce the effort required for the same. We need more metrics that capture this goal, and show how we evolve. The simple metrics all indicate that the initial growth in width has come to an end after months, and that the project is gaining in depth and quality. There are useful applications both for small as well as for large projects. But it is also clear that I am an avid supporter of Wikidata and so have a bias, and therefore start a call for ideas to track Wikidata’s effect critically and accurately.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Wikidata Qualität und Quantität

Eines der Ziele des Wikidata-Entwicklungsprojektes ist eine Community, die stark genug ist, die Inhalte in Wikidata zu pflegen. Die Community ist – wie für alle anderen Wikimedia-Projekte auch – der einzige Garant für Qualität und Nachhaltigkeit.

Keines der Ziele des Wikidata-Entwicklungsprojektes ist es, die größte Sammlung von Daten im Netz zu werden. Die schiere Anzahl der Aussagen in Wikidata ist keine Metrik, die auf gesunden Wachstum oder Qualität schließen lässt. Da sie eine leicht berechenbare und verständliche Zahl ist, wird sie dennoch gerne genannt, aber wir sollten ihr nicht zuviel Bedeutung beimessen.

Das führt zu der Frage, welche Metriken denn aussagekräftig für Qualität in Wikidata sind? Und da muss ich zugestehen: wir wissen es nicht. Das mag besonders ironisch erscheinen, da meine Dissertation das Thema Qualitätsmessung von Wissensstrukturen hatte. Aber es ist nicht überraschend: die Möglichkeit, Aussagen in Wikidata zu machen, gibt es seit etwa einem halben Jahr. Die Seite ist in stetiger Entwicklung, und manche Herzstücke der Qualitätssicherung wie sie in Wikidata geplant sind, sind noch nicht entwickelt – dazu gehören zum Beispiel Ränge für Aussagen, Weblinks als Datentyp, der Schutz einzelner Aussagen und aggregierte Sichten auf die Daten. Wie man Qualität in Wikidata messbar macht, welche Metriken mit Qualität korrelieren – es wurde schlicht noch nicht hinreichend untersucht. Ich setze hier sehr darauf, dass in den kommenden Monaten und Jahren die Wissenschaft ein paar Antworten liefern wird.

Um überhaupt einen Überblick über die Entwicklung Wikidatas zu haben, müssen wir vorläufig Annahmen darüber treffen, welche Zahlen wahrscheinlich auf Qualität hinweisen. Ich will hiermit auch die Community aufrufen, Vorschläge zu machen und zu diskutieren. Ein paar erste Gedanken diskutiere ich im Folgenden.

Die Anzahl der Datenelemente (Items) scheint kein brauchbares Maß. Diese Zahl ist bislang fast ausschließlich dadurch gegeben, dass die Items für das Speichern von Sprachenlinks notwendig sind. Entsprechend gab es zunächst ein starkes Wachstum, während die Links übertragen wurden, und seit einigen Monaten ist die Zahl relativ stabil.

Deutlich aussagekräftiger scheint die Zahl der Bearbeitungen pro Seite zu sein. Die hat letzte Woche 5,0 überschritten, und steigt recht schnell. Die Zahl der Bearbeitungen alleine ist in Wikidata weniger aussagekräftig als in vielen anderen Wikimediaprojekten, da ein außerordentlich hoher Anteil der Bearbeitungen von Bots erledigt wird. Bots sind Programme, von Benutzern geschrieben, die automatisch oder halb-automatisch Änderungen vornehmen. Die Bots werden von einer Gruppe von etwa 80 Benutzern gesteuert. Das führt bei vielen Beobachtern zu dem Gedanken, dass Wikidata nur von Bots geschrieben wird. Aber das stimmt nicht: jedem Monat werden zwischen 600,000 und 1 Million Bearbeitungen durch menschliche Benutzer durchgeführt. Das sind Zahlen, die nur von den aktivsten Wikipedien erreicht werden – inklusive ihre eigenen Botbearbeitungen. Warnrufe darüber, dass Wikidatas Wachstum viel zu schnell sei und die Qualität der Daten auf der Strecke bliebe, wurden bislang, außer durch Anekdoten, nicht belegt.

Die vielleicht einfachste Metrik ist die Zahl der aktiven Benutzer. Aktive Benutzer werden in Wikimediaprojekten definiert als die Benutzer, die zumindest fünf Bearbeitungen im Monat beitrugen. Wikidata hat knapp 4000 aktive Benutzer, und ist damit mit der Japanischen und Russischen Wikipedia auf Rang 6 der aktivsten Wikimediaprojekte, nur hinter der Englischen Wikipedia, Commons, der Deutschen, Französischen und Spanischen Wikipedia. Oder anders gesagt: Wikidata hat mehr aktive Benutzer als 100 kleinere Wikipedien zusammengezählt! Wann auch immer die kleineren Wikipedien auf Wikidata zugreifen, greifen sie auf eine Wissensbasis zurück, die von einer deutlich größeren Community gewartet wird als ihre eigene Wikipedia. Aber damit erschöpft sich der Vorteil noch nicht: durch das Darstellen der Inhalte von Wikidata in den Wikipedien werden die Inhalte sichtbarer, erhalten mehr Aufmerksamkeit, und Fehler werden wahrscheinlicher gefunden (auch wenn es noch an der technischen Möglichkeit fehlt, die Fehler dann auch leicht aus der Wikipedia heraus zu korrigieren – aber auch das steht im Entwicklungsplan). Das nutzt vor allem den kleineren Wikipedien.

Aber auch die größeren Wikipedien haben jetzt schon handfeste Vorteile: eine spannende – und für mich vollkommen unterwartete – Möglichkeit zur Qualitätssicherung ergab sich, als die Englische Wikipedia entschloss, IMDB IDs nicht einfach aus Wikidata zu übernehmen, sondern vielmehr aus Wikidata zu laden, mit den vorhandenen Zahlen in Wikipedia zu vergleichen, und im Fall einer Inkonsistenz den Artikel mit einer versteckten Kategorie zu versehen. Dadurch könne gerade schwer zu entdeckende Fehler und leicht vandalisierbare Daten mit einem mehrfachen Sicherheitsnetz versehen werden: es kann ja sein, dass man einen Zahlendreher in der Englischen Wikipedia hat, oder das ein Spaßvogel in der Französischen Wikipedia die ID für Hanna Montanas neuesten Film mit der von Natural Born Killers vertauscht – aber nun werden solche Situationen schnell und automatisch erkannt. Diese mehrfach validierten Daten können dann auch mit wenig Bedenken von den kleineren Wikipedien genutzt werden.

Wie anfangs erwähnt, vieles fehlt noch, und Wikidata ist ein sehr junges Projekt. Viele der Aussagen in Wikidata stehen ohne Quelle da. Auch in der Deutschen Wikipedia hat die Aussage, Paris sei die Hauptstadt Frankreichs, keine Quelle. Verlangen wir von einem viel kleineren Projekt strengere Regeln nach so kurzer Zeit? Aber, mag man dann einwerfen, wenn eine Aussage keine Quelle hat, kann ich sie in meiner Wikipedia nicht verwenden. Und das ist vollkommen in Ordnung: es ist jetzt bereits möglich, Daten aus Wikidata nur zu übernehmen, wenn sie eine Quelle einer bestimmten Art haben.

Es gibt zwei Möglichkeiten, die Qualität der Wikipedien langfristig zu sichern: Benutzer effektiver werden lassen oder mehr Benutzer gewinnen. Beide Wege sollten wir weiterhin verfolgen, und Wikidata verfolgt beide Wege sehr effektiv: die oben beschriebenen Mechanismen zielen daraufhin, den Benutzern die Mittel zu geben, mächtigere Werkzeuge und Prozesse zur Qualitätssicherung aufbauen zu lassen, gleichzeitig hat Wikidata bereits mehr als 1300 neue Benutzer zu den Wikimediaprojekten geführt, die bislang nicht in den anderen Wikimediaprojekten editierten.

Wikidatas Hauptziel ist die Wikimediaprojekte zu unterstützen: es soll eine höhere Qualität der Inhalte ermöglichen und gleichzeitig den dafür benötigten Aufwand senken. Wir brauchen mehr Metriken, die dieses Ziel erfassen, und die zeigen, wie wir uns dahingehend entwickeln. Die einfachen Metriken deuten alle darauf hin, dass der anfängliche Wachstum in der Breite seit Monaten zu einem Abschluss gekommen ist, und dass das Projekt in Tiefe und Qualität gewinnt. Es gibt nützliche Anwendungen sowohl für die kleinen wie auch für die großen Projekte. Aber es ist auch klar, dass ich ein eifriger Verfechter Wikidatas bin, damit einen Bias habe, und deswegen einen Aufruf starte, nach Möglichkeiten, Wikidatas Effekt kritisch und genau verfolgen zu können.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (1 Bewertungen, Durchschnitt: 1,00 von 5)
Loading...

Wikidata und andere Technik auf der Wikimania

Denny, Lydia und Daniel (von Fabrice Florin, CC-by-sa 2.0)

Ich bin zurück von einer großartigen Wikimania. Zunächst einmal vielen Dank an alle, die geholfen haben die Veranstaltung zu organisieren. Es war sehr gut organisiert und eine nützliche und produktive Veranstaltung. Ich war dort, um alles rund um Wikidata sowie neue Technik wie den VisualEditor und Flow und ihre Auswirkungen auf die deutschsprachige Wikipedia zu diskutieren.

Ich hatte den Eindruck, dass Wikidata und der Visual Editor in aller Munde waren während dieser Wikimania. Egal zu welchem Vortrag, welcher Diskussionsrunde oder welchem Abendessen ich ging – jedes einzelne von ihnen hatte Wikidata und den VisualEditor zum in irgendeiner Form zum Thema. Es ist großartig zu sehen wie die Wikimedia-Gemeinschaft Wikidata in seine Reihen aufnimmt. Und der VisualEditor – auch wenn noch unfertig – scheint auch sehr schnell zu diesem Punkt zu kommen.
Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Wikidata and other technical bits at Wikimania

Denny, Lydia and Daniel (by Fabrice Florin, CC-by-sa 2.0)

I’m back from an amazing Wikimania. First of all thank you to everyone who helped make the event happen. It was very well organized and an overall useful and productive event. I was there to discuss everything Wikidata as well as new technology like the Visual Editor and Flow and how they affect the German language Wikipedia.

It felt like Wikidata and the Visual Editor were on everyone’s mind during this Wikimania. No matter which talk or panel or dinner I went to – every single one of them mentioned Wikidata and the Visual Editor in some way. It’s great to see the Wikimedia community embrace Wikidata as its sister project. And the VisualEditor – while still rough – it seems is getting to that point very quickly too.
Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 4,80 von 5)
Loading...

Monatsbericht Juli 2013

TEAM COMMUNITYS

Förderprogramme

Wikimedia Deutschland konnte Musketier-Treffen, bei denen Wikipedianer Artikel verbessern und pflegen, in Duisburg und Berlin finanziell unterstützen. Über 50 Wikimedia-Projektaktive trafen sich dabei, um Wikipedia-Artikel zu verbessern und sich über die Projekte auszutauschen.

Das Treffen des Wikipedia:Schiedsgerichts in Limburg Anfang Juli wurde von Wikimedia Deutschland ebenso unterstützt und finanziert wie das erste Treffen der AG Wikiversity: In Limburg an der Lahn hat sich die deutschsprachige Wikiversity zusammengefunden. Die Projektgruppe “Wikiversity-AG” lud dazu ein, sich gemeinsam über die Zukunft und die Entwicklungen in Wikiversity auszutauschen. Es wurde auch eine Liste an Verbesserungswünschen zusammengetragen.

Das erste selbstorganisierte Treffen des Referentennetzwerks fand, ebenfalls von Wikimedia Deutschland finanziert, im Anschluss am selben Ort statt. Themen waren die Findung der Gruppe und ein geeigneter Rahmen sowie die zukünftige Gestaltung der Zusammenarbeit mit Wikimedia Deutschland.

Zwei Workshops zu visuellen Medien konnten von Wikimedia Deutschland mitorganisiert und finanziell gefördert werden: das Wiki-Projekt: Private Fahrzeugsammlung Braunschweig mit vielen Fotos historischer Fahrzeuge auf den Commons und einer Liste der empfohlenen Praktiken für Automobilfotografie, sowie der WikiTV-Videoschnittworkshop mit der freien Software Kdenlive in Berlin.

Beim Fotoflug Sauerland arbeitete das WikiProjekt Sauerland mit weiteren fotobegeisterten Freiwilligen zusammen und hat, finanziell von Wikimedia Deutschland unterstützt, mit einer ausführlich geplanten Route Objekte aus der Luft dokumentiert und auf Wikimedia Commons hochgeladen, um sie in Wikipedia-Artikeln einzubinden.

Sommerzeit ist Hochsaison im durch das Community-Projektbudget geförderten Festivalsommer, und so fanden auch im Juli zahlreiche Fotoeinsätze durch Freiwillige auf Festivals statt, über 4.200 Fotos davon sind bereits unter freien Lizenzen auf Wikimedia Commons verfügbar. Im Landtagsprojekt wurde der Juli dazu genutzt, die nächsten Einsätze vorzubereiten, nach der politischen Sommerpause geht es Ende August im Landtag Schleswig-Holstein weiter mit dem Erstellen von Abgeordnetenbildern unter freien Lizenzen. Im Projekt “Grenzen der Bezahlung” haben im Juli vier Diskussionsveranstaltungen stattgefunden, weitere sind in Vorbereitung.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (4 Bewertungen, Durchschnitt: 4,75 von 5)
Loading...

IBM Research spendet Preisgeld des AAAI Feigenbaum-Preises für Watson an die Wikimedia Foundation

Dies ist eine Übersetzung aus dem Wikimedia Blog.

Die AAAI (Association for the Advancement of Artificial Intelligence) verleiht den diesjährigen Feigenbaum-Preis an IBM Research’s Watson Team. Watson wird als eines der eindrucksvollsten Ergebnisse der Forschung im Bereich Künstliche Intelligenz in den letzten Jahren angesehen. Bekannt wurde Watson durch den Sieg in der US-Amerikanischen Quizshow Jeopardy! gegen die früheren Großmeister Brad Rutter und Ken Jennings im Februar 2011. Watson findet nun Einsatz in der Medizin, in der Finanzwelt, und im Einzelhandel.

Um die Rolle, die Wikipedia in dem Erfolg von Watson bei Jeopardy! spielte zu würdigen, bat das IBM Team die AAAI das Preisgeld des Feigenbaum-Preises in Höhe von 10.000 US$ an die Wikimedia Foundation zu geben. IBM Research möchte damit die Arbeit der Wikimedia Foundation würdigen und unterstützen, und betont insbesondere Wikidata und das Ziel, allen – ob Mensch oder Maschine – die Gesamtheit des Wissens zugänglich zu machen.

„Watson verkörpert einen Paradigmenwechsel in der Künstlichen Intelligenz. Die neuartige Architektur des Systems verknüpft Daten und Informationen aus vielen verschiedenen Quellen, darunter auch der vollständige Text der Englischen Wikipedia“, sagt Chris Welty von IBM Research.

Der Text und die strukturierten Inhalte der Wikipedia wurden mit Hilfe von Algorithmen zur Analyse natürlicher Sprache bearbeitet. Auch die strukturierten Elemente der Wikipedia – Links, Infoboxen, Kategorien – wurden der massiven Wissensbasis von Watson hinzugefügt, auf die Watson während dem Jeopardy! Quiz Zugriff hatte.

Wir sind IBM dankbar, und sind gespannt, welche Herausforderungen das Watson Team in Zukunft angehen wird.

Matthew Roth
Wikimedia Foundation

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (Noch keine Bewertungen)
Loading...

Großspende für Wikidata

Heute hält Denny Vrandecic vom Wikidata-Team einen Vortrag auf der Semantic Technology and Business Conference in San Francisco. Dabei kann er neben den vielen inhaltlichen Punkten, die das Team in der ganzen Welt vor Datenenthusiasten präsentiert, auch auf großartige finanzielle Unterstützung verweisen: Das Wikidata-Team und Wikimedia Deutschland freuen sich, eine Großespende über 150.000 Euro durch den Suchmaschinenbetreiber Yandex verkünden zu können. Mit diesen zusätzlichen Mitteln können Kernfunktionen des Projekts weiterentwickelt werden. Details sowie Kommentare von Denny und Pavel Richter sind in unserer Pressemitteilung zur Spende nachzulesen.

Yandex wurde 1997 gegründet und betreibt heute die meistgenutzte Suchmaschine Russlands. Das Unternehmen gehört zu den fünf größten Anbietern weltweit und ist mit seinen Angeboten auch in der Ukraine, Kasachstan, Weißrussland und der Türkei vertreten. Über die Motivation für das Engagement von Yandex sagt Alexander Shubin, verantwortlich für Web-Standards:

Es ist eine ambitionierte Aufgabe, Objekte der realen Welt und die Beziehungen zwischen ihnen verstehen zu wollen. Für Forscher ergeben sich zahlreiche Hürden dabei. Eine davon ist es, dass eine vollständige und hochwertige Datenbank verfügbar sein muss, die solche Objekte und ihre Eigenschaften und Beziehungen enthält. Niemand kann so etwas allein erstellen. Dafür ist ein gemeinschaftlicher Ansatz nötig, mit der Unterstützung tausender Menschen. Deshalb freuen wir uns, Wikidata unterstützen zu können – denn das Projekt ist ein gemeinschaftlicher und offener Versuch, genau so eine Datenbank zu schaffen.

Die Spende ist keinem festen Zweck innerhalb des Wikidata-Projekts zugewiesen, sondern vergrößert die Möglichkeiten für das Entwickler-Team, die anstehenden Aufgaben zu bewältigen. Hier im Vereinsblog gibt es unter http://blog.wikimedia.de/tag/wikidata/ alle Neuigkeiten und Berichte der letzten Wochen zum nachlesen.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Von Wahrheiten und Lügen

Dies ist der zweite in einer kurzen Serie von Blogeinträgen, in denen ich einige der Design-Entscheidungen hinter Wikidata erkläre. Der erste Blogeintrag beleuchtete die Einschränkung von Eigenschaften und ihren Werten. Diese Essays stellen meine persönliche Meinung dar, und sollten nicht als offizielle Stellungnahme des Wikidata-Projekts verstanden werden.

Datenbanken haben eine Aura der Richtigkeit. Wenn wir eine Abfrage an eine Datenbank stellen, erwarten wir, dass das Ergebnis, das zurück kommt, im Grunde Die Antwort und Die Wahrheit ist. Frag Amazons Datenbank nach dem Autor der Bibel. Frag IMDB nach dem Regisseur von Adaption. Du erwartest nicht eine mögliche Antwort, oder verschiedene Blickwinkel – du erwartest eine definitive Antwort.

Wikidata sammelt strukturierte Daten über die Welt. Es ist im Grunde eine crowdgesourcte Datenbank. Im Gegensatz zu Text, fehlt strukturierten Daten notwendigerweise und leider Nuance. Während es möglich ist, über die Staatlichkeit des Kosovo in einer NPOV-weise in natürlicher Sprache zu sprechen, würde ein naiver Ansatz das in strukturierten Daten darzustellen scheitern: Entweder sagen wir Kosovo ist ein Staat oder wir tun es nicht. Es gibt keine Grautöne.

Glücklicherweise liegen einige der Wurzeln von Wikidata in einem EU-Forschungsprojekt namens RENDER. Das Ziel dieses Projekts ist es die Vielfalt des Wissens im Web zu erforschen und zu unterstützen. Render verwirft die Annahme einer einfachen, einzigen Wahrheit – und dies wurde vom Wikidata Datenmodell geerbt. Statt Fakten zu sammeln, sammeln wir Aussagen. Wir definieren Aussagen als Behauptungen die Referenzen haben. Eine Referenz belegt die Behauptung. Ein schönes Beispiel ist Ethanol bei dem die CAS Nummer – eine Standard-Kennung für chemische Verbindungen – angegeben ist mir einer Referenz auf die Quelle inklusive der entsprechenden Seitenzahl.

Im Gegensatz zu vielen anderen Datenbanken kann Wikidata widersprüchliche Aussagen enthalten die von verschiedenen Referenzen unterstützt werden. Im Gegensatz zum natürlichen Text in Wikipedia, bietet Wikidata nicht die Möglichkeit, diese Unterschiede in Einklang zu bringen und in Prosa zu erklären um den verschiedenen Blickwinkeln das ihnen zustehende Gewicht zu verleihen. Die Verantwortung liegt beim Leser und Weiterverwender von Wikidata zu entscheiden welchen Quellen er vertraut. Ich gehe davon aus, dass es in den nächsten Jahren ziemlich viel Forschung und Untersuchungen zu dieser Frage geben wird. Die ersten Nachnutzer, die sich mit diesen Fragen befassen sind die Wikipedia Communities, die sich entscheiden Daten aus Wikidata zu verwenden.

In den nächsten Wochen und Monaten werden wir noch ein paar weitere Features hinzufügen, die die Vielfalt der Aussagen in Wikidata unterstützen.

Derzeit ist der naheliegendste Mängel das Fehlen von Datentypen um Zahlen, Text und URLs angeben. Nur mit diesen Datentypen wird es möglich sein Referenzen in ihrer vollen Pracht zu nutzen. Eine weitere Möglichkeit – sobald URLs zur Verfügung stehen – wäre Content Locators für Text in HTML-Seiten durch XPath, oxPath, CSS-Selektoren oder ähnliches zur Verfügung zu stellen, sodass Bots überprüfen können, ob die angegebenen Referenzen noch gültig sind. Ich bin sehr gespannt, wie sich die Verwendung von Referenzen und Quellen in und um Wikidata entwickelt.

Ein weiteres wichtiges Feature, das im Laufe dieses Jahres eingeführt wird, ist die Möglichkeit, Aussagen einen Rang zuzuweisen: nicht alle Aussagen sollen als gleichwertig betrachtet werden. Wir werden drei Ränge einführen und jede Aussage wird in einem von ihnen sein: bevorzugt, normal und überholt.

„Bevorzugte“ Aussagen sollten die aktuellsten und am weitesten akzeptierten Aussagen sein. Es kann mehrere bevorzugte Aussagen für das gleiche Objekt und Eigenschaft geben.

„Überholte“ Aussagen sind die, die aus irgendeinem Grund als nicht zuverlässig angesehen werden. Sie werden aber erwähnt, weil sie eine solide Quelle haben die sie unterstützen oder weil sie aus irgendeinem Grund weit verbreitet aber eigentlich nicht mehr akzeptiert sind. Beispiele können Tippfehler in einflussreichen Lehrbücher sein — zum Beispiel zum Eisengehalt von Spinat, oder der Länge des Rheins – – oder Zahlen, die durch irgendeine Form von Propaganda verbreitet wurden und heute nicht mehr als korrekt angesehen werden.

„Normale“ Aussagen sind also die, die übrig bleiben, also weder „bevorzugt“ noch „überholt“ sind. Dies wird oft für historische Aussagen (die Bevölkerung von Rom in der Zeit von Julius Caesar, ehemalige Hauptstädte von Russland, etc.) gelten.

Technisch werden wir zuerst nur bevorzugte Aussagen für die Beantwortung von Anfragen verwenden (dh, wenn du nach allen Hauptstädten mit einer Bevölkerung von weniger als 500.000 fragen, dann wirst du keine Resultate erhalten bei denen die Stadt eine Bevölkerung von 120.000 im 16. Jahrhundert hatte). Außerdem werden nur diese von der Eigenschaften-Parserfunktion zurückgegeben werden. Die Lua-Schnittstelle hat Zugang zu allen Aussagen und bieten damit volle Flexibilität. Es ist geplant die Abfragemöglichkeiten später zu erweitern um komplexere Abfragen zuzulassen, an welchem ​​Punkt wir uns über die Einbeziehung der anderen Ränge Gedanken machen müssen.

Die Ränge sollten offenere Regeln in Wikidata ermöglichen, sodass eine breitere Vielfalt von Wissen abgedeckt werden kann.

Um eine Vorstellung vom Zeitplan zu geben: Wir werden zunächst die noch fehlenden Datentypen implementieren, und dann, als Voraussetzung für Ränge, die Möglichkeit Aussagen zu ordnen. Danach werden Ränge das nächste verfügbare Feature in Wikidata sein.

Ränge führen einen neuen Vektor in die Debatte ein, den es in Wikidata bisher noch nicht gibt. Die Frage verschiebt sich von „sollte diese Aussage aufgenommen werden?“ zu „was soll der Rang dieser Aussage sein?“ Dies scheint ein notwendiger Schritt zu sein: Im Gegensatz zu natürlichem Text, könnte Wikidata sonst keine Aussagen aufnehmen, bei denen man sich geeinigt hat, dass sie falsch sind aber einen historischen oder anderen Wert haben. Dies macht es umso wichtiger, sich daran zu erinnern, dass es bei Wikidata nicht um die Wahrheit geht, sondern um das Sammeln belegter Aussagen in einer sekundären Datenbank. Das Kriterium für die Aufnahme sollte nicht Wahrhaftigkeit sondern Überprüfbarkeit sein – eine Politik, die Wikipedia sehr gut gediehnt hat.

Wikidata wird immer – und das ist sowohl eine Notwendigkeit als auch im Design anerkannt – weniger können als Wikipedia in vielen Aspekten. Wikipediaartikel können kausale und informellen Verbindungen beleuchten, sie können Neugier wecken und sie können eine der wichtigsten Formen des Wissenstransfers zwischen Menschen unterstützen: Geschichtenerzählen. Wikidata hat andere, einzigartige Vorteile: Es kann einige Grunddaten über ein Thema von Interesse in vielen Sprachen leichter zur Verfügung stellen, und es stellt die Daten in einer Weise bereit, die für Bots und Apps viel leichter zugänglich ist. Es könnte ein Schritt in Richtung Entlastung einiger Wikipedien von einer Menge Bot-erstellter Artikel sein, die nie von einem menschlichen Editor berührt wurden, die letzten Änderungen fluten und Statistiken verzerren.

Ohne die Fähigkeit, eine Vielzahl von Aussagen zu einem Objekt zum Ausdruck zu bringen – auch wenn sie nur von einigen als Wahrheiten und von anderen als Lügen angesehen werden – würde Wikidata einer der wichtigsten Säulen der Wikipedia nicht gerecht werden: dem Neutral Point of View und der Möglichkeit gegensätzlichen Standpunkte zu integrieren.

Ich hoffe, dass die technische Plattform, die wir als Entwickler bauen, und die Regeln und Verfahren der Communities in Wikidata, den Wikipedien und andere Wikimedia-Projekten ein nützliches Ökosystem schaffen, mit dem Verständnis der Grenzen der einzelnen Projekte und dem Willen zu entdecken, wie wir einander am effektivsten helfen können. Und das bedeutet, die eigenartige Beziehung zwischen Wikidata und Der Wahrheit zu verstehen.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (10 Bewertungen, Durchschnitt: 4,80 von 5)
Loading...