Archiv für die ‘Technisches’ Kategorie

Improving data quality on Wikidata – checking what we have

German summary: Ein Team von Studenten des Hasso Plattner Instituts in Potsdam arbeitet aktuell mit Wikimedia Deutschland an Werkzeugen um die Datenqualität auf Wikidata zu verbessern und zu sichern. In diesem Beitrag stellen sie ihre beiden Projekte vor: die Prüfung von Wikidatas Daten auf Konsistenz mit sich selbst sowie die Prüfung von Wikidatas Daten gegen andere Datenbanken.


 Hello, we are the Wikidata Quality Team. We are a team of students from Hasso Plattner Institute in Potsdam, Germany. For our bachelor project we are working together with the Wikidata development team to ensure high quality of the data on Wikidata.

Wikidata provides a lot of structured data open to everyone. Quite a lot. Actually, they are providing an enormous amount of data approaching the mark of 13.5 million items, each of which has numerous statements. The data got into the system by diligent people and by bots, and neither people nor bots are known for infallibility. Errors are made and somehow we have to find and correct them. Besides erroneous data, incomplete data is another problem. Imagine you are a resident of Berlin and want to improve the Wikidata item about the city. You go ahead and add its highest point (Müggelberge), its sister cities (Los Angeles, Madrid, Istanbul, Warsaw and 21 others) and its new head of government (Michael Müller). As you do it the correct way, you are using qualifiers and references. Good job, but did you think of adding Berlin as the sister city of 25 cities? Although the data you entered is correct, it is incomplete and you have—both unwilling and unknowingly—introduced an inconsistency. And that’s only, assuming you used the correct items and properties and did not make a typo while entering a statement. And thirdly, things change. Population numbers vary, organizations are dissolved and artists release new albums. Wikidata has the huge advantage that this change only has to be made in one place, but still: Someone has to do it and even more importantly, someone has to become aware of it.

Facing the problems mentioned above, two projects have emerged. People using Wikidata are adding identifiers of external databases like GND, MusicBrainz and many more. So why not make use of them? We are developing a tool that scans an item for those identifiers and then searches in the linked databases for data against which it compares the items statements. This does not only help us verify Wikidata’s content and find mismatches that could indicate errors, but also makes us aware of changes. MusicBrainz is a specialist for artists and composers, GND for data related to people, and these specialists‘ data is likely to be up to date. Using their databases to cross-check, we hope to be able to have the latest data of all fields represented in Wikidata.

The second projects focuses on using constraints on properties. Here are some examples to illustrate what this means:

  • Items that have the property “date of death” should also have “date of birth“, and their respective values should not be more than 150 years apart
  • Properties like “sister city“ are symmetric, so items referenced by this statement should also have a statement “sister city“ linking back to the original item
  • Analogously, properties like “has part” and “part of” are inverse and should be used on both items in a lot of cases
  • Identifiers for IMDb, ISBN, GND, MusicBrainz etc. always follow a specific pattern that we can verify
  • And so on…

Checking these constraints and indicating issues when someone visits an items page, helps identify which statements should be treated with caution and encourages editors to fix errors. We are also planning to provide ways to fix issues (semi-)automatically (e.g. by adding the missing sister city when he is sure, that the city really has this sister city). We also want to check these constraints when someone wants to save a new entry. This hopefully prevents errors from getting into the system in the first place.

That’s about it – to keep up with the news visit our project page. We hope you are fond of our project and we appreciate your feedback! Contact information can also be found on the project page.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (11 Bewertungen, Durchschnitt: 5,00 von 5)

Platypus, a speaking interface for Wikidata

PPP (Projet Pensées Profondes)  is a student project aiming to build an open question answering platform. Its demo, Platypus ( is massively based on Wikidata content. 

At the École normale supérieure de Lyon we have to do a programming project during the first part of your master degree curriculum. Some of us were very interested in working on natural language processing and others on knowledge bases. So, we tried to find a project that could allow us to work on both sides and, quickly, the idea of an open source question answering tool came up.
This tool has to answer to a lot of different questions so one of the requirements of this project was to use a huge generalist knowledge base in order to have a usable tool quickly. As one of us was already a Wikidata contributor and inspired by the example of the very nice but ephemeral Wiri tool of Magnus Manske, we quickly chose to use Wikidata as our primary data source.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (3 Bewertungen, Durchschnitt: 5,00 von 5)

Platypus, eine Schnittstelle zu Wikidata in natürlicher Sprache

PPP (Projet Pensées Profondes)  ist ein Projekt von Studierenden mit dem Ziel eine offene Frage-Antwort-Plattform zu bauen. Die dabei entstandene Demo-Anwendung Platypus ( stützt sich in erster Linie auf Inhalte von Wikidata. In einem Gastbeitrag berichten die Menschen hinter Platypus von ihrem Projekt, Wikidata das Sprechen beizubringen. 

An der École normale supérieure de Lyon steht im ersten Teil des Masterstudiengangs ein Software-Praktikum auf dem Plan. Einige von uns waren an natürlicher Sprachverarbeitung interessiert, andere an Wissensdatenbanken. Wir suchten also ein Projekt, an dem beide Seiten arbeiten konnten und kamen recht schnell auf die Idee einer offenen Frage-Antwort-Plattform. Dieses Werkzeug sollte eine Menge unterschiedlicher Fragen beantworten können und brauchte deshalb eine einen riesigen Datenfundus an Weltwissen, damit wir schnell loslegen konnten. Jemand bei uns war schon Wikidata-Editor und inspiriert von dem schicken, aber mittlerweile nicht mehr gepflegten Wiri-Tool von Magnus Manske stand schnell fest, dass wir Wikidata als primäre Datenquelle nutzen wollten.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)

Asking Ever Bigger Questions with Wikidata

German summary: Maximilian Klein benutzt Wikidata als als Datenfundus für statistische Auswertungen über das Wissen der Welt. In seinem Artikel beschreibt er, wie er in Wikidata nach Antworten auf die großen Fragen sucht.

Asking Ever Bigger Questions with Wikidata

Guest post by Maximilian Klein

A New Era

Simultaneous discovery can sometimes be considered an indication for a paradigm shift in knowledge, and last month Magnus Manske and I seemed to have both had a very similar idea at the same time. Our ideas were to look at gender statistics in Wikidata and to slice them up by date of birth, citizenship, and langauge. (Magnus‘ blog post, and my own.) At first it seems like quite elementary and naïve analysis, especially 14 years into Wikipedia, but only within the last year has this type of research become feasible. Like a baby taking its first steps, Wikidata and its tools ecosystem are maturing. That challenges us to creatively use the data in front of us.

Describing 5 stages of Wikidata, Markus Krötsch foresaw this analyis in his presentation at Wikimania 2014. The stages which range fromKnow to Understand are: Read, Browse, Query, Display, and Analyse (see image). Most likey you may have read Wikidata, and perhaps even have browsed with Reasonator, queried with autolist, or displayed with histropedia. I care to focus on analyse – the most understand-y of the stages. In fact the example given for analyse was my first exploration of gender and language, where I analysed the ratio of female biographies by Wikipedia Language: English and German are around 15% and Japanese, Chinese and Korean are each closer to 25%.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 4,80 von 5)

Wir lieben Freie Software

Wie schon im letzten Jahr begeht die Free Software Foundation Europe am 14. Februar den „I love Free Software-Tag“. Bei Wikimedia Deutschland entstehen die Arbeiten an den Softwareprojekten MediaWiki und Wikidata ganz selbstverständlich und von Anfang an als Freie Software unter Freien Lizenzen. Für uns ist klar, dass wir Freies Wissen nicht nur in Form von Artikeln in Projekten wie der Wikipedia teilen wollen – Freies Wissen gibt es auch in Form von Code. Es ist uns wichtig, Freiheit in Form von Software zu schaffen und zu teilen. Thiemo Mättig, Wikipedianer und bei Wikimedia Deutschland angestellt als Software-Entwickler, hat seine persönlichen Gründe dafür aufgeschrieben und erklärt, warum er Freie Software liebt.

Frei für alle, wer macht denn sowas?

Seit nunmehr einer Dekade erkläre ich Wikipedia, und die Antwort ist immer die Selbe: „Wer schreibt denn die Artikel?“ Leute wie du und ich. „Und wer prüft die Fakten?“ Leute wie du und ich. „Und wer programmiert die Software?“ Leute wie du und ich.

Und wie ist das möglich?“ Weil alles frei ist, offen, transparent und nachvollziehbar, von den sozialen Prozessen in den Communitys der verschiedenen Wikimedia-Schwesterprojekte bis zur Software tief drin in dem, was ich inzwischen Wikimedia-Universum nenne. Von den Artikelschreibern in den Wikipedia-Sprachversionen über die Faktensammler im Wikidata-Projekt bis hin zu den Tüftlern und Bastlern in und an der MediaWiki-Software und ihren zahllosen Erweiterungen sind all die verschiedenen Benutzergruppe durch eine große Idee verbunden: Was wir tun, ist öffentlich und frei. Freie Software.

Diese Art der Freiheit ist etwas, das Weblog-Schreibern, Facebook- und Twitter-Benutzern vertraut ist, wenn sie etwas teilen. Die Übertragung dieser Idee auf die Daten- und Software-Welt ist immer noch etwas, das Erstaunen auslöst. „Wenn jeder meine Daten oder meine Software auf seine Bedürfnisse zuschneiden kann, ohne mich zu fragen“, so hört man, „dann ist meine Arbeit doch nichts wert.“ Wie erklärt man, dass diese Frage falsch gestellt ist?

Freie Software steigert den Wert für alle

Ich glaube daran, dass frei im Sinne Freier Software zu sein keine Wertminderung, sondern eine Wertsteigerung bedeutet. Die Freiheit, Einblick zu erlangen, zu Verändern, zu Verbessern und weiter zu geben ermöglicht etwas, das mit manchmal verächtlich „totes Holz“ genannten Büchern oder der Zeitung von gestern nicht denkbar ist: Wissen wird lebendig, und diese Lebendigkeit kann so viel mehr wert sein als die Hoheit über eine Datensammlung oder die Weiterentwicklung einer Software inne zu haben. Projekte wie MediaWiki, die Wiki-Software hinter der Wikipedia, oder das Wikidata-Projekt zeigen das.

Wikidata geisterte als Idee seit den Anfängen der Wikipedia durch die Köpfe einiger Vorreiter. Vor etwas mehr als zwei Jahren fand die Idee eine Heimat in Berlin und lockte mich stetig: Eine Fakten-Sammlung mit inzwischen 13 Millionen Einträgen, aufgebaut auf einer speziell dafür geschaffenen Datenbank-Software für lose strukturiertes Faktenwissen. Das, was seit gut zwanzig Jahren als „semantisches Web“ postuliert wird, fand ich in Wikidata so praxistauglich geerdet, dass es für mich endlich greifbar wurde. Große Pläne in kleinen, überschaubaren Schritten. Schnelle Entwicklungs-Zyklen. Unmittelbare Einflussnahme. Und ausschließlich Freie Software, die auch mir als Entwickler die Sicherheit gibt, dass keine von mir geschriebene Zeile Quelltext ungesehen in Vergessenheit geraten sondern sich verbreiten wird, gesehen wird und ja, auch verändert wird, oft genug bis zur Unkenntlichkeit. Doch wie bei jedem Enzyklopädie-Artikel in der Wikipedia, dessen Entwicklung ich angestoßen oder begleitet habe, setzt sich auch in der Softwareentwicklung die Überzeugung durch, dass nicht die Wortwahl zählt oder die Wahl eines Algorithmus sondern die Idee, die mein Beitrag eingebracht hat. Wikidata, deren Softwareentwicklung ich seit inzwischen einem Jahr in Vollzeit mit voran treibe, ist dank Freier Software lebendiger als jedes Softwareprojekt, an dem ich je beteiligt war. Freie Software gibt mir die Gewissheit, an etwas teilzuhaben, das größer ist als ich es überschauen kann.

Darum liebe ich Freie Software.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (9 Bewertungen, Durchschnitt: 4,11 von 5)

Scaling Wikidata: success means making the pie bigger

German summary: Wikidata wird größer und erfolgreicher. Im nächsten Jahr müssen wir Strategien und Werkzeuge entwickeln um Wikidata zu skalieren. In diesem Beitrag lege ich meine Überlegungen dazu dar.


Wikidata is becoming more successful every single day. Every single day we cover more topics and have more data about them. Every single day new people join our community. Every single day we provide more people with more access to more knowledge. This is amazing. But with any growth comes growing pains. We need to start thinking about them and build strategies for dealing with them.

Wikidata needs to scale in two ways: socially and technically. I will not go into the details of technical scaling here but instead focus on the social scaling. With social scaling I mean enabling all of us to deal with more attention, data and people around Wikidata. There are several key things that need to be in place to make this happen:

  • A welcome wagon and good documentation for newcomers to help them become part of the community and understand our shared norms, values, policies and traditions.
  • Good tools to help us maintain our data and find issues quickly and deal with them swiftly.
  • A shared understanding that providing high-quality data and knowledge is important.
  • Communication tools like the weekly summary and Project chat that help us keep everyone on the same page.
  • Structures that scale with enough people with advanced rights to not overwhelm and burn out any one of them.

We have all of these in place but all of them need more work from all of us to really prepare us for what is ahead over the next months and years.

One of the biggest pressures Wikidata is facing now is organisations wanting to push large amounts of data into Wikidata. This is great if it is done correctly and if it is data we truly care about. There are key criteria I think we should consider when accepting large data donations:

  • Is the data reliable, trustworthy, current and published somewhere referencable? We are a secondary database, meaning we state what other sources say.
  • Is the data going to be used? Data that is not used is exponentially harder to maintain because less people see it.
  • Is the organization providing the data going to help keep it in good shape? Or are other people willing to do it? Data donations need champions feeling responsible for making them a success in the long run.
  • Is it helping us fix an important gap or counter a bias we have in our knowledge base?
  • Is it improving existing topics more than adding new ones? We need to improve the depth of our data before we continue to expand its breadth.

So once we have this data how can we make sure it stays in good shape? Because one of the crucial points for scaling Wikidata is quality of and trust in the data on Wikidata. How can we ensure high quality of the data in Wikidata even on a large scale? The key pieces necessary to achieve this:

  • A community that cares about making sure the data we provide is correct, complete and up-to-date
  • Many eyes on the data
  • Tools that help maintenance
  • An understanding that we don’t have to have it all

Many eyes on the data. What does it mean? The idea is simple. The more people see and use the data the more people will be able to find mistakes and correct them. The more data from Wikidata is used the more people will get in contact with it and help keep it in good shape. More usage of Wikidata data in large Wikipedias is an obvious goal there. More and more infoboxes need to be migrated over the next year to make use of Wikidata. The development team will concentrate on making sure this is possible by removing big remaining blockers like support for quantities with units, access to data from arbitrary items as well as good examples and documentation. At the same time we need to work on improving the visibility of changes on Wikidata in the Wikipedia’s watchlists and recent changes. Just as important for getting more eyes on our data are 3rd-party users outside Wikimedia. Wikidata data is starting to be used all over the internet. It is being exposed to people even in unexpected places. What is of utmost importance in both cases is that it is easy for people to make and feed back changes to Wikidata. This will only work with well working feedback loops. We need to encourage 3rd-party users to be good players in our ecosystem and make this happen – also for their own benefit.

Tools that help maintenance. As we scale Wikidata we also need to provide more and better tools to find issues in the data and fix them. Making sure that the data is consistent with itself is the first step. A team of students is working with the development team now on improving the system for that. This will make it easy to spot people who’s date of birth is after their date of death and so on. The next step is checking against other databases and reporting mismatches. That is the other part of the student project. When you look at an item you should immediately see statements that are flagged as potentially problematic and review them. In addition more and more visualizations are being built that make it easy to spot outliers. One recent example is the Tree of Life.

An understanding that we don’t have to have it all. We should not aim to be the one and only place for structured open data on the web. We should strive to be a hub that covers important ground but also gives users the ability to find other more specialized sources. Our mission is to provide free access to knowledge for everyone. But we can do this just as well when we have pointers to other places where people can get this information. This is especially the case for niche topics and highly detailed data. We are a part of an ecosystem and we should help expand the pie for everyone by being a hub that points to all kinds of specialized databases. Why is this so important? We are part of a larger ecosystem. Success means making the pie bigger – not getting the whole pie for ourselves. We can’t do it all on our own.

If we keep all this in mind and preserve our welcoming culture we can continue to build something truly amazing and provide more people with more access to more knowledge every single day.

Improving the data quality and trust in the data we have will be a major development focus of the first months of 2015.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (11 Bewertungen, Durchschnitt: 4,73 von 5)

Zwei Jahre Wikidata: Eine Feier mit Geschenken und einem Preis

“Wikidata team and painting” – work of a member of the Wikidata team as part of his employment. Licensed under CC BY-SA 4.0 via Wikimedia Commons

Letzte Woche feierte Wikidata seinen zweiten Geburtstag. Mit Wikidata sammeln Menschen Daten über die Welt (z. B. Einwohnerzahlen oder Geburtsdaten) in strukturierter Form und in mehreren hundert Sprachen. Diese Daten werden genutzt, um Wikipedia und deren Schwesterprojekte zu verbessern. Sie stehen aber darüber hinaus Allen zur freien Nachnutzung zur Verfügung. Mehr als 16.000 Nutzer der Wikidata-Community haben seit dem Start über 12,8 Millionen Einträge angelegt und mit Daten gefüllt – ehrenamtlich und kollaborativ wie im Schwesterprojekt Wikipedia. Die Arbeiten für die Software hinter Wikidata wurden von Wikimedia Deutschland begonnen und als offene Software kontinuierlich weiterentwickelt. Wikidata hat sich in den letzten zwei Jahren zu einem der erfolgreichsten Wikimedia-Projekte entwickelt und liegt bei der Anzahl der aktiven Benutzerinnen und Benutzer vor vielen Sprachversionen der Wikipedia.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (9 Bewertungen, Durchschnitt: 4,89 von 5)

Establishing Wikidata as the central hub for linked open life science data

German summary: Der wunderbaren Wikidata-Community ist es zu verdanken, dass jedes menschliche Gen (laut dem United States National Center for Biotechnology Information) jetzt durch einen Eintrag auf Wikidata repräsentiert wird. Benjamin Good, Andrew Su und Andra Waagmeester haben uns dankenswerterweise einen kurzen Bericht über ihre Arbeit mit Wikidata zur Verfügung gestellt.

Thanks to the amazing work of the Wikidata community, every human gene (according to the United States National Center for Biotechnology Information) now has a representative entity on Wikidata. We hope that these are the seeds for some amazing applications in biology and medicine. Here is a report from Benjamin Good, Andrew Su, and Andra Waagmeester on their work with Wikidata. Their work was supported by the National Institutes of Health under grant GM089820.

Graphical representation of the idealized human diploid karyotype, showing the organization of the genome into chromosomes. This drawing shows both the female (XX) and male (XY) versions of the 23rd chromosome pair. By Courtesy: National Human Genome Research Institute [Public domain], via Wikimedia Commons

The life sciences are awash in data.  There are countless databases that track information about human genes, mutations, drugs, diseases, etc.  This data needs to be integrated if it is to be used to produce new knowledge and thereby improve the human condition.  For more than a decade many different groups have proposed and many have implemented solutions to this challenge using standards and techniques from the Semantic Web.  Yet, today, the vast majority of biological data is still accessed from individual databases such as Entrez Gene that make no attempt to use any component of the Semantic Web or to otherwise participate in the Linked Open Data movement.  With a few notable exceptions, the data silos have only gotten larger and problems of fragmentation worse.

In parallel to the appearance of Big Data in biology (and elsewhere), Wikipedia has arisen as one of the most important sources of all information on the Web.  Within the context of Wikipedia, members of our research team have helped to foster the growth of a large collection of articles that describe the function and importance of human genes. Wikipedia and the subset of it that focuses on human genes (which we call the Gene Wiki), have flourished due to their centrality, the presence of the edit button, and the desire of the larger community to share knowledge openly.

Now, we are working to see if Wikidata can be the bridge between the open community-driven power of Wikipedia and the structured world of semantic data integration.  Can the presence of that edit button on a centralized knowledge base associated with Wikipedia help the semantic web break through into everyday use within our community?  The steps we are planning to take to test this idea within the context of the life sciences, are:

  1. Establishing bots that populate Wikidata with entities representative of three key classes: genes, diseases, and drugs.
  2. Expanding the scope of these bots to include the addition of statements that link these entities together into a valuable network of knowledge.
  3. Developing applications that display this information to the public that both encourage and enable them to contribute their knowledge back to Wikidata.  The first implementation will be to use the Wikidata information to enhance the articles in Wikipedia.

We are excited to announce that the first step on this path has been completed!

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (6 Bewertungen, Durchschnitt: 5,00 von 5)

Transatlantische Arbeit an strukturierten Daten in Berlin

The English version of this post can be found here.

Letzte Woche hatte Wikimedia Deutschland Besuch zu einer ganz besonderen technischen Gesprächsrunde in der Berliner Geschäftsstelle. Mitglieder des Multimedia-Teams der Wikimedia Foundation in San Francisco, Entwicklerinnen und Entwickler für Wikidata bei Wikimedia Deutschland und Mitglieder der Freiwilligen-Community kamen dort zusammen, um Wikimedia Commons und strukturierte Daten zu besprechen.

Strukturierte Daten war in vielen technischen Gesprächen auf der diesjährigen Wikimania in London ein wichtiges Thema. Es handelt sich um das Prinzip hinter Wikidata — einer freien Wissensdatenbank, in der Daten gefiltert, sortiert und abgefragt werden können. Auch mit der Möglichkeit zur Bearbeitung durch Menschen und Maschinen geht es über die Speicherung von Wikitext in einer spezifischen menschlichen Sprache hinaus. Die Technik im Maschinenraum von Wikidata ist ein Projekt namens Wikibase, mit dem Daten strukturiert gespeichert werden können. Ideen, dass Wikimedia Commons, der freie Fundus an Mediendateien, von strukturierten Daten und dem Einsatz von Wikibase profitieren könnten, gab es schon seit geraumer Zeit, ebenso Überlegungen dazu, Commons einfacher in der Benutzung zu machen und die lizenzkonforme Nachnutzung von Bildern zu vereinfachen. Das einwöchige Meeting in Berlin brachte Wikimedianer von beiden Seiten des großen Teichs zusammen und markierte einen Startpunkt für den Planungs- und Diskussionsprozess.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (7 Bewertungen, Durchschnitt: 4,57 von 5)

Transatlantic work on structured data in Berlin

Die deutsche Version dieses Beitrags findet sich hier.

Last week Wikimedia Deutschland was happy to welcome guests for a special technical discussion that spawned an entire week at the headquarters in Berlin. Members from the multimedia team of the Wikimedia Foundation in San Francisco, members from the team developing software for Wikidata at Wikimedia Deutschland and technical experts and developers from the volunteer community came together to discuss Wikimedia Commons and structured data.

Structured data was an important topic in many talks on technology at this year’s Wikimania in London. It is the principle behind Wikidata — a free knowledge base with data that can be filtered, sorted, queried, and of course edited by machines and human beings alike, all in a way that goes beyond storing wikitext in a specific human language. The technology in the engine room of Wikidata is a software project called Wikibase which stores data in a structured way. Ideas that Wikimedia Commons, the free repository of media files, could benefit from structured data and Wikibase have been floating around for a long time, as have thoughts about making Commons more user-friendly and make license-conforming re-use of pictures easier. The weeklong meeting in Berlin marked the starting point of a planning and discussion process that brought together Wikimedians from both sides of the pond.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 4,00 von 5)