Geschrieben von Jens Ohlig



Platypus, eine Schnittstelle zu Wikidata in natürlicher Sprache

PPP (Projet Pensées Profondes)  ist ein Projekt von Studierenden mit dem Ziel eine offene Frage-Antwort-Plattform zu bauen. Die dabei entstandene Demo-Anwendung Platypus (http://askplatyp.us) stützt sich in erster Linie auf Inhalte von Wikidata. In einem Gastbeitrag berichten die Menschen hinter Platypus von ihrem Projekt, Wikidata das Sprechen beizubringen. 

An der École normale supérieure de Lyon steht im ersten Teil des Masterstudiengangs ein Software-Praktikum auf dem Plan. Einige von uns waren an natürlicher Sprachverarbeitung interessiert, andere an Wissensdatenbanken. Wir suchten also ein Projekt, an dem beide Seiten arbeiten konnten und kamen recht schnell auf die Idee einer offenen Frage-Antwort-Plattform. Dieses Werkzeug sollte eine Menge unterschiedlicher Fragen beantworten können und brauchte deshalb eine einen riesigen Datenfundus an Weltwissen, damit wir schnell loslegen konnten. Jemand bei uns war schon Wikidata-Editor und inspiriert von dem schicken, aber mittlerweile nicht mehr gepflegten Wiri-Tool von Magnus Manske stand schnell fest, dass wir Wikidata als primäre Datenquelle nutzen wollten.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Asking Ever Bigger Questions with Wikidata

German summary: Maximilian Klein benutzt Wikidata als als Datenfundus für statistische Auswertungen über das Wissen der Welt. In seinem Artikel beschreibt er, wie er in Wikidata nach Antworten auf die großen Fragen sucht.

Asking Ever Bigger Questions with Wikidata

Guest post by Maximilian Klein

A New Era

Simultaneous discovery can sometimes be considered an indication for a paradigm shift in knowledge, and last month Magnus Manske and I seemed to have both had a very similar idea at the same time. Our ideas were to look at gender statistics in Wikidata and to slice them up by date of birth, citizenship, and langauge. (Magnus‘ blog post, and my own.) At first it seems like quite elementary and naïve analysis, especially 14 years into Wikipedia, but only within the last year has this type of research become feasible. Like a baby taking its first steps, Wikidata and its tools ecosystem are maturing. That challenges us to creatively use the data in front of us.

Describing 5 stages of Wikidata, Markus Krötsch foresaw this analyis in his presentation at Wikimania 2014. The stages which range fromKnow to Understand are: Read, Browse, Query, Display, and Analyse (see image). Most likey you may have read Wikidata, and perhaps even have browsed with Reasonator, queried with autolist, or displayed with histropedia. I care to focus on analyse – the most understand-y of the stages. In fact the example given for analyse was my first exploration of gender and language, where I analysed the ratio of female biographies by Wikipedia Language: English and German are around 15% and Japanese, Chinese and Korean are each closer to 25%.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 4,80 von 5)
Loading...

Wir lieben Freie Software

Wie schon im letzten Jahr begeht die Free Software Foundation Europe am 14. Februar den „I love Free Software-Tag“. Bei Wikimedia Deutschland entstehen die Arbeiten an den Softwareprojekten MediaWiki und Wikidata ganz selbstverständlich und von Anfang an als Freie Software unter Freien Lizenzen. Für uns ist klar, dass wir Freies Wissen nicht nur in Form von Artikeln in Projekten wie der Wikipedia teilen wollen – Freies Wissen gibt es auch in Form von Code. Es ist uns wichtig, Freiheit in Form von Software zu schaffen und zu teilen. Thiemo Mättig, Wikipedianer und bei Wikimedia Deutschland angestellt als Software-Entwickler, hat seine persönlichen Gründe dafür aufgeschrieben und erklärt, warum er Freie Software liebt.

Frei für alle, wer macht denn sowas?

Seit nunmehr einer Dekade erkläre ich Wikipedia, und die Antwort ist immer die Selbe: „Wer schreibt denn die Artikel?“ Leute wie du und ich. „Und wer prüft die Fakten?“ Leute wie du und ich. „Und wer programmiert die Software?“ Leute wie du und ich.

Und wie ist das möglich?“ Weil alles frei ist, offen, transparent und nachvollziehbar, von den sozialen Prozessen in den Communitys der verschiedenen Wikimedia-Schwesterprojekte bis zur Software tief drin in dem, was ich inzwischen Wikimedia-Universum nenne. Von den Artikelschreibern in den Wikipedia-Sprachversionen über die Faktensammler im Wikidata-Projekt bis hin zu den Tüftlern und Bastlern in und an der MediaWiki-Software und ihren zahllosen Erweiterungen sind all die verschiedenen Benutzergruppe durch eine große Idee verbunden: Was wir tun, ist öffentlich und frei. Freie Software.

Diese Art der Freiheit ist etwas, das Weblog-Schreibern, Facebook- und Twitter-Benutzern vertraut ist, wenn sie etwas teilen. Die Übertragung dieser Idee auf die Daten- und Software-Welt ist immer noch etwas, das Erstaunen auslöst. „Wenn jeder meine Daten oder meine Software auf seine Bedürfnisse zuschneiden kann, ohne mich zu fragen“, so hört man, „dann ist meine Arbeit doch nichts wert.“ Wie erklärt man, dass diese Frage falsch gestellt ist?

Freie Software steigert den Wert für alle

Ich glaube daran, dass frei im Sinne Freier Software zu sein keine Wertminderung, sondern eine Wertsteigerung bedeutet. Die Freiheit, Einblick zu erlangen, zu Verändern, zu Verbessern und weiter zu geben ermöglicht etwas, das mit manchmal verächtlich „totes Holz“ genannten Büchern oder der Zeitung von gestern nicht denkbar ist: Wissen wird lebendig, und diese Lebendigkeit kann so viel mehr wert sein als die Hoheit über eine Datensammlung oder die Weiterentwicklung einer Software inne zu haben. Projekte wie MediaWiki, die Wiki-Software hinter der Wikipedia, oder das Wikidata-Projekt zeigen das.

Wikidata geisterte als Idee seit den Anfängen der Wikipedia durch die Köpfe einiger Vorreiter. Vor etwas mehr als zwei Jahren fand die Idee eine Heimat in Berlin und lockte mich stetig: Eine Fakten-Sammlung mit inzwischen 13 Millionen Einträgen, aufgebaut auf einer speziell dafür geschaffenen Datenbank-Software für lose strukturiertes Faktenwissen. Das, was seit gut zwanzig Jahren als „semantisches Web“ postuliert wird, fand ich in Wikidata so praxistauglich geerdet, dass es für mich endlich greifbar wurde. Große Pläne in kleinen, überschaubaren Schritten. Schnelle Entwicklungs-Zyklen. Unmittelbare Einflussnahme. Und ausschließlich Freie Software, die auch mir als Entwickler die Sicherheit gibt, dass keine von mir geschriebene Zeile Quelltext ungesehen in Vergessenheit geraten sondern sich verbreiten wird, gesehen wird und ja, auch verändert wird, oft genug bis zur Unkenntlichkeit. Doch wie bei jedem Enzyklopädie-Artikel in der Wikipedia, dessen Entwicklung ich angestoßen oder begleitet habe, setzt sich auch in der Softwareentwicklung die Überzeugung durch, dass nicht die Wortwahl zählt oder die Wahl eines Algorithmus sondern die Idee, die mein Beitrag eingebracht hat. Wikidata, deren Softwareentwicklung ich seit inzwischen einem Jahr in Vollzeit mit voran treibe, ist dank Freier Software lebendiger als jedes Softwareprojekt, an dem ich je beteiligt war. Freie Software gibt mir die Gewissheit, an etwas teilzuhaben, das größer ist als ich es überschauen kann.

Darum liebe ich Freie Software.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (9 Bewertungen, Durchschnitt: 4,11 von 5)
Loading...

Zwei Jahre Wikidata: Eine Feier mit Geschenken und einem Preis

“Wikidata team and painting” – work of a member of the Wikidata team as part of his employment. Licensed under CC BY-SA 4.0 via Wikimedia Commons

Letzte Woche feierte Wikidata seinen zweiten Geburtstag. Mit Wikidata sammeln Menschen Daten über die Welt (z. B. Einwohnerzahlen oder Geburtsdaten) in strukturierter Form und in mehreren hundert Sprachen. Diese Daten werden genutzt, um Wikipedia und deren Schwesterprojekte zu verbessern. Sie stehen aber darüber hinaus Allen zur freien Nachnutzung zur Verfügung. Mehr als 16.000 Nutzer der Wikidata-Community haben seit dem Start über 12,8 Millionen Einträge angelegt und mit Daten gefüllt – ehrenamtlich und kollaborativ wie im Schwesterprojekt Wikipedia. Die Arbeiten für die Software hinter Wikidata wurden von Wikimedia Deutschland begonnen und als offene Software kontinuierlich weiterentwickelt. Wikidata hat sich in den letzten zwei Jahren zu einem der erfolgreichsten Wikimedia-Projekte entwickelt und liegt bei der Anzahl der aktiven Benutzerinnen und Benutzer vor vielen Sprachversionen der Wikipedia.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (9 Bewertungen, Durchschnitt: 4,89 von 5)
Loading...

Establishing Wikidata as the central hub for linked open life science data

German summary: Der wunderbaren Wikidata-Community ist es zu verdanken, dass jedes menschliche Gen (laut dem United States National Center for Biotechnology Information) jetzt durch einen Eintrag auf Wikidata repräsentiert wird. Benjamin Good, Andrew Su und Andra Waagmeester haben uns dankenswerterweise einen kurzen Bericht über ihre Arbeit mit Wikidata zur Verfügung gestellt.


Thanks to the amazing work of the Wikidata community, every human gene (according to the United States National Center for Biotechnology Information) now has a representative entity on Wikidata. We hope that these are the seeds for some amazing applications in biology and medicine. Here is a report from Benjamin Good, Andrew Su, and Andra Waagmeester on their work with Wikidata. Their work was supported by the National Institutes of Health under grant GM089820.

Graphical representation of the idealized human diploid karyotype, showing the organization of the genome into chromosomes. This drawing shows both the female (XX) and male (XY) versions of the 23rd chromosome pair. By Courtesy: National Human Genome Research Institute [Public domain], via Wikimedia Commons

The life sciences are awash in data.  There are countless databases that track information about human genes, mutations, drugs, diseases, etc.  This data needs to be integrated if it is to be used to produce new knowledge and thereby improve the human condition.  For more than a decade many different groups have proposed and many have implemented solutions to this challenge using standards and techniques from the Semantic Web.  Yet, today, the vast majority of biological data is still accessed from individual databases such as Entrez Gene that make no attempt to use any component of the Semantic Web or to otherwise participate in the Linked Open Data movement.  With a few notable exceptions, the data silos have only gotten larger and problems of fragmentation worse.

In parallel to the appearance of Big Data in biology (and elsewhere), Wikipedia has arisen as one of the most important sources of all information on the Web.  Within the context of Wikipedia, members of our research team have helped to foster the growth of a large collection of articles that describe the function and importance of human genes. Wikipedia and the subset of it that focuses on human genes (which we call the Gene Wiki), have flourished due to their centrality, the presence of the edit button, and the desire of the larger community to share knowledge openly.

Now, we are working to see if Wikidata can be the bridge between the open community-driven power of Wikipedia and the structured world of semantic data integration.  Can the presence of that edit button on a centralized knowledge base associated with Wikipedia help the semantic web break through into everyday use within our community?  The steps we are planning to take to test this idea within the context of the life sciences, are:

  1. Establishing bots that populate Wikidata with entities representative of three key classes: genes, diseases, and drugs.
  2. Expanding the scope of these bots to include the addition of statements that link these entities together into a valuable network of knowledge.
  3. Developing applications that display this information to the public that both encourage and enable them to contribute their knowledge back to Wikidata.  The first implementation will be to use the Wikidata information to enhance the articles in Wikipedia.

We are excited to announce that the first step on this path has been completed!

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (6 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Transatlantische Arbeit an strukturierten Daten in Berlin

The English version of this post can be found here.

Letzte Woche hatte Wikimedia Deutschland Besuch zu einer ganz besonderen technischen Gesprächsrunde in der Berliner Geschäftsstelle. Mitglieder des Multimedia-Teams der Wikimedia Foundation in San Francisco, Entwicklerinnen und Entwickler für Wikidata bei Wikimedia Deutschland und Mitglieder der Freiwilligen-Community kamen dort zusammen, um Wikimedia Commons und strukturierte Daten zu besprechen.

Strukturierte Daten war in vielen technischen Gesprächen auf der diesjährigen Wikimania in London ein wichtiges Thema. Es handelt sich um das Prinzip hinter Wikidata — einer freien Wissensdatenbank, in der Daten gefiltert, sortiert und abgefragt werden können. Auch mit der Möglichkeit zur Bearbeitung durch Menschen und Maschinen geht es über die Speicherung von Wikitext in einer spezifischen menschlichen Sprache hinaus. Die Technik im Maschinenraum von Wikidata ist ein Projekt namens Wikibase, mit dem Daten strukturiert gespeichert werden können. Ideen, dass Wikimedia Commons, der freie Fundus an Mediendateien, von strukturierten Daten und dem Einsatz von Wikibase profitieren könnten, gab es schon seit geraumer Zeit, ebenso Überlegungen dazu, Commons einfacher in der Benutzung zu machen und die lizenzkonforme Nachnutzung von Bildern zu vereinfachen. Das einwöchige Meeting in Berlin brachte Wikimedianer von beiden Seiten des großen Teichs zusammen und markierte einen Startpunkt für den Planungs- und Diskussionsprozess.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (7 Bewertungen, Durchschnitt: 4,57 von 5)
Loading...

Transatlantic work on structured data in Berlin

Die deutsche Version dieses Beitrags findet sich hier.

Last week Wikimedia Deutschland was happy to welcome guests for a special technical discussion that spawned an entire week at the headquarters in Berlin. Members from the multimedia team of the Wikimedia Foundation in San Francisco, members from the team developing software for Wikidata at Wikimedia Deutschland and technical experts and developers from the volunteer community came together to discuss Wikimedia Commons and structured data.

Structured data was an important topic in many talks on technology at this year’s Wikimania in London. It is the principle behind Wikidata — a free knowledge base with data that can be filtered, sorted, queried, and of course edited by machines and human beings alike, all in a way that goes beyond storing wikitext in a specific human language. The technology in the engine room of Wikidata is a software project called Wikibase which stores data in a structured way. Ideas that Wikimedia Commons, the free repository of media files, could benefit from structured data and Wikibase have been floating around for a long time, as have thoughts about making Commons more user-friendly and make license-conforming re-use of pictures easier. The weeklong meeting in Berlin marked the starting point of a planning and discussion process that brought together Wikimedians from both sides of the pond.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 4,00 von 5)
Loading...

Podcast „Source Code Berlin“: Hacks and the City zum Mitnehmen

 

Der Podcast für Coder, die sich dafür interessieren, was an Open Source Code in Berlin passiert. Grafik von Sven Sedivy (CC-BY-SA 4.0).

Die Szene um Open Source und die Menschen, die Code schreiben, ist innovativ und mobil. Es gibt gerade in Berlin sehr viele Projekte und Möglichkeiten, zusammen zu arbeiten. So viele, dass es schwer ist, einen Überblick zu bekommen. Der Podcaster Mark Fonseca Rendeiro, vielen bekannt auch als @bicyclemark, führt Interviews zum Thema und stellt einen Audio-Podcast zusammen.

Die Webseite des Projekts mit den Episoden zum Download und zum Abonnieren findet sich unter sourcecode.berlin. Der Audio-Inhalt der ersten Folge ist auch auf Wikimedia Commons zu finden.

Zweiwöchentlich sollen neue Episoden veröffentlicht werden, die sich mit Themen rund um Source Code und Open Source in Berlin beschäftigen. Das heutige Berlin ist ein Magnet für interessante Ideen aus aller Welt geworden. Die erste Episode will einleitend einen breiteren Blick einnehmen und schauen, ob es dafür auch schon historische Bezüge gibt, die Berlin schon früher zu einem Platz der Offenheit und Zusammenarbeit gemacht haben. Aber auch ein Interview mit der Projektmanagerin von Wikidata, Lydia Pintscher, erzählt über die Begeisterung und Vielschichtigkeit von Open Source.

Die kommenden Episoden werden wir Hackerspaces und andere Orte besuchen, an denen Co-Working schon alltäglich ist. Es wird auch gezeigt, wie JavaScript das Internet beeinflusst – weit entfernt von ein paar animierten Schneeflocken. Aber auch andere, teilweise vielleicht etwas versteckte Orte, sollen vorgestellt werden und Codern ganz praktische Tipps geben, was Berlin zu bieten hat. Sei es eine gute Currywurst oder welche Schritte bei einem Umzug in die “Silicon Allee” zu beachten sind.

Da die gebräuchliche Sprache unter Programmiererinnen und Programmierern englisch ist und Berlin immer mehr als internationale Stadt lebt, wird auch der Podcast Source Code Berlin auf englisch veröffentlicht. Wikimedia Deutschland produziert diesen Podcast, um Codern zu helfen, den Source Code von Berlin besser kennenzulernen und Open Content zu entwickeln.

 

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (1 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Outreach Program for Women at Wikidata

German summary: Im Mai beteiligte sich Wikidata am Outreach Program for Women. Helen Halbert und Anjali Sharma kümmerten sich um die Dokumentation von Wikidata für die Öffentlichkeit und Community, von Guided Tours, die an Wikidata heranführen bis zum Befüllen der Social-Media-Kanäle. Der folgende Gastbeitrag auf Englisch wurde von Helen (zusammen mit Anjali) nach ihrer Teilnahme an dem Programm bei uns verfasst.


This May, Wikidata was part of the Outreach Program for Women. Helen Halbert and Anjali Sharma took care of documenting Wikidata for the general public and the community, with tasks ranging from guided tours for those new to Wikidata to handling the various social media channels. The following guest post is a summary by Helen (written together with  Anjali) about her time with Wikidata.

The journey to contributor

This past May, Anjali and myself were thrilled to learn we both would be working for Wikidata for the summer as part of GNOME Foundation’s Outreach Program for Women (OPW), which provides paid internships with participating organizations to encourage more women to get involved with free and open source software. Both of us were assigned the task of working on outreach efforts.

Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (7 Bewertungen, Durchschnitt: 3,29 von 5)
Loading...

Why Wikidata is so important to Histropedia

The following is a guest post we received from our friends at the Histropedia project. We met at Wikimania 2014 in London and they told us how Wikidata is useful for them. Here is their write-up.

For those who don’t yet know; Histropedia is a project using Wikipedia and Wikidata to create the world’s first timeline of everything in history.
Earlier this year I wrote on the Histropedia blog about how important Wikidata is for our project. At the time we had just switched from trying to get dates from Wikipedia articles (from the infoboxes) to using Wikidata items. We had a reasonable amount of success with the infoboxes, but encountered some major limitations. Firstly we were only able to get dates precise to a year, and in some cases we were unable to recognise the date format used to even get the year. And of course there were the articles with no infobox.
By switching to Wikidata as the primary source for dates we immediately added over 700,000 date properties to our events, often to a much better precision than just years. This was incredibly important to the project as it not only greatly improved the accuracy of our timelines, but also allowed us to increase the available zoom levels. So now thanks to Wikidata we can zoom right in to see a day by day view of History. Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 4,20 von 5)
Loading...