Wikidata — LLMpedia

Wikidata
Name	Wikidata
Type	Knowledge base
Owner	Wikimedia Foundation
Launched	2012
License	CC0

Contents

Introduction
History and development
Data model and structure
Content and coverage
Community and governance
Technical infrastructure and access
Uses and impact

Wikidata is a collaboratively edited structured knowledge base hosted by the Wikimedia Foundation that provides machine-readable statements about items such as people, places, organizations, works, events, and awards. It serves as a central hub for storing identifiers, labels, descriptions, and claims used across projects like Wikipedia, Wikibooks, Wikivoyage, Wikinews, and Wikisource, enabling multilingual reuse and interlinking across cultural and national contexts such as United States, France, India, China, and Brazil.

Introduction

Wikidata organizes knowledge about entities including historical figures like Napoleon, scientists like Albert Einstein, artists like Leonardo da Vinci, institutions like United Nations and European Union, and works like Hamlet and The Odyssey using structured statements that connect items to properties and values. It complements projects such as DBpedia, YAGO, OpenStreetMap, Internet Archive, and Library of Congress by providing central identifiers and multilingual labels for entities like Mount Everest, Amazon River, Jupiter (planet), COVID-19 pandemic, and World War II. The project interfaces with organisations and standards like Creative Commons, ISO 3166, International Standard Book Number, Virtual International Authority File, and ORCID.

History and development

Wikidata was launched in 2012 following initiatives involving contributors from Wikimedia Deutschland, Wikimedia Foundation, and academic partners affiliated with institutions such as Max Planck Society and University of Oxford. Early milestones included integration with language editions like English Wikipedia, German Wikipedia, French Wikipedia, Spanish Wikipedia, and Russian Wikipedia, adoption by platforms like Wikivoyage and Wiktionary, and growth driven by events and collaborations with projects such as GLAM institutions, Europeana, and national libraries including Bibliothèque nationale de France and Library of Congress. Prominent figures and teams from organizations including Apache Software Foundation and research groups at Stanford University and Massachusetts Institute of Technology contributed tooling, bots, and grants that shaped features like centralized identifiers and statement qualifiers.

Data model and structure

The core unit is an item representing entities such as Isaac Newton, Marie Curie, Tokyo, Amazon (company), Nile River, Mona Lisa, Nobel Prize, and United Nations Educational, Scientific and Cultural Organization. Each item aggregates multilingual labels, descriptions, and aliases linked to properties like instance of, subclass of, country, inception, occupation, and author. Statements pair properties with values drawn from items, literals, or identifier namespaces such as ISBN, VIAF, Wikidata property:Pxx conventions. Qualifiers and references allow provenance tied to sources like Encyclopaedia Britannica, New York Times, The Guardian, Nature (journal), and Science (journal). The schema supports ranks, qualifiers, and sitelinks to projects including Commons, Wikidata Query Service, and Wikibase instances.

Content and coverage

Wikidata covers millions of items spanning biographies like Cleopatra, Martin Luther King Jr., Ada Lovelace, geographic features like Sahara, Himalayas, cultural works like The Divine Comedy, The Beatles discography, and institutional records for entities such as World Bank and International Monetary Fund. The dataset includes identifiers for databases such as IMDb, MusicBrainz, GeoNames, Gene Ontology, and ClinicalTrials.gov, and entries for events like French Revolution, Olympic Games, and FIFA World Cup. Coverage varies: high for notable figures and major places such as London, New York City, Beijing, Tokyo, and less complete for local organizations, emerging artists, small settlements, and recent research outputs.

Community and governance

Wikidata’s contributor ecosystem intersects with editors from English Wikipedia, German Wikipedia, French Wikipedia, and regional communities including Wikimedia Polska and Wikimedia Italia. Governance involves community policies shaped in discussion spaces similar to those used by Wikimedia Foundation projects and influenced by outreach with cultural institutions such as Smithsonian Institution and British Library. Tools and bots developed by volunteers and organizations like Google, Facebook, Wikimedia Deutschland, and academic labs assist maintenance, while advisory groups and stewards coordinate with legal and privacy frameworks referenced by bodies such as European Commission and national data protection authorities.

Technical infrastructure and access

Wikidata runs on the Wikimedia Foundation infrastructure using software components including Wikibase, MediaWiki, and the Wikidata Query Service powered by SPARQL engines and triple stores such as Blazegraph. APIs and dumps enable access for projects and services including Wikimedia Commons, DBpedia, Google Knowledge Graph, Apple Maps, OpenStreetMap, and research groups at institutions like Harvard University and University of California, Berkeley. Developers and organizations use the API, SPARQL endpoint, and regularly published data dumps to integrate identifiers like DOI, ORCID, and ISNI into applications for tasks spanning semantic search, digital humanities, and machine learning pipelines.

Uses and impact

Wikidata supports infobox population across editions of Wikipedia, powers semantic queries for projects such as Wikivoyage and Wikidata Query Service, and underpins knowledge panels seen on platforms like Google, Bing, and Wikimedia Commons media annotations. Researchers at Stanford University, University of Oxford, Max Planck Institute, and MIT use Wikidata for entity resolution, network analysis, and linked data research; cultural institutions such as British Museum and Rijksmuseum link collections; and companies employ identifiers for product catalogs, recommendation systems, and data enrichment. Its CC0 licensing and interlinking with authority files promote interoperability with systems like Europeana, Library of Congress Name Authority File, and national bibliographies, influencing how public knowledge and digital heritage are discovered and reused.

Category:Knowledge bases