Worldwide Protein Data Bank Partnership

Worldwide Protein Data Bank Partnership
Name	Worldwide Protein Data Bank Partnership
Formed	2003
Predecessor	Protein Data Bank
Jurisdiction	International
Headquarters	Brookhaven National Laboratory; Research Collaboratory for Structural Bioinformatics

Contents

History and formation
Structure and governance
Data standards and archival practices
Member organizations and regional centers
Services and resources
Impact on structural biology and research
Funding and collaborations

Worldwide Protein Data Bank Partnership

The Worldwide Protein Data Bank Partnership is an international consortium that manages the global archive of three-dimensional macromolecular structure data. It coordinates deposition, validation, dissemination, and preservation across a distributed network of data centers and collaborates with major research institutions, funding agencies, and publishers to support reproducible structural biology.

History and formation

The partnership traces roots to the establishment of the Protein Data Bank at Brookhaven National Laboratory and milestones involving Cambridge Crystallographic Data Centre, European Molecular Biology Laboratory, European Bioinformatics Institute, European Molecular Biology Laboratory–European Bioinformatics Institute collaborations and initiatives tied to Brookhaven National Laboratory stewardship. Key contributors and events include leadership from figures associated with Walter Hamilton, interactions with Cold Spring Harbor Laboratory programs, and coordination influenced by projects at RCSB Protein Data Bank and Research Collaboratory for Structural Bioinformatics. Early interactions connected with infrastructures at National Institutes of Health, Wellcome Trust, National Science Foundation, and activities at Stanford University and Massachusetts Institute of Technology. Subsequent formation involved agreements among RCSB PDB, Protein Data Bank Japan, European PDB, and centers in Australia and Canada, with policy inputs from bodies like International Union of Crystallography. The partnership evolved alongside technological advances at Lawrence Berkeley National Laboratory, Argonne National Laboratory, and computational efforts at European Bioinformatics Institute.

Structure and governance

Governance encompasses an executive committee, advisory boards, and technical working groups drawn from institutions such as RCSB PDB, Protein Data Bank Japan, Protein Data Bank in Europe, BMRB stakeholders and representatives from National Institute of Standards and Technology and funding agencies like Wellcome Trust. The partnership interacts with consortia including ELIXIR, Global Alliance for Genomics and Health, and advisory input from societies such as American Society for Biochemistry and Molecular Biology and Biophysical Society. Institutional governance draws on best practices from International Council for Science and standards discussions at World Health Organization-linked forums. Technical governance integrates software stewardship models from GitHub-hosted projects and interoperability frameworks similar to those used by Open Science Framework and DataCite metadata schemas.

Data standards and archival practices

Archival standards rely on coordinated data representation formats and ontologies refined with contributions from International Union of Crystallography, the Crystallographic Information Framework, and community efforts involving Electron Microscopy Data Bank, EMDataBank, and BioMagResBank. Validation pipelines reference algorithms and tools developed in research groups at University of California, San Francisco, University of Cambridge, University of Oxford, and California Institute of Technology. Metadata crosswalks align with identifiers such as those managed by Digital Object Identifier agencies and registries like UniProt, Gene Ontology Consortium, and National Center for Biotechnology Information. Practices for deposition, curation, and versioning are informed by models from International Nucleotide Sequence Database Collaboration and standards from Organisation for Economic Co-operation and Development data policies. Preservation strategies leverage infrastructures at European Bioinformatics Institute, Yale University, and national libraries including Library of Congress-style archival principles.

Member organizations and regional centers

Primary members include RCSB PDB at Rutgers University, Protein Data Bank Japan at institutions like Osaka University, and Protein Data Bank in Europe hosted by European Bioinformatics Institute with centers in EMBL-EBI and partners across Australia, Canada, China, India, South Africa, Brazil, and Germany. Collaborating repositories and databases include BioMagResBank, Electron Microscopy Data Bank, Cambridge Crystallographic Data Centre, and institutional groups at University of Tokyo, Seoul National University, Monash University, University of Toronto, McGill University, ETH Zurich, Max Planck Society, and CNRS. The partnership engages with publishers such as Nature Publishing Group, Science (journal), Proceedings of the National Academy of Sciences, and societies including International Union of Crystallography and American Chemical Society.

Services and resources

Core services comprise public deposition portals, validation reports, structure viewers, APIs, and bulk FTP access provided by centers like RCSB PDB and PDBe. Tools and software integrations include visualization engines developed by teams at University of California San Diego and David S. Goodsell-affiliated projects, pipeline connectors to UniProt, homology resources at HHpred-linked groups, and annotation links to Pfam, InterPro, SCOP, and CATH. Educational resources, tutorials, and outreach collaborate with Cold Spring Harbor Laboratory, EMBL Course and Conference Office, European Molecular Biology Laboratory training, and platforms run by Khan Academy-style partners. Computational services integrate with high-performance computing centers at Oak Ridge National Laboratory, cloud providers used by Amazon Web Services-supported research, and workflow systems from Galaxy Project and CWL community initiatives.

Impact on structural biology and research

The partnership underpins discoveries cited in work by researchers at Harvard University, Yale University, Columbia University, and Princeton University, facilitating drug discovery collaborations with Pfizer, Novartis, Roche, and academic consortia at European Medicines Agency-engaged projects. Its archive has enabled structural studies of targets such as viral proteins from Human Immunodeficiency Virus, SARS-CoV-2, and enzymes characterized in flagship studies published in Science (journal), Nature (journal), and Cell (journal). Cross-disciplinary impact connects to projects at Human Genome Project-era centers, structural genomics initiatives at Structural Genomics Consortium, and systems biology efforts at European Molecular Biology Laboratory. Educationally, the partnership supports curricula at Massachusetts Institute of Technology and University of Cambridge and resources used by preparative science platforms like Addgene.

Funding and collaborations

Funding streams derive from national agencies including National Institutes of Health, Wellcome Trust, National Science Foundation, and ministries in Japan, United Kingdom, Germany, and China with project grants administered through institutions such as Research Councils UK and Japan Society for the Promotion of Science. Collaborative grants and partnerships include consortia with ELIXIR, pharmaceutical collaborations with GlaxoSmithKline, and infrastructure agreements with organizations like European Commission research programs and international initiatives coordinated with World Health Organization task forces. The partnership also receives support from philanthropic entities and foundations participating in open data advocacy.

Category:Biological databases Category:Structural biology