dbGaP — LLMpedia

dbGaP
Name	dbGaP
Established	2000s
Owner	National Center for Biotechnology Information
Country	United States
Discipline	Genomics
Access	Controlled and open-access tiers

Contents

Overview
Data Contents and Structure
Access and Data Use Policies
Submission and Curation Processes
Privacy, Security, and Ethical Considerations
Applications and Impact
History and Governance

dbGaP

dbGaP is a centralized repository for genotype and phenotype data that aggregates human genomic datasets for research use. It links large-scale projects, cohort studies, and clinical trials to enable secondary analyses across consortia and institutions, balancing broad scientific utility with participant privacy protections. The archive interfaces with major biomedical organizations to coordinate data sharing, governance, and compliance across repositories and funding mechanisms.

Overview

dbGaP consolidates datasets generated by projects such as 1000 Genomes Project, The Cancer Genome Atlas, ENCODE Project, International HapMap Project, and UK Biobank cohorts to support research on complex traits and disease. It interfaces with institutions including the National Institutes of Health, National Library of Medicine, National Human Genome Research Institute, National Cancer Institute, and international partners like Wellcome Trust and European Bioinformatics Institute. The platform supports investigators from universities like Harvard University, Stanford University, Johns Hopkins University, University of California, San Francisco, and Massachusetts Institute of Technology and consortia such as International Cancer Genome Consortium, Psychiatric Genomics Consortium, All of Us Research Program, and Million Veteran Program. dbGaP aligns with legal and policy frameworks such as the Health Insurance Portability and Accountability Act, Common Rule, and NIH data-sharing policies while interacting with repositories like GenBank, Sequence Read Archive, and Gene Expression Omnibus.

Data Contents and Structure

Datasets include genotype arrays and sequencing data from projects like Exome Aggregation Consortium and GenomeAsia 100K, linked to phenotype and clinical metadata from studies such as Framingham Heart Study, Women’s Health Initiative, Nurses' Health Study, Jackson Heart Study, and Rotterdam Study. Data objects range from raw sequencing reads similar to entries in the Sequence Read Archive to variant call files and summary statistics comparable to outputs from ENCODE Project pipelines and The Cancer Genome Atlas analyses. dbGaP organizes data by study accession and subject identifiers, harmonizing variable dictionaries in the style of the PhenX Toolkit and linking biospecimen metadata following conventions used by Biobank Japan and UK Biobank. Controlled vocabularies and ontologies such as Human Phenotype Ontology, SNOMED CT, and ICD-10 are used alongside pedigree and family study structures like those documented by International HapMap Project and dbSNP.

Access and Data Use Policies

Access to controlled datasets follows application processes modeled after systems used by NIH Data Access Committee, European Genome-phenome Archive, and the UK Biobank Access Management. Investigators affiliated with institutions such as Yale University, University of Pennsylvania, Columbia University, Duke University, and University of Oxford typically request access via data use certification and institutional review processes akin to those at Centers for Disease Control and Prevention and Food and Drug Administration. Data use agreements incorporate terms similar to those in Genetic Information Nondiscrimination Act-related provisions and NIH genomic data sharing policy. Open-access summaries parallel resources provided by ClinVar, dbSNP, and public releases coordinated with projects like 1000 Genomes Project and ENCODE Project.

Submission and Curation Processes

Investigators from consortia including The Cancer Genome Atlas and Psychiatric Genomics Consortium submit datasets following submission pipelines used at National Center for Biotechnology Information and harmonization practices similar to dbSNP and Gene Expression Omnibus. Submitters from institutions such as Broad Institute, Sanger Institute, Cold Spring Harbor Laboratory, Vanderbilt University, and Mount Sinai Health System provide study protocols, consent documentation, and phenotype dictionaries modeled on standards from ClinicalTrials.gov, Observational Health Data Sciences and Informatics, and the PhenX Toolkit. Curatorial review engages subject-matter groups comparable to panels at National Human Genome Research Institute and National Cancer Institute to verify metadata, consent alignment, and file integrity before controlled release.

Privacy, Security, and Ethical Considerations

Privacy measures reflect frameworks influenced by court cases and laws such as Health Insurance Portability and Accountability Act and Genetic Information Nondiscrimination Act and ethical guidance from bodies like Presidential Commission for the Study of Bioethical Issues and National Academies of Sciences, Engineering, and Medicine. Security practices mirror standards used by Centers for Disease Control and Prevention and Department of Health and Human Services for controlled-access repositories, including de-identification consistent with practices in ClinicalTrials.gov and governance approaches similar to Institutional Review Board procedures at Johns Hopkins University and University of California, Los Angeles. Debates about re-identification echo discussions involving datasets from 1000 Genomes Project, Personal Genome Project, and issues raised in controversies connected to Genetic Information Nondiscrimination Act enforcement.

Applications and Impact

dbGaP-facilitated analyses support discoveries in oncology exemplified by studies from The Cancer Genome Atlas and International Cancer Genome Consortium, cardiovascular research tied to Framingham Heart Study and Million Veteran Program, psychiatric genetics advanced by Psychiatric Genomics Consortium, and pharmacogenomics work related to Clinical Pharmacogenetics Implementation Consortium. Secondary analyses leveraging dbGaP data inform methods developed at Broad Institute, Sanger Institute, University of California, Berkeley, and Carnegie Mellon University and feed into tools such as those from GATK, PLINK, Beagle, and BWA. The repository influences policy and funding decisions at National Institutes of Health, Wellcome Trust, Bill & Melinda Gates Foundation, European Commission, and academic curriculum development at Harvard Medical School and Stanford School of Medicine.

History and Governance

dbGaP originated from initiatives at National Institutes of Health and National Center for Biotechnology Information in response to large-scale projects including Human Genome Project, International HapMap Project, and later The Cancer Genome Atlas. Governance structures involve advisory committees resembling those of National Human Genome Research Institute and data access committees similar to ones at European Genome-phenome Archive and UK Biobank. Leadership and oversight draw on collaborations with institutions like National Cancer Institute, Wellcome Trust Sanger Institute, Broad Institute, Centers for Disease Control and Prevention, and international partners such as European Molecular Biology Laboratory and Swiss Federal Institute of Technology Zurich.

Category:Genomics