intraclass correlation coefficient

intraclass correlation coefficient
Name	Intraclass correlation coefficient
Abbreviation	ICC
Type	Reliability statistic
Introduced	1950s
Related	Ronald Fisher, John Tukey, Karl Pearson

Contents

Definition and interpretation
Models and forms of ICC
Estimation methods
Assumptions and limitations
Applications and examples
Related reliability measures

intraclass correlation coefficient The intraclass correlation coefficient measures similarity of measurements within clusters and quantifies reliability across raters, occasions, or units. It is used in studies involving repeated measures, clustered designs, and reliability assessment and is connected to variance components and mixed‑effects modeling.

Definition and interpretation

The ICC is defined from variance components in random effects models and compares between‑cluster variance to total variance, a concept linked to Fisher's exact test, Student (William Sealy Gosset), Gustav Kirchhofer; it yields values usually between −1 and 1 and is interpreted as the proportion of total variance attributable to cluster differences. In psychometrics, epidemiology, and biostatistics contexts such as work by Jacob Cohen, Karl Pearson, William Cochran ICC values guide decisions akin to thresholds used by American Psychological Association, World Health Organization, National Institutes of Health. Different interpretation scales are applied in clinical measurement studies referenced in guidelines from Food and Drug Administration, European Medicines Agency, Cochrane Collaboration.

Models and forms of ICC

Different ICC definitions arise from ANOVA and mixed models including one‑way random effects, two‑way random effects, and two‑way mixed effects linked historically to methods by Ronald Fisher, Gertrude Cox, George E. P. Box. Forms include ICC(1), ICC(2), ICC(3) and variants for single measures or average measures, concepts used in reliability work by John Tukey, Jacob Wolfowitz, Jerzy Neyman. Models differ by whether raters or targets are considered fixed or random, a distinction relevant to studies from institutions such as Harvard University, Johns Hopkins University, U.S. Food and Drug Administration and guidance from International Council for Harmonisation.

Estimation methods

Estimation employs ANOVA mean squares, restricted maximum likelihood (REML), full maximum likelihood, and Bayesian approaches; these methods trace lineage to Ronald Fisher, David Cox, Jerome H. Friedman. ANOVA formulas use mean squares among and within clusters, while REML uses variance component estimation as in software developed at Bell Labs, IBM, R Project for Statistical Computing. Bayesian estimation uses priors as in work by Thomas Bayes, Pierre-Simon Laplace, applied in packages influenced by contributions from Stanford University, Princeton University, University of Cambridge.

Assumptions and limitations

Common assumptions include normality of residuals, homoscedasticity across clusters, and exchangeability of raters; violation of these assumptions connects to warnings from Karl Pearson, Fisher, Jerzy Neyman and to diagnostics developed at University of Chicago, University of Oxford, Columbia University. Limitations include sensitivity to range restriction and number of clusters, issues recognized in vocational testing studies by American Educational Research Association, National Center for Education Statistics, and in multicenter clinical trials overseen by European Medicines Agency, Food and Drug Administration. Negative ICC values and confidence interval estimation raise interpretive challenges discussed in literature from Royal Statistical Society, Institute of Mathematical Statistics, American Statistical Association.

Applications and examples

ICC is applied across medicine, psychology, neuroscience, and ecology; exemplar studies include reliability of diagnostic imaging in institutions such as Mayo Clinic, Massachusetts General Hospital, Cleveland Clinic, interrater reliability in psychological assessment from American Psychological Association, and multicenter biomarker studies involving National Institutes of Health, Wellcome Trust, Bill & Melinda Gates Foundation. In sports science and performance measurement ICCs are reported in work associated with Fédération Internationale de Football Association, International Olympic Committee, Union Cycliste Internationale. In education ICCs appear in multilevel modeling of student outcomes in datasets curated by Organisation for Economic Co-operation and Development, World Bank, UNESCO.

Related indices include Cohen’s kappa, Krippendorff’s alpha, Bland–Altman limits of agreement, and Spearman–Brown prophecy formula, with foundational contributors such as Jacob Cohen, Klaus Krippendorff, J. Martin Bland, Douglas G. Altman, Charles Spearman. Choice among these measures depends on measurement scale, study design, and assumptions recognized in methodological guidance from Cochrane Collaboration, CONSORT Group, STROBE Initiative.

Category:Statistical reliability