Questi due aspetti sembrano molto distanti tra loro, ma condividono lo stesso problema statistico. Tutto comincia dall'errore alfa accettato in sede di progettazione dello studio, tipicamente il 5%. Questo significa che lo studio è dimensionato per osservare falsi positivi (effetti inesistenti) una sola volta su venti. "Nel suo complesso" è una dizione letterale: il rischio totale disponibile per quello studio è il 5%. Se questo viene "speso" tutto per la sola analisi dell'endpoint primario, la confidenza che il risultato rifletta i fatti è del 95%. Se viene "speso" in altre analisi, alla fine la confidenza che il risultato sia "vero" è minore. "Quanto" minore dipende da quante analisi sono fatte (vedi 2.2). L'approccio più semplice è di considerare la confidenza da assegnare al risultato finale come pari alla confidenza non spesa: se in uno studio programmato per un errore alfa del 5% si sono eseguite due analisi intermedie (o si sono esaminati due sottogruppi) oltre all'analisi finale e per ciascuna analisi si definisce "si considerano significativi i risultati con P<0,05", allora la confidenza attribuibile a questo risultato è pari all'85% (1-0,05´3: significa che un P nominale pari a 0,05 per questa analisi corrisponde a un P reale pari a 0,15; oppure che per ottenere una confidenza del 95% bisogna ottenere un P nominale pari a 0,0167). Una confidenza così bassa è chiaramente inaccettabile per trarre conclusioni cliniche da applicare a pazienti veri. Esistono tecniche complesse che permettono di "spendere" poco errore alfa nelle analisi intermedie e mantenerlo quanto più possibile disponibile per l'analisi finale, ma questo va pianificato prima dello studio e, comunque, il risultato finale è un aumento della dimensione del campione non molto diversa da quella ottenuta considerando come P critico il valore di P/k (regola di Bonferroni).
Anche per eventuali sottogruppi ogni analisi va pianificata come endpoint primario correlato all'analisi globale. Anche in questo caso si può "spendere" diversamente l'errore alfa sulle diverse analisi, ma anche questo va programmato prima dello studio e, soprattutto, nei risultati deve essere ben evidenziato il grado di confidenza attribuibile a ciascuna analisi (cosa che, purtroppo, non viene quasi mai fatta). Per questo motivo le analisi di sottogruppi pianificati vanno esaminate con cura per quanto attiene alla confidenza con la quale i risultati osservati possono suggerire modifiche di pratica clinica. Le analisi di sottogruppi non pianificati hanno senso solo per indirizzare la futura ricerca, ma sono prive di valore probante per modificare la pratica clinica (vedi anche "endpoint secondari non pianificati" in 2.2). Si può ricordare qui il caso classico dello studio ISIS-1 in cui venne osservato, nell'analisi di sottogruppi non pianificati, che, tra l'altro, l’atenololo era maggiormente efficace nei pazienti nati sotto il segno della bilancia. Si può anche ricordare lo studio PRAISE (efficacia dell’amlodipina vs placebo in pazienti con scompenso cardiocircolatorio; N Engl J Med 1996; 335: 1107-1114). L'analisi globale non evidenziava differenze di mortalità; all'analisi per sottogruppi non pianificati si identificò un sottogruppo (eziologia non ischemica) nel quale amlodidipina riduceva significativamente la mortalità. Lo studio PRAISE-2 (parzialmente discusso in Am Heart J 2004; 147: 151-157), progettato per confermare questo risultato, riscontrò che la mortalità nei due gruppi di trattamento era invece sovrapponibile.
L'approccio all'analisi di sottogruppi può assumere un aspetto apparentemente più "tecnico" rispetto al semplice confronto di un sottogruppo verso un altro (o il sottogruppo di riferimento), che consiste nell'analisi di interazione. In questo approccio, si valuta l'effetto non tanto dell'appartenenza al sottogruppo A, B, C, ... sulla probabilità di ricadere nel gruppo con esito positivo o negativo, come nella normale analisi logistica multivariata, ma si stima l'interazione fra il fattore di classificazione principale (generalmente il trattamento cui un soggetto è stato randomizzato) e l'appartenenza al sottogruppo. In tal modo si ritiene di poter evidenziare, se l'interazione è statisticamente significativa, che l'effetto del trattamento è differente in funzione della caratteristica che definisce il sottogruppo (tipicamente: sesso, gravità della patologia, ....). Purtroppo anche questo approccio può essere fuorviante, anche se in grado minore rispetto alla tradizionale analisi di sottogruppi. Infatti, anche l'analisi di interazione introduce un bias, specie se i sottogruppi non erano definiti a priori e quindi sono sbilanciati, in relazione a tutte le altre analisi statistiche. Anche in questo caso vale la regola generale che, per poter definire significativa un'interazione, la P osservata deve essere più piccola della P critica definita, come indicato sopra, come P/k, dove k è il numero di analisi pianificate (incluse le analisi di interazione). Utilizzando l'analisi di interazione è possibile ottenere fattori di correzione meno importanti, ma non è mai possibile evitarli. Per una discussione più approfondita di questo aspetto, si veda: Lagakos SW. The Challenge of Subgroup Analyses – Reporting without Distorting. N Engl J Med 2006; 354: 1667-1669.