Nell'esame degli studi utilizzati per la costruzione delle linee guida si è dato peso, certamente, all'esistenza di risultati "statisticamente significativi", ma anche alla potenza degli studi e alla rappresentatività del campione. Questi aspetti sono strettamente correlati alla dimensione del campione utilizzato negli studi (la cosiddetta "numerosità campionaria").
Espresso in termini pratici, e al di là delle formule matematiche utilizzate, la dimensione di un campione deve essere tale da permettere di identificare come "statisticamente significativa" una differenza di effetto che sia spiegabile solo raramente da effetti casuali, ma anche tale da poter essere effettivamente rilevata se esiste, e da poter essere applicabile a tutta la popolazione da cui è stato estratto il campione. Questi termini corrispondono a: significatività, potenza, e rappresentatività (che corrisponde, implicitamente, a predittività nei limiti discussi di seguito).
Un risultato statisticamente significativo in uno studio di buona potenza può essere privo di valore predittivo per l'applicazione alla popolazione, se il campione non rappresenta – per aspetti demografici, genetici, fisiopatologici – la popolazione cui si intende applicare il risultato o se l'endpoint primario non risponde esattamente alla domanda clinica di interesse per la popolazione considerata in queste linee guida. Questo solo aspetto, indipendentemente dalla significatività del risultato, causa la diversa classificazione della forza di una evidenza esterna considerata in queste linee guida (significato di "direttamente applicabile" come indicato nel Capitolo 2).
Tuttavia, la significatività statistica per sé non è un elemento sufficiente a dare "forza" probante a uno studio. Anche in questo caso il valore di "P" è elemento necessario ma non sufficiente. Elemento altrettanto rilevante è l'intervallo di confidenza del risultato, la sua natura, il suo peso clinico, il sospetto (o l'evidenza) di bias (vedi anche punti 2.9 e 2.11). Conviene ricordare che la significatività statistica è solo una stima di quanto sia probabile che la stessa differenza possa essere osservata per puro caso nel caso si ripetessero le stesse analisi (da cui necessità della definizione di uno e uno solo endpoint ben definito o, se più di uno, adeguato incremento della numerosità campionaria; vedi discussione in 2.3). Conviene anche ricordare che il valore effettivo di "P" osservato e riportato non aumenta minimamente la forza dell'evidenza rispetto a quanto ipotizzato nel protocollo di studio (vedi punto 2.1).
La "potenza" di uno studio clinico è uno degli aspetti forse meno comunemente considerati nelle discussioni ma riveste una rilevanza notevole per la costituzione di linee guida. Tecnicamente, la "potenza" di uno studio è la sua capacità di osservare una differenza di esito fra i due o più gruppi al livello di significatività scelto. Quindi, una volta che lo studio è stato concluso e la differenza è stata osservata al livello di significatività prefissato, la questione della potenza è di minore rilevanza. Tuttavia, la potenza può anche essere definita come la percentuale di studi condotti su campioni indipendenti estratti dalla stessa popolazione che darà una differenza statisticamente significativa (nei limiti prefissati di P) se l'effetto del trattamento è vero. Estendendo questa definizione fino a comprendere, negli n campioni estratti indipendentemente dalla popolazione, tutta la popolazione, allora la potenza dello studio è una stima, per quanto grossolana, della proporzione di popolazione che può "rispondere" al trattamento come si è visto nello studio purché il campione sia davvero rappresentativo della popolazione stessa. Per questo motivo la forza delle evidenze esterne utilizzate in queste linee guida tiene conto anche della potenza degli studi (vedi Capitolo 2).