Rendere rilevante la ricerca sull'istruzione

2021-03-03 18:11:45

In che modo i ricercatori possono offrire agli insegnanti più scelte.

Come in molte riviste, le prove scientifiche vengono regolarmente invocate a difesa di una pratica scolastica o di un'altra. E a volte, le prove scientifiche hanno un posto di rilievo nella politica educativa federale. Ha avuto una svolta da star nel 2002 No Child Left Behind Act, che ha usato la frase "ricerca scientificamente fondata" più di 50 volte, e un bis nel 2015 Every Student Succeeds Act, che richiede che le scuole implementino "interventi basati sull'evidenza" e stabilire livelli di rigore accademico per identificare i programmi in base alla loro comprovata efficacia.

Eppure gli insegnanti, per la maggior parte, ignorano questi studi. Perché?

Ci sono anche ricerche su questo. In primo luogo, gli insegnanti possono vedere la ricerca come un po' lontana dalla classe, con un'ulteriore traduzione necessaria affinché la pratica sia pronta per l'implementazione in un ambiente dal vivo. In secondo luogo, gli insegnanti possono giudicare che una pratica sia pronta per la classe in generale, ma ritardare l'attuazione perché i loro studenti e l'ambiente in particolare sembrano significativamente diversi dal contesto di ricerca. Terzo, gli insegnanti possono resistere a provare qualcosa di nuovo per ragioni non correlate alla sua efficacia, perché sembra eccessivamente impegnativo, per esempio, o perché è in conflitto con valori o convinzioni profondamente radicati su ciò che funziona in classe. Infine, gli insegnanti potrebbero non essere a conoscenza delle ultime ricerche perché le leggono solo raramente.

Non importa il motivo, sembra che molti insegnanti non ritengano che la ricerca sull'istruzione sia loro direttamente utile. Pensiamo che questi insegnanti abbiano ragione. E pensiamo che il problema risieda nei ricercatori, non negli insegnanti.

I primi tre ostacoli sopra elencati - due riguardanti l'applicabilità della ricerca e uno riguardante i vincoli percepiti che la ricerca mette in pratica - sono prodotti dei metodi utilizzati dai ricercatori. La ricerca sembra irrilevante per i professionisti perché non pone domande che rispondono ai loro bisogni. Gli insegnanti si sentono vincolati dalla ricerca perché si sentono spinti a utilizzare metodi approvati dalla ricerca e la ricerca crea chiari vincitori e vinti tra le pratiche che possono essere appropriate in alcuni contesti ma non in altri.

La radice di questi problemi risiede in due caratteristiche standard della maggior parte degli studi: il modo in cui i ricercatori scelgono i gruppi di controllo e l'attenzione dei ricercatori sulla ricerca di differenze statisticamente significative. La norma nella ricerca sull'istruzione è che, affinché un risultato sia pubblicabile, i risultati degli studenti che ricevono un intervento devono essere notevolmente diversi dai risultati di un gruppo di "controllo" altrimenti simile che non ha ricevuto l'intervento. Per dimostrare che un intervento "funziona", è necessario dimostrare che fa una differenza positiva rispetto al controllo. Ma tali confronti sono realistici, ragionevoli o addirittura utili per gli insegnanti?

No, ma potrebbero esserlo. Ecco come.

Meglio di niente non basta

Consideriamo l'ipotetico caso di CM1, un nuovo metodo di gestione della classe pensato per ridurre la frequenza delle sospensioni. Supponiamo di reclutare otto scuole per partecipare a un esperimento per valutare l'efficacia di CM1. Assegniamo in modo casuale gli insegnanti in metà delle classi partecipanti per implementarlo. Potremmo quindi confrontare il tasso di sospensioni degli studenti in quelle aule con il tasso osservato nelle aule che non stanno implementando CM1. Questo tipo di confronto è chiamato "business as usual", perché confrontiamo CM1 con qualsiasi cosa le classi di confronto stiano già facendo. Una scelta simile sarebbe quella di confrontare il tasso di sospensioni prima che CM1 venga implementato con il tasso dopo che è stato implementato nelle stesse scuole. Questo design "pre-post" è paragonabile al design come al solito, ma ogni scuola ha il proprio controllo.

Se i tassi di sospensione sono inferiori con CM1, possiamo concludere che "ha funzionato". Ma con un gruppo di controllo che lavora come al solito questa conclusione è debole, essenzialmente che "qualcosa è meglio di niente". Anche questo potrebbe essere troppo ottimistico. Potremmo osservare un effetto placebo, ovvero gli studenti si sono comportati in modo diverso solo perché sapevano di essere stati osservati o perché qualcosa nella loro classe è cambiato. O forse CM1 non è particolarmente efficace, solo meglio di qualunque cosa gli insegnanti facessero prima, il che potrebbe essere stato attivamente dannoso.

Possiamo trarre una conclusione un po 'più forte se usiamo un "controllo attivo", il che significa che anche le classi di controllo adottano un nuovo metodo di gestione della classe, ma uno che i ricercatori non si aspettano influenzerà i tassi di sospensione. I progetti di controllo attivo rendono i ricercatori più sicuri che, se si osserva una differenza nei tassi di sospensione, è davvero CM1 a essere responsabile, perché sia le aule CM1 che le aule di controllo stanno facendo qualcosa di nuovo. Questo modello significa che non dobbiamo preoccuparci degli effetti placebo o che CM1 ha semplicemente impedito pratiche inefficaci. Tuttavia, anche lo scenario migliore produce una conclusione debole, perché si prevedeva che il metodo di controllo non avrebbe funzionato. È ancora "qualcosa è meglio di niente".

Ancora un altro tipo di confronto verifica un intervento noto per essere efficace rispetto a una versione più recente dello stesso intervento. L'obiettivo, ovviamente, è verificare se la nuova versione rappresenta un miglioramento.

I tre progetti di ricerca che abbiamo considerato rispondono a domande che spesso interesseranno solo i ricercatori, vale a dire se CM1 "funziona" o, nel caso del confronto tra la vecchia e la nuova versione, se CM1 è stato migliorato. Quando "funziona" è sinonimo di "meglio di niente", la risposta può essere importante per distinguere tra teorie e quindi è di interesse per i ricercatori. Ma questa domanda è rilevante per gli insegnanti? I praticanti non sono interessati alle teorie e quindi non chiederebbero: "Questo programma è meglio di niente?" Chiedevano qualcosa di più del tipo: "Qual è il modo migliore per ridurre le sospensioni?"

La risposta “CM1 è meglio di niente” è loro utile se non sono stati testati altri interventi. Ma nel mondo reale, gli insegnanti di classe, per non parlare dei dirigenti scolastici e del sistema, scelgono tra diversi possibili interventi o linee di azione. E gli altri metodi di gestione della classe destinati a ridurre le sospensioni? Se, ad esempio, ipotetici concorrenti di programmi di gestione della classe CM2 e CM3 si fossero dimostrati meglio di niente, i professionisti preferirebbero che i ricercatori confrontassero CM1 con CM2 e CM3 piuttosto che confrontarlo con il non fare nulla. Uno è molto meglio degli altri? O sono tutti ugualmente efficaci e spetta ai professionisti scegliere quello che preferiscono?

Migliori pratiche, ma per chi?

Se ci poniamo l'obiettivo di trovare il modo migliore per ridurre le sospensioni e non sono noti interventi di successo, il confronto tra CM1 e il normale funzionamento ha senso. Tuttavia, se sono noti interventi di successo, i ricercatori dovrebbero confrontare CM1 con quello che attualmente si ritiene essere l'intervento di maggior successo. Potremmo pensare a questa come la definizione forte del termine "migliori pratiche". Indica che esiste un metodo campione, un unico modo preminente per ridurre le sospensioni e l'obiettivo della ricerca è trovarlo.

Ma generalmente non è così che funziona il mondo e infatti, "Qual è il modo migliore per ridurre le sospensioni?" probabilmente non è esattamente quello che chiederebbe un educatore. Piuttosto, chiedevano: "Qual è il modo migliore per ridurre le sospensioni nella mia scuola, con gli studenti, i docenti e gli amministratori in particolare che si trovano qui, e con il nostro particolare insieme di attività e passività, e senza influire negativamente su altri importanti obiettivi didattici?"

CM1 può essere eccezionale quando si tratta di ridurre le sospensioni degli studenti, ma può anche essere costoso, richiedere tempo per gli amministratori o utilizzabile solo con insegnanti molto esperti o con corpi studenteschi omogenei. E forse CM2 è anche fantastico, specialmente per insegnanti inesperti, e CM3 è utile quando si lavora con studenti diversi. La ricerca mostra certamente tale variabilità nei contesti per alcuni interventi e gli insegnanti lo sanno. Come abbiamo notato, uno dei motivi per cui gli insegnanti non tendono a utilizzare la ricerca è perché presumono che qualsiasi impatto positivo riscontrato dai ricercatori non sarebbe necessariamente lo stesso per i loro studenti in particolare nella loro scuola.

Se una “best practice” campione universale dovesse davvero emergere, per quanto improbabile possa sembrare, sarebbe utile saperlo, ovviamente. Ma gli insegnanti trarrebbero maggior vantaggio non dall'identificare un programma come il migliore da parte dei ricercatori, ma dall'identificazione o dall'ampliamento di una gamma di interventi efficaci tra cui gli insegnanti possono poi scegliere. La ricerca può supportare questo obiettivo, ma richiede un cambiamento in ciò che consideriamo una conclusione interessante. Invece di ritenere interessante uno studio se l'intervento è migliore del gruppo di confronto, gli insegnanti sarebbero interessati a sapere se un nuovo intervento è buono almeno quanto il miglior intervento. Ciò consentirebbe loro di scegliere tra gli interventi, tutti noti per essere efficaci, in base a quello che ritengono si adatti meglio alle loro esigenze specifiche.

Ipotesi nulla (e nulla)

Ma non è questo l'obiettivo degli studi di ricerca. I ricercatori stanno cercando le differenze, non l'uguaglianza, e maggiore è la differenza, meglio è. Gli insegnanti potrebbero essere interessati a sapere che l'impatto di CM1 non è diverso da quello di un altro metodo collaudato di gestione della classe, ma i ricercatori no. I ricercatori lo definiscono un effetto nullo e viene loro insegnato che questa conclusione è difficile da interpretare. Tradizionalmente, le riviste di ricerca non hanno nemmeno pubblicato risultati nulli, sulla base del presupposto che non siano di interesse.

Considera questo dal punto di vista di un ricercatore. Supponiamo che un dirigente scolastico implementi CM1 perché pensa che riduca le sospensioni. Ci sono 299 sospensioni nella scuola in quell'anno, mentre l'anno precedente erano state 300. CM1 ha aiutato? Un ricercatore direbbe che non si può concludere che sia così, perché il numero di sospensioni varierà un po 'di anno in anno solo per caso. Tuttavia, se la differenza fosse molto maggiore, diciamo che c'erano 100 sospensioni in meno dopo che CM1 è stato messo in atto, il ricercatore direbbe che era troppo grande per essere un colpo di fortuna. Una "differenza statisticamente significativa" è molto improbabile che si sia verificata per caso.

Questa logica è alla base di quasi tutte le ricerche comportamentali e porta a un'ossessione per la differenza. Dire "Ho confrontato X e Y e non posso concludere che siano diversi" perché i risultati erano simili può non essere interessante per i ricercatori, ma è potenzialmente molto interessante per i professionisti che cercano di affrontare una sfida particolare. Sarebbero felici di sapere che un nuovo intervento vale almeno quanto uno collaudato.

Gli effetti nulli sono importanti per un altro motivo. Gli interventi spesso derivano da risultati di laboratorio. Ad esempio, i ricercatori hanno scoperto che la memoria è più duratura se le sessioni di studio sono distribuite nel tempo piuttosto che stipate in un breve periodo di tempo. Non dovremmo presumere che osservare quell'effetto nell'ambiente altamente controllato del laboratorio significhi che ci è garantito di osservarlo nell'ambiente meno controllato della classe. Se nelle scuole la spaziatura delle sessioni di studio non funziona meglio delle sessioni stipate, questo è un effetto nullo, ma è importante sapere.

I ricercatori hanno ragione sul fatto che gli effetti nulli non sono semplici da interpretare. Forse l'intervento può funzionare nelle scuole, ma gli sperimentatori non l'hanno tradotto in aula nel modo giusto. Oppure possono aver fatto la traduzione nel modo giusto, ma l'esperimento nel modo sbagliato. Tuttavia, gli effetti nulli sono vitali per il conteggio e includere in una valutazione più ampia del potenziale dell'intervento. I ricercatori possono rendere gli effetti nulli più facilmente interpretabili attraverso i cambiamenti nella progettazione della ricerca, in particolare aumentando il numero di persone nello studio.

Bias di pubblicazione

Come si svolgono questi fenomeni nella ricerca pubblicata di recente? Per scoprirlo, abbiamo fatto delle ricerche per conto nostro. Abbiamo esaminato un campione di articoli che riportavano studi di intervento pubblicati dal 2014 al 2018 in quattro riviste: American Education Research Journal, Educational Researcher, Learning and Instruction e Journal of Research in Science Teaching. La nostra analisi ha esaminato il tipo di gruppo di controllo impiegato e se l'intervento è stato segnalato per essere significativamente diverso dal gruppo di controllo. Abbiamo predetto che la maggior parte degli articoli pubblicati impiegano gruppi di controllo deboli - quelli che consentono la conclusione "meglio di niente" - perché questi offrono le maggiori possibilità di osservare una differenza significativa tra intervento e controllo.

Dei 304 studi esaminati, il 91% era del tipo "meglio di niente": il 49% utilizzava modelli business-as-usual e il 42% utilizzava come gruppo di controllo un intervento alternativo che i ricercatori si aspettavano non influenzasse il risultato. Circa il 4,5% ha utilizzato un controllo che era una variante dell'intervento con l'obiettivo di migliorarlo. Un altro 4,5% ha utilizzato un gruppo di controllo che era noto per avere un effetto positivo o che si prevedeva avrebbe avuto un effetto benefico sulla base della teoria esistente.

I codificatori hanno anche notato se il confronto chiave - intervento contro controllo - è stato riportato come una differenza statisticamente significativa e se è stata enfatizzata una particolare interazione. Ad esempio, forse il gruppo di intervento non si è comportato meglio del gruppo di controllo nei primi anni, ma c'era una differenza significativa nei gradi successivi. In alternativa, la conclusione chiave del rapporto potrebbe essere stata che il gruppo di intervento e il gruppo di controllo non differivano.

Abbiamo scoperto che il 91% degli studi riportava che l'intervento era significativamente diverso dal gruppo di controllo. Di quelli che non lo hanno fatto, un altro 4% ha riportato un'interazione significativa, ovvero l'intervento ha funzionato per determinati soggetti o in determinate circostanze. Solo il 5% degli studi ha riportato effetti nulli. Nessuno di questi studi ha dimostrato che un nuovo intervento è equivalente a un altro intervento già stabilito come efficace.

Uno standard di ricerca più utile

In teoria, gli obiettivi della ricerca sull'istruzione sono la creazione di conoscenze e il miglioramento del processo decisionale e dei risultati per insegnanti e studenti. Ma in pratica, la ricerca sull'istruzione è modellata dalle pratiche e dalle priorità comuni dei ricercatori, non dagli insegnanti o dai leader della scuola e del sistema. La maggior parte della ricerca sugli interventi impiega un gruppo di controllo migliore di niente e un intervento è ritenuto degno di essere applicato (o, almeno, degno di una ricerca continua) solo se fa una differenza misurabile e statisticamente significativa. Lo svantaggio di questo disegno di ricerca pervasivo è chiaro: potrebbero esserci interventi "basati sulla ricerca" sul mercato, ma gli educatori non hanno basi su cui confrontare le alternative. Tutti hanno dimostrato di essere "migliori", ma meglio di cosa, esattamente?

Immagina invece che il progetto di ricerca comune sia iniziato con qualsiasi intervento affidabile sia considerato l'attuale "gold standard" per il risultato desiderato e lo usi come gruppo di controllo. Immaginate anche che il criterio del confronto sia che un nuovo intervento dovrebbe essere almeno all'altezza del gold standard. Col tempo sarebbe emerso un gruppo di interventi collaudati, più o meno equivalenti in efficacia e noti per essere superiori ad altri interventi non all'altezza del gold standard. Di conseguenza, gli educatori avrebbero una gamma di interventi di alta qualità tra cui scegliere e potrebbero selezionare quello che meglio si adatta al loro contesto scolastico, abilità e preferenze personali. Inoltre, la scelta stessa può essere una componente importante dell'efficacia educativa: gli interventi con l'approvazione degli insegnanti tendono ad avere più successo e la ricerca ha dimostrato che l'adozione pervasiva di un singolo intervento che non si adatta alla più ampia gamma di differenze individuali può portare a meno apprendimento.

Cosa ci vorrà per effettuare questo cambiamento? Riteniamo che i ricercatori siano sensibili agli incentivi offerti dalla loro professione. La maggior parte della ricerca sull'istruzione viene condotta nell'accademia, dove le monete del regno sono sovvenzioni e pubblicazioni sottoposte a revisione paritaria. Ci sono alcuni segnali incoraggianti che dimostrano che gli editori di riviste stanno interessando maggiormente agli effetti nulli, come un recente numero speciale di Education Researcher dedicato a tali studi. Ma molto probabilmente il cambiamento avverrà e persisterà se le fondazioni e le agenzie governative che finanziano la ricerca chiariscono che vedranno favorevolmente questo cambiamento nei progetti di studio durante la revisione delle proposte. Ciò incoraggerebbe gli editori di riviste a pubblicare studi con effetti nulli e rifiutare quelli che utilizzano gruppi di controllo come al solito.

I ricercatori sono, in base alla nostra esperienza, frustrati e rattristati dal fatto che gli insegnanti non facciano un uso maggiore dei risultati della ricerca nelle loro pratiche. Ma nulla cambierà finché i ricercatori non riconosceranno che la loro metodologia standard è utile per rispondere alle domande della ricerca, ma non per migliorare la pratica.

Support Comment Share