marimea conteaza (si nu doar)

Imaginează-ţi pentru o clipă că eşti de profesie biolog. Sa zicem ca te interesează care e compoziţia apei de la izvorul C7-SECU din judeţul Suceava. Te deplasezi la această sursă şi iei o mostră de apă. Nu o iei pe toată! Ca să afli compoziţia vei avea nevoie de puţină apă. O cantitate de 500 ml e suficientă. Aceasta e o mostră (un eşantion) suficientă, întrucât se presupune că apa are o compoziţie omogenă (sau un grad foarte mare de omogenitate). Odată ce i-ai aflat compoziţia prin testele de laborator, putem crede cu destulă certitudine că apa de la sursa C7-SECU are o aceiaşi compoziţie. În alţi termeni, putem crede că apa de azi va semăna cu apa de mâine de la acelaşi izvor. Dar să fie oare aceiaşi apă cu cea care curge la alte izvoare? Putem generaliza compoziţia ei chimică la toate izvoarele? Evident, vei zice, că nu are sens. Ca să ştim compoziţia apelor de izvor de pe teritoriul tării mergem la fiecare izvor şi luăm de la fiecare în parte mostre alcătuind un eşantion al apelor. Vom afla prin testele biochimice că ele diferă în compoziţie, dar putem stabili în medie compuşii apelor de izvor de pe teritoriul ţării. Aceste date ne oferă o descriere obiectivă vizavi de apele de izvor de pe întreg teritoriul, nu despre fiecare izvor în parte (caz particular). Însă, putem crede că acei compuşi sunt foarte probabil prezenţi variabil şi în sursa C7-SECU. De ce? Deoarece eşantionul apelor (populaţia de izvoare) e reprezentativ.

E simplu. Oamenii cu un IQ peste medie înţeleg cu uşurinţă acest raţionament. Am îndoieli la cei cu IQ în medie. Logica eşantionării e identică atât pentru biologie cât şi pentru psihologie şi ştiinţele sociale. Spre uimirea mea, această logică odată transferată în domeniul ştiintelor sociale devine nelogică, iar înţelegerea ei se destrama misterios.

Numărul subiecţilor încluşi într-un eşantion se cheamă volumul (mărimea) eşantionului. Să presupunem că într-un program terapeutic A pentru adicţia la nicotină ai 6 subiecţi, iar în programul B ai 10 subiecţi. Ambele numere sunt prea mici ca să poţi determina rata de succes al unui tip de program. Când un cercetător derulează experimente foloseşte adesea un volum mai mare de subiecţi. Dacă nu poate folosi un volum mare de subiecti, el va fi precaut în concluziile derivate în baza datelor obţinute. Nu putem generaliza datele la o populaţie cercetând un număr mic de subiecţi.

Volumul e o caracteristică critică în studii. Cu cât e mai mare cu atât e mai bine (dar depinde şi de obiectivele şi designul studiului). Diversitatea populaţiei ţintă e o alta. De exemplu, fumătorii sunt atât bărbaţi cât şi femei, adolescenţi dar şi pensionari, învederaţi dar şi ocazionali. Cu cât e mai divers eşantionul cu atât e mai bine. Apoi, o treia caracteristică este selecţia aleatorie. Prin selectia aleatorie cercetatorii incearca sa se asigure ca toate atributele (variabile) pe care vor sa le generalizeze au sanse egale de a fi prinse in esantion. Dacă incluzi în programul A indivizi motivaţi intrinsec să-şi schimbe obiceiul de a fuma, vei avea din start şanse mai mari de succes comparativ cu programul B în care ai inclus subiecţi obligaţi la schimbare. O selectie aleatorie iti va oferi ocazia sa prinzi in esantioane variabila motivatie distribuita in mod egal (cel putin teoretic in baza legii probabilistice a numerelor mari).

Toate aceste caracteristici (criterii) luate împreună fac un eşantion reprezentativ. Plecând de la erorile apărute din satisfacerea acestor criterii, datele recoltate vor duce la concluzii înselătoare. De aceea, aceia care fac studii serioase sunt deosebit de vigilenţi când fac eşantionarea şi interpretarea datelor în limitele esantioanelor studiate; eşantioane care pot fi în grade variabile reprezentative pentru diferite populaţii. În practică, procedura selecţiei sau eşantionării este deosebit de dificilă (câteodată, dureroasă, din câte am auzit) pentru cine îşi propune un studiu serios.

Orice fel de studiu derulat cu eşantioane nereprezentative devine inutil prin datele oferite şi înşelător prin interpretarea lor. Cel mult din datele strânse putem extrage o idee şi specula vizavi de un fenomen sau eveniment. Dar suntem în lumea posibilului, fără să ştim cât de probabil este acel fenomem posibil. În această categorie, intră sondajele derulate de televiziuni şi reviste care prezintă o întrebare sau două cu variante, de regulă, „da” sau „nu”. De exemplu, o televiziune X într-o emisiune menţine în imagine (pe burtieră) întrebarea „Credeţi că Guvernul e o instituţie de încredere?” cu răspunsuri Da sau Nu, iar în dreptul fiecărei variante procentul din populatie, adică 75 % Da şi 10 % Nu. Atentie! Din populaţie. Care populaţie? Populatia fidelă televiziunii X? Populaţia care are timp în acel interval orar (18-20) să privească la TV, adică cei care sunt mai degrabă acasă şi nu la serviciu? Populaţia celor care au cablu si include transmisia acelui post; populaţia celor care deţin un televizor?

Acesta e un eşantion ne-reprezentativ, iar datele adunate sunt inutile în raport cu populaţia generală. Procentele colectate nu ne spun nimic. Ne indică doar ceea ce cred cei care au sunat la respectiva televiziune si poate intentia manipulativa a conducerii acelui post sau acelei reviste. Dacă între orele 18-20 au sunat ca-şi exprime votul de încredere vs. neîncredere 150 de cetăţeni, vei şti că 75 la sută dintre ei au încredere în Guvern şi 10 % că nu. Iar restul de 15 la sută nu ştii, deoarece s-a intrerupt apelul dintr-un motiv sau altul.  Oricum nu contează. Poţi stinge televizorul şi te culca liniştit.

Chiar daca esantionul are un volum relativ mare, el nu are diversitate si nici nu e aleatoriu. Datele obtinute nu functioneaza decat ca dovada sociala pentru cei care se intampla sa nu aibe o opinie formata. Da, adica te poate influenta cand citesti enuntul cu procentele asociate oferit in cine stie ce context. Mai putin, daca vei retine urmatoarea idee forta laolalta cu niscaiva intrebari „cutremuratoare”:

  • Putem generaliza concluziile unor studii doar la oamenii (sau evenimentele) care sunt asemenea celor pe care i-am studiat (din esantioane).
  • Cat de multe evenimente sau oameni au fost incluse in esantionul studiului, cat de extins (divers) e esantionul studiat si cat de aleatoriu a fost alcatuit?