Per Ardua ad Astra

Tanto gilipollas y tan pocas balas

Estudios científicos: cómo detectar una chapuza

112 comentarios

Muchas veces veréis en blogs científicos que uno nombra un estudio, y poco después llega alguien que se pone estupendo: que si no está aleatorizado, que si el tamaño muestral, el ciego… Algo que suena a chino (o a capullo) si quien lo lee no sabe el proceso que hay detrás de la producción científica. ¿Por qué un estudio es más fiable que otro, por qué sus conclusiones son más creíbles? Veamos la diferencia entre himbestigar e Investigar.

Viñedo de variedad tempranilloHimbestigación.

Quiero ver si un abono es bueno para las plantas. Cojo un árbol, le echo abono, y al cabo de los días lo observo: ah, pues sí que parece que está más lozano. Concluyo que el abono hace que el árbol crezca mejor, y me fumo un puro.

Cosa seria.

Quiero ver si un abono es bueno para las plantas.

  • Curvas de supervivencia en un ensayoPero no me puedo fiar de lo que le pase a un único árbol de la finca: lo mismo está a la entrada de la acequia, recibe más agua que el resto y por eso crece mejor… Así que se lo voy a echar a quinientos árboles (tamaño muestral).
  • Y, claro, igual este año hace más sol y mejor temperatura, y por eso crecen más hermosos, independientemente del fertilizante. Así que tendré que observar otro grupo de árboles, en las mismas condiciones que los abonados pero sin abono, a ver qué les pasa (grupo control).
  • Además, puede que este abono haga que los árboles necesiten más agua, aunque yo aún no lo sé. Y si lo doy en la finca que está en la vega del río es muy útil, pero si lo empleo tierra adentro, seco los árboles. De modo que fertilizaré árboles de distintas fincas (representatividad de la muestra).
  • También puede que, por casualidad (o porque soy el fabricante), abone sólo las fincas mejor regadas: ¡normal que luego los árboles crezcan más saludables! ¿No será mejor echar a suertes qué pedazos abono y cuáles no? (aleatorización) Y para asegurar que las diferencias se deben sólo a eso, los árboles tendrán que ser lo más parecidos posible entre sí. Eso también lo consigo asignando al azar (siempre que tenga suficientes elementos, claro).
  • Y, después de discurrir todo esto, yo me pregunto: ¿qué es lo que realmente me importa, que crezcan más lozanos, o que den más peras y más gordas? Hombre, si miro el verdor de los árboles sabré el resultado sin tener que esperar a cosechar… pero lo que a mí me parece frondoso, a otro puede que no. Vale, es más rápido observar la finca y ver su aspecto, que contar las peras que da cada uno y medir su calibre. Pero es que, realmente, la frondosidad o los brotes me la traen bastante floja. Yo quiero saber si usar el abono se traduce en mejores frutos (solidez de las variables de resultado).
  • Por otra parte, es verdad que medir las peras es más objetivo que la apariencia del árbol, pero lo mismo voy con el prejuicio de Es que esta finca nunca ha dado buen fruto o Este abono no puede ser bueno y, sin querer, altero los resultados. ¡No digo hacer trampa, ojo! Digo medir las peras más gordas inconscientemente, o coger las del árbol más flojo. Así que será mejor si la persona que mide los resultados no sabe qué fincas están abonadas o no: así nos aseguramos de que es completamente objetivo (enmascaramiento: simple, doble o triple ciego).
  • Perfecto. Me he devanado los sesos para planificarlo, he abonado, he recogido todo, y tengo aquí un montón de libretas con datos. ¿¿Qué coño hago con ellos?? Estadística. Procesarlos matemáticamente para que me respondan una pregunta: ¿hay diferencias entre los árboles tratados y los que no? Y, si las hay, ¿esas diferencias pueden ser casuales, o son demasiado grandes como para ser pura coincidencia? (significación estadística). Imagínate que lanzo una moneda al aire: yo espero que la mitad salgan caras, y la mitad cruces. Si la lanzo treinta veces, es posible que en diecisiete salga cara. Pero ni de coña deberían salir treinta caras: si ocurre, ¡es que la moneda tiene truco!

Ampliando un poco: estudios médicos.

Esto que parece tan sencillo es algo que se pasan por el forro en estudios que luego los periodistas corren a publicar con titulares sensacionalistas, por eso me pareció útil explicarlo brevemente. Y, dejándome de peras y manzanas, veamos a qué me refiero concretamente en el ámbito de la investigación médica.

  • Tamaño muestral. Es crucial hacer un estudio con el mayor número posible de personas, así nos aseguramos de que nuestras conclusiones serán sólidas (una gaviota no hace verano, y esas cosas). Así pues, sabemos que la simvastatina sirve para bajar el colesterol y reducir la mortalidad gracias a un estudio con más de cuatro mil participantes. Y un ensayo con más de quince mil pacientes nos dijo que añadir el caro clopidogrel a la aspirina no aporta ninguna ventaja.
  • Grupo control. Es que si no hay grupo control, ¡no puedo calcular ninguna diferencia! Tengo que comparar mi fármaco con una sustancia biológicamente inactiva (placebo) o, mejor, con otro fármaco que ya haya demostrado su eficacia. Si no, no tengo forma de justificar que las variaciones que aparecen se deben a mi intervención: puede ser desde un efecto Hawthorne hasta una pura chiripa, pero en cualquier caso, mis resultados sirven para bastante poco.
  • Representatividad de la muestra, estudios multicéntricos. Quiero saber si mi medicamento será útil cuando se lo dé a pacientes con artrosis en general, no si se lo doy a mujeres menopáusicas de 55 a 65 años sin osteoporosis y que no hayan tomado antiinflamatorios en el último mes. Cuantas más condiciones ponga, más boletos tengo para que el estudio no sea extrapolable. Y un estudio que no es aplicable a la práctica clínica, es una perfecta pérdida de tiempo y dinero.
    Obviamente, esto también tiene un contrapartida: ¿y si resulta que el medicamento sólo es útil en mujeres? Para eso está el análisis multivariante; cuando procesemos los resultados veremos que estos varían en función del sexo (o de la edad, o…) y dejaremos una sugerencia a otros investigadores: ¡eh, centraos en este subgrupo!
  • Aleatorización. Si asigno al azar quién recibe el fármaco y quién el placebo, al final tendré dos grupos iguales entre sí. Pero si en el hospital A damos el fármaco y en el B dan el placebo, ¿las diferencias se deben al medicamento, a que el A tiene pacientes más enfermos, o a que en el B se les añaden otros tratamientos?
  • Solidez de las variables de resultado. Todos sabemos que tener alto el azúcar es malo. Pero también sabemos que morirse es aún peor. Por consiguiente, a mí me da igual que un medicamento baje la glucosa: ¡lo que quiero es no morirme por la diabetes! No vaya a ser que el medicamento me baje el azúcar… pero me cause un infarto.
  • Enmascaramiento: simple, doble o triple ciego. Del mismo modo que a los catadores no se les dice qué están probando, en un ensayo no se debe decir si te estoy dando el antiguo y poco eficaz tratamiento, o la chachipastilla que te va a poner bueno en tres días. Entre otras cosas, porque quizás la pastilla no sea tan chachi… pero tú te lo creas y le digas al médico que, huy, ya estás mucho mejor de los temblores. Así que podemos “cegar” al paciente (simple ciego), al paciente y al médico que lo evalúa (doble), o al paciente, al médico, y al matemático que procesa los datos (triple ciego). Así nadie puede tener la tentación de inclinar los resultados.
  • Significación estadística. Significación clínica. Que algo sea “estadísticamente significativo” significa que, si realmente no hubiese diferencias entre las opciones ensayadas, sería la hostia de raro encontrar las diferencias de mi estudio, u otras aún mayores. Digamos que la significación estadística (que se otorga a partir del 5%, un valor elegido por convenio) es como un sello que avala mis resultados: señores, aquí hay una diferencia, y casi seguro que no es por casualidad.
    Pero precaución: significación estadística no implica relevancia clínica. Puede que un antibiótico cure la infección en 8,3 días y otro lo haga en 8,2. A eso le puedes poner las cintas que quieras, pero ya me dirás si vale la pena dar un medicamento nuevo y más caro a cambio de 0,1 días de ingreso menos.

En fin, damas y caballeros, esto es todo (¡como si fuese poco, menuda chapa nos ha soltado el cabrón!). He simplificado con la esperanza de que se entienda mejor: si no ha sido así, debajo de esta línea tenéis los comentarios.

Perpetrado por EC-JPR

octubre 5th, 2010 a las 9:59 am