Per Ardua ad Astra

Tanto gilipollas y tan pocas balas

Estudios científicos: cómo detectar una chapuza

112 comentarios

Muchas veces veréis en blogs científicos que uno nombra un estudio, y poco después llega alguien que se pone estupendo: que si no está aleatorizado, que si el tamaño muestral, el ciego… Algo que suena a chino (o a capullo) si quien lo lee no sabe el proceso que hay detrás de la producción científica. ¿Por qué un estudio es más fiable que otro, por qué sus conclusiones son más creíbles? Veamos la diferencia entre himbestigar e Investigar.

Viñedo de variedad tempranilloHimbestigación.

Quiero ver si un abono es bueno para las plantas. Cojo un árbol, le echo abono, y al cabo de los días lo observo: ah, pues sí que parece que está más lozano. Concluyo que el abono hace que el árbol crezca mejor, y me fumo un puro.

Cosa seria.

Quiero ver si un abono es bueno para las plantas.

  • Curvas de supervivencia en un ensayoPero no me puedo fiar de lo que le pase a un único árbol de la finca: lo mismo está a la entrada de la acequia, recibe más agua que el resto y por eso crece mejor… Así que se lo voy a echar a quinientos árboles (tamaño muestral).
  • Y, claro, igual este año hace más sol y mejor temperatura, y por eso crecen más hermosos, independientemente del fertilizante. Así que tendré que observar otro grupo de árboles, en las mismas condiciones que los abonados pero sin abono, a ver qué les pasa (grupo control).
  • Además, puede que este abono haga que los árboles necesiten más agua, aunque yo aún no lo sé. Y si lo doy en la finca que está en la vega del río es muy útil, pero si lo empleo tierra adentro, seco los árboles. De modo que fertilizaré árboles de distintas fincas (representatividad de la muestra).
  • También puede que, por casualidad (o porque soy el fabricante), abone sólo las fincas mejor regadas: ¡normal que luego los árboles crezcan más saludables! ¿No será mejor echar a suertes qué pedazos abono y cuáles no? (aleatorización) Y para asegurar que las diferencias se deben sólo a eso, los árboles tendrán que ser lo más parecidos posible entre sí. Eso también lo consigo asignando al azar (siempre que tenga suficientes elementos, claro).
  • Y, después de discurrir todo esto, yo me pregunto: ¿qué es lo que realmente me importa, que crezcan más lozanos, o que den más peras y más gordas? Hombre, si miro el verdor de los árboles sabré el resultado sin tener que esperar a cosechar… pero lo que a mí me parece frondoso, a otro puede que no. Vale, es más rápido observar la finca y ver su aspecto, que contar las peras que da cada uno y medir su calibre. Pero es que, realmente, la frondosidad o los brotes me la traen bastante floja. Yo quiero saber si usar el abono se traduce en mejores frutos (solidez de las variables de resultado).
  • Por otra parte, es verdad que medir las peras es más objetivo que la apariencia del árbol, pero lo mismo voy con el prejuicio de Es que esta finca nunca ha dado buen fruto o Este abono no puede ser bueno y, sin querer, altero los resultados. ¡No digo hacer trampa, ojo! Digo medir las peras más gordas inconscientemente, o coger las del árbol más flojo. Así que será mejor si la persona que mide los resultados no sabe qué fincas están abonadas o no: así nos aseguramos de que es completamente objetivo (enmascaramiento: simple, doble o triple ciego).
  • Perfecto. Me he devanado los sesos para planificarlo, he abonado, he recogido todo, y tengo aquí un montón de libretas con datos. ¿¿Qué coño hago con ellos?? Estadística. Procesarlos matemáticamente para que me respondan una pregunta: ¿hay diferencias entre los árboles tratados y los que no? Y, si las hay, ¿esas diferencias pueden ser casuales, o son demasiado grandes como para ser pura coincidencia? (significación estadística). Imagínate que lanzo una moneda al aire: yo espero que la mitad salgan caras, y la mitad cruces. Si la lanzo treinta veces, es posible que en diecisiete salga cara. Pero ni de coña deberían salir treinta caras: si ocurre, ¡es que la moneda tiene truco!

Ampliando un poco: estudios médicos.

Esto que parece tan sencillo es algo que se pasan por el forro en estudios que luego los periodistas corren a publicar con titulares sensacionalistas, por eso me pareció útil explicarlo brevemente. Y, dejándome de peras y manzanas, veamos a qué me refiero concretamente en el ámbito de la investigación médica.

  • Tamaño muestral. Es crucial hacer un estudio con el mayor número posible de personas, así nos aseguramos de que nuestras conclusiones serán sólidas (una gaviota no hace verano, y esas cosas). Así pues, sabemos que la simvastatina sirve para bajar el colesterol y reducir la mortalidad gracias a un estudio con más de cuatro mil participantes. Y un ensayo con más de quince mil pacientes nos dijo que añadir el caro clopidogrel a la aspirina no aporta ninguna ventaja.
  • Grupo control. Es que si no hay grupo control, ¡no puedo calcular ninguna diferencia! Tengo que comparar mi fármaco con una sustancia biológicamente inactiva (placebo) o, mejor, con otro fármaco que ya haya demostrado su eficacia. Si no, no tengo forma de justificar que las variaciones que aparecen se deben a mi intervención: puede ser desde un efecto Hawthorne hasta una pura chiripa, pero en cualquier caso, mis resultados sirven para bastante poco.
  • Representatividad de la muestra, estudios multicéntricos. Quiero saber si mi medicamento será útil cuando se lo dé a pacientes con artrosis en general, no si se lo doy a mujeres menopáusicas de 55 a 65 años sin osteoporosis y que no hayan tomado antiinflamatorios en el último mes. Cuantas más condiciones ponga, más boletos tengo para que el estudio no sea extrapolable. Y un estudio que no es aplicable a la práctica clínica, es una perfecta pérdida de tiempo y dinero.
    Obviamente, esto también tiene un contrapartida: ¿y si resulta que el medicamento sólo es útil en mujeres? Para eso está el análisis multivariante; cuando procesemos los resultados veremos que estos varían en función del sexo (o de la edad, o…) y dejaremos una sugerencia a otros investigadores: ¡eh, centraos en este subgrupo!
  • Aleatorización. Si asigno al azar quién recibe el fármaco y quién el placebo, al final tendré dos grupos iguales entre sí. Pero si en el hospital A damos el fármaco y en el B dan el placebo, ¿las diferencias se deben al medicamento, a que el A tiene pacientes más enfermos, o a que en el B se les añaden otros tratamientos?
  • Solidez de las variables de resultado. Todos sabemos que tener alto el azúcar es malo. Pero también sabemos que morirse es aún peor. Por consiguiente, a mí me da igual que un medicamento baje la glucosa: ¡lo que quiero es no morirme por la diabetes! No vaya a ser que el medicamento me baje el azúcar… pero me cause un infarto.
  • Enmascaramiento: simple, doble o triple ciego. Del mismo modo que a los catadores no se les dice qué están probando, en un ensayo no se debe decir si te estoy dando el antiguo y poco eficaz tratamiento, o la chachipastilla que te va a poner bueno en tres días. Entre otras cosas, porque quizás la pastilla no sea tan chachi… pero tú te lo creas y le digas al médico que, huy, ya estás mucho mejor de los temblores. Así que podemos “cegar” al paciente (simple ciego), al paciente y al médico que lo evalúa (doble), o al paciente, al médico, y al matemático que procesa los datos (triple ciego). Así nadie puede tener la tentación de inclinar los resultados.
  • Significación estadística. Significación clínica. Que algo sea “estadísticamente significativo” significa que, si realmente no hubiese diferencias entre las opciones ensayadas, sería la hostia de raro encontrar las diferencias de mi estudio, u otras aún mayores. Digamos que la significación estadística (que se otorga a partir del 5%, un valor elegido por convenio) es como un sello que avala mis resultados: señores, aquí hay una diferencia, y casi seguro que no es por casualidad.
    Pero precaución: significación estadística no implica relevancia clínica. Puede que un antibiótico cure la infección en 8,3 días y otro lo haga en 8,2. A eso le puedes poner las cintas que quieras, pero ya me dirás si vale la pena dar un medicamento nuevo y más caro a cambio de 0,1 días de ingreso menos.

En fin, damas y caballeros, esto es todo (¡como si fuese poco, menuda chapa nos ha soltado el cabrón!). He simplificado con la esperanza de que se entienda mejor: si no ha sido así, debajo de esta línea tenéis los comentarios.

Perpetrado por EC-JPR

octubre 5th, 2010 a las 9:59 am

112 comentarios en 'Estudios científicos: cómo detectar una chapuza'

Suscríbete a los comentarios vía RSS o TrackBack a 'Estudios científicos: cómo detectar una chapuza'.

  1. Excelente!

    Nel

    6 Oct 12 at 18:58

  2. Brillante……..un puto 10!! ;)

    DuiN

    17 Nov 12 at 07:28

  3. Tengo que decirte que gracias, gracias y chapo por tener narices de sacar tan buen artìculo, eres especial y de eso no cabe duda, no veas la pila de artìculo que he leido intentando orientarme, y gracias a tì he podido sacar adelante màs de 3 trabajos. gracias.

    ANA MARIA.

    17 Dic 12 at 11:10

  4. […] – Tamaño muestral (la muestra de un único día no es válida), el grupo control sobre los que compara los datos, la representación… es decir lo que viene siendo el método científico o la mínima comprobación de fuentes. […]

  5. […] ¿Realmente no se han estudiado estos “fármacos“? El problema no es que no se hayan publicado estudios sobre los supuestos efecto beneficiosos de la Homeopatía. Haciendo una rapidísima búsqueda en PubMed encontramos 4.815 resultados. Lo difícil es separar “el grano de la paja“, saber qué estudios están bien hechos y cuales no. […]

  6. […] el rendimiento físico. Como este sector de altamente competitivo hay empresas que utilizan estudios poco rigorosos y rodean sus productos de un marketing agresivo y extremadamente exagerado, creanado un efecto […]

  7. Solo añadir que tan malo es una muestra pequeña como pasarse de muestra, por eso se hace el cálculo del tamaño muestral.

    Si añades mucha gente puedes encontrar diferencias donde realmente no las hay. Es justamente lo que hacen algunos estudios, cuando están al borde de la significancia añaden más gente para que salga estadísticamente significativo.

    Juan

    15 Abr 14 at 19:09

  8. Gracias por la simplicidad, muy útil y compartible

    OAL

    31 Jul 14 at 02:32

  9. Excelente, pero corrige la palabra Himbestigación.

    Domènika

    11 Ene 15 at 13:16

  10. […] un número importante de personas (tamaño muestral) y comparando el tratamiento contra el placebo; además de otros, como grupo control, representatividad de la muestra, aleatorización, experimentos doble o triple […]

  11. El estudio con 4 000 pacientes es multicentro, y financiado por Merck (no es algo malo por si sólo pero me da risa que en otros posts tuyos te quejes de Boiron y no de esto).
    Es estúpido comparar este tipo de estudios que involucran mucho dinero invertido con estudios que no son multi centro. Al no mencionar esto haces creer que para que un estudio clínico sea riguroso necesitas por fuerza tener miles de pacientes.

    El otro estudio con 15 000 pacientes fue aleatorizado, con control placebo pero sin doble ciego. Según tú es “himbeztigazion”.

    Anónimo

    26 Jun 16 at 02:44

Adelante, disfruta de tu minuto de gloria.

Y recuerda: The first rule about Fight Club is you don't talk about Fight Club.