Entradas de archivo para la etiqueta ‘estadística’ tag
Estudios científicos: cómo detectar una chapuza
Muchas veces veréis en blogs científicos que uno nombra un estudio, y poco después llega alguien que se pone estupendo: que si no está aleatorizado, que si el tamaño muestral, el ciego… Algo que suena a chino (o a capullo) si quien lo lee no sabe el proceso que hay detrás de la producción científica. ¿Por qué un estudio es más fiable que otro, por qué sus conclusiones son más creíbles? Veamos la diferencia entre himbestigar e Investigar.
Himbestigación.
Quiero ver si un abono es bueno para las plantas. Cojo un árbol, le echo abono, y al cabo de los días lo observo: ah, pues sí que parece que está más lozano. Concluyo que el abono hace que el árbol crezca mejor, y me fumo un puro.
Cosa seria.
Quiero ver si un abono es bueno para las plantas.
- Pero no me puedo fiar de lo que le pase a un único árbol de la finca: lo mismo está a la entrada de la acequia, recibe más agua que el resto y por eso crece mejor… Así que se lo voy a echar a quinientos árboles (tamaño muestral).
- Y, claro, igual este año hace más sol y mejor temperatura, y por eso crecen más hermosos, independientemente del fertilizante. Así que tendré que observar otro grupo de árboles, en las mismas condiciones que los abonados pero sin abono, a ver qué les pasa (grupo control).
- Además, puede que este abono haga que los árboles necesiten más agua, aunque yo aún no lo sé. Y si lo doy en la finca que está en la vega del río es muy útil, pero si lo empleo tierra adentro, seco los árboles. De modo que fertilizaré árboles de distintas fincas (representatividad de la muestra).
- También puede que, por casualidad (o porque soy el fabricante), abone sólo las fincas mejor regadas: ¡normal que luego los árboles crezcan más saludables! ¿No será mejor echar a suertes qué pedazos abono y cuáles no? (aleatorización) Y para asegurar que las diferencias se deben sólo a eso, los árboles tendrán que ser lo más parecidos posible entre sí. Eso también lo consigo asignando al azar (siempre que tenga suficientes elementos, claro).
- Y, después de discurrir todo esto, yo me pregunto: ¿qué es lo que realmente me importa, que crezcan más lozanos, o que den más peras y más gordas? Hombre, si miro el verdor de los árboles sabré el resultado sin tener que esperar a cosechar… pero lo que a mí me parece frondoso, a otro puede que no. Vale, es más rápido observar la finca y ver su aspecto, que contar las peras que da cada uno y medir su calibre. Pero es que, realmente, la frondosidad o los brotes me la traen bastante floja. Yo quiero saber si usar el abono se traduce en mejores frutos (solidez de las variables de resultado).
- Por otra parte, es verdad que medir las peras es más objetivo que la apariencia del árbol, pero lo mismo voy con el prejuicio de Es que esta finca nunca ha dado buen fruto o Este abono no puede ser bueno y, sin querer, altero los resultados. ¡No digo hacer trampa, ojo! Digo medir las peras más gordas inconscientemente, o coger las del árbol más flojo. Así que será mejor si la persona que mide los resultados no sabe qué fincas están abonadas o no: así nos aseguramos de que es completamente objetivo (enmascaramiento: simple, doble o triple ciego).
- Perfecto. Me he devanado los sesos para planificarlo, he abonado, he recogido todo, y tengo aquí un montón de libretas con datos. ¿¿Qué coño hago con ellos?? Estadística. Procesarlos matemáticamente para que me respondan una pregunta: ¿hay diferencias entre los árboles tratados y los que no? Y, si las hay, ¿esas diferencias pueden ser casuales, o son demasiado grandes como para ser pura coincidencia? (significación estadística). Imagínate que lanzo una moneda al aire: yo espero que la mitad salgan caras, y la mitad cruces. Si la lanzo treinta veces, es posible que en diecisiete salga cara. Pero ni de coña deberían salir treinta caras: si ocurre, ¡es que la moneda tiene truco!
Ampliando un poco: estudios médicos.
Esto que parece tan sencillo es algo que se pasan por el forro en estudios que luego los periodistas corren a publicar con titulares sensacionalistas, por eso me pareció útil explicarlo brevemente. Y, dejándome de peras y manzanas, veamos a qué me refiero concretamente en el ámbito de la investigación médica.
- Tamaño muestral. Es crucial hacer un estudio con el mayor número posible de personas, así nos aseguramos de que nuestras conclusiones serán sólidas (una gaviota no hace verano, y esas cosas). Así pues, sabemos que la simvastatina sirve para bajar el colesterol y reducir la mortalidad gracias a un estudio con más de cuatro mil participantes. Y un ensayo con más de quince mil pacientes nos dijo que añadir el caro clopidogrel a la aspirina no aporta ninguna ventaja.
- Grupo control. Es que si no hay grupo control, ¡no puedo calcular ninguna diferencia! Tengo que comparar mi fármaco con una sustancia biológicamente inactiva (placebo) o, mejor, con otro fármaco que ya haya demostrado su eficacia. Si no, no tengo forma de justificar que las variaciones que aparecen se deben a mi intervención: puede ser desde un efecto Hawthorne hasta una pura chiripa, pero en cualquier caso, mis resultados sirven para bastante poco.
- Representatividad de la muestra, estudios multicéntricos. Quiero saber si mi medicamento será útil cuando se lo dé a pacientes con artrosis en general, no si se lo doy a mujeres menopáusicas de 55 a 65 años sin osteoporosis y que no hayan tomado antiinflamatorios en el último mes. Cuantas más condiciones ponga, más boletos tengo para que el estudio no sea extrapolable. Y un estudio que no es aplicable a la práctica clínica, es una perfecta pérdida de tiempo y dinero.
Obviamente, esto también tiene un contrapartida: ¿y si resulta que el medicamento sólo es útil en mujeres? Para eso está el análisis multivariante; cuando procesemos los resultados veremos que estos varían en función del sexo (o de la edad, o…) y dejaremos una sugerencia a otros investigadores: ¡eh, centraos en este subgrupo! - Aleatorización. Si asigno al azar quién recibe el fármaco y quién el placebo, al final tendré dos grupos iguales entre sí. Pero si en el hospital A damos el fármaco y en el B dan el placebo, ¿las diferencias se deben al medicamento, a que el A tiene pacientes más enfermos, o a que en el B se les añaden otros tratamientos?
- Solidez de las variables de resultado. Todos sabemos que tener alto el azúcar es malo. Pero también sabemos que morirse es aún peor. Por consiguiente, a mí me da igual que un medicamento baje la glucosa: ¡lo que quiero es no morirme por la diabetes! No vaya a ser que el medicamento me baje el azúcar… pero me cause un infarto.
- Enmascaramiento: simple, doble o triple ciego. Del mismo modo que a los catadores no se les dice qué están probando, en un ensayo no se debe decir si te estoy dando el antiguo y poco eficaz tratamiento, o la chachipastilla que te va a poner bueno en tres días. Entre otras cosas, porque quizás la pastilla no sea tan chachi… pero tú te lo creas y le digas al médico que, huy, ya estás mucho mejor de los temblores. Así que podemos «cegar» al paciente (simple ciego), al paciente y al médico que lo evalúa (doble), o al paciente, al médico, y al matemático que procesa los datos (triple ciego). Así nadie puede tener la tentación de inclinar los resultados.
- Significación estadística. Significación clínica. Que algo sea «estadísticamente significativo» significa que, si realmente no hubiese diferencias entre las opciones ensayadas, sería la hostia de raro encontrar las diferencias de mi estudio, u otras aún mayores. Digamos que la significación estadística (que se otorga a partir del 5%, un valor elegido por convenio) es como un sello que avala mis resultados: señores, aquí hay una diferencia, y casi seguro que no es por casualidad.
Pero precaución: significación estadística no implica relevancia clínica. Puede que un antibiótico cure la infección en 8,3 días y otro lo haga en 8,2. A eso le puedes poner las cintas que quieras, pero ya me dirás si vale la pena dar un medicamento nuevo y más caro a cambio de 0,1 días de ingreso menos.
En fin, damas y caballeros, esto es todo (¡como si fuese poco, menuda chapa nos ha soltado el cabrón!). He simplificado con la esperanza de que se entienda mejor: si no ha sido así, debajo de esta línea tenéis los comentarios.
Cómo detectar un ictus (II)
Evaluación del ACV: Cincinnati Prehospital Stroke Scale (CPSS)
Ayer destripamos algunos de los errores que había en ese famoso powerpoint. Hoy nos olvidaremos de cuestiones semánticas e iremos a lo que realmente importa de la presentación: ¿realmente es útil el método propuesto para diagnosticar un ACV? El texto pretende detectar un infarto cerebral mediante la exploración de tres ítems: sonreír, levantar ambos brazos y decir una frase. Si cualquiera de estos elementos falla, se entiende que el paciente tiene un ACV. Y lo que es más peligroso: si son normales se asume (indebidamente) que el paciente está sano. Pues bien, como os podréis imaginar, «son todos los que detecta, pero no detecta todos los que son»: sólo con esos tres signos se escapan muchas de las manifestaciones de un ACV.
Pero lo más gracioso es que el método explicado en esta presentación no es una mamarrachada que se les haya ocurrido a cuatro amiguetes. Se trata de la Cincinnati Prehospital Stroke Scale, un score que, usado por legos, pretende servir de herramienta de despistaje de ACV’s en un ambiente extrahospitalario.
Coño, o sea que la cosa es seria, o al menos lo intenta. Vale: vayamos a PubMed a ver cuánto se ha escrito sobre el tema. Buscamos cincinnati prehospital stroke scale, y obtenemos… ¡siete artículos en nueve años! Perfecto: creo que acaba de perder la poca apariencia de rigor que pudiera tener. Echamos un vistazo a los abstract y vemos que, de estos siete, en uno la CPSS tan sólo la nombran de refilón, y otros dos se limitan a verificar si una persona de la calle sería capaz de emplear la escala: ¿a que no adivináis el resultado? “Untrained adults can accurately relay CPSS instructions when directed over the phone”. Pos fale, pos fueno.
El artículo que nos interesa es el que aparece en penúltimo lugar (el segundo en ser publicado): Cincinnati Prehospital Stroke Scale: reproducibility and validity. Ann Emerg Med. 1999 Apr;33(4):373-8. Aquí hay dos partes distintas: reproducibilidad (¿cualquiera podría emplear la CPSS?) y validación (¿sirve la CPSS para reconocer el ACV?). A la primera pregunta, el resultado es contundente: un ATA es capaz de emplear la CPSS tan bien como un médico.
No obstante, veamos ahora si realmente es efectiva la CPSS. Copio una frase: “Observation by the physician of an abnormality in any 1 of the 3 stroke scale items had a sensitivity of 66% (…) in identifying a stroke patient.” Si sabéis estadística, os habréis dado cuenta que una s=0,66 es sólo ligeramente superior al valor correspondiente al azar (s=0,5): o sea, esta prueba
Para ser honrado añadiré que esa sensibilidad aumenta al 88% en los ACV de la circulación anterior: “CPSS is more effective in detecting anterior circulation strokes as opposed to those limited to the posterior system. Of note, approximately 70% of strokes occur in the anterior circulation”. En cualquier caso, la sensibilidad global sigue siendo bastante modesta.
Y, por si nos quedaba alguna duda, podemos recurrir a este otro artículo: Accuracy of stroke recognition by emergency medical dispatchers and paramedics–San Diego experience. Prehosp Emerg Care. 2008 Jul-Sep;12(3):307-13. Dejando de lado la aparente debilidad de su diseño, voy directamente a los resultados. Adivinad la sensibilidad de la CPSS que obtienen. ¡Un 44%! El resultado es tan malo, que significa que si la prueba sale normal, ¡tienes más probabilidades de tener un ACV!! Pero no sólo es eso: es que también calculan el Valor Predictivo Positivo (o sea, la probabilidad de tener un ACV cuando el resultado del test es positivo), y es del 40%. Es decir: de cada 10 personas que según el CPSS presentan un ACV, sólo cuatro lo tendrán realmente.
Terminando: ¿en qué se traduce todo este barullo de datos estadísticos? Pues en que, objetivamente, es una prueba absolutamente inútil para el despistaje extrahospitalario: tiene muchos falsos positivos (lo cual supone un problema relativo), y un gran porcentaje de falsos negativos (también conocidos como «ese error que no te puedes permitir»). Es una herramienta fútil, que puede crear una sensación de falsa confianza altamente contraproducente.
¿Conclusión? El email es un bulo con todas las letras.