Mostrando las entradas con la etiqueta estadistica. Mostrar todas las entradas
Mostrando las entradas con la etiqueta estadistica. Mostrar todas las entradas

10 de marzo de 2022

¿Todas las vacunas contra el covid son iguales?

Establecer si todas las vacunas contra el covid son iguales en su efectividad es un poco más dificil que aceptar el promedio de eficacia que los medios masivos de comunicación nos han contado. Para ello se necesitan algunos criterios iniciales básicos, tales como:

1. Establecer que se va a medir como medida de efectividad: la medida que se ha utilizado a partir de la difusión en la prensa, fue la de la eficacia que mostró en sus ensayos clínicos iniciales para disminuir la infección. Pero la comparación también debe realizarse para otros efectos, tales como la eficacia para prevenir la internación en UCI o la mortalidad.

2. Determinar cuando: esto es relevante por dos razones, la primera es porque ya sabemos que algunos efectos (como prevenir la infección) se pueden perder luego de algunos meses por la disminución de los anticuerpos neutralizantes. Por ello en varios estudios se suele reportar la eficacia cuando la última dosis fue dada más alla de 5 meses o durante los últimos 5 meses. La otra razón es que cada variante del virus ha mostrado un escape inmunológico distinto, por lo que no es lo mismo comparar el invierno de 2021 (donde la variante gama fue predominante) con el verano 2022, donde ha predominado la variante ómicron. Al menos esto es cierto para Argentina.

3. Dónde se va a medir: sin duda la eficacia de las vacunas no es igual según las edades, o la competencia inmunológica de quienes las reciben. Cuando comparamos poblaciones no resulta distinto. No es lo mismo comparar Estados Unidos (con mucha población con comorbilidades como la obesidad y la hipertensión) con la mayoría de los países europeos. Y aun en países europeos, debe tenerse en cuenta que están altamente "envejecidos", que así se los llama cuando la población mayor de 65 años supera el 20% de la población general. En Argentina una pirámide poblacional envejecida es posible ver en la Ciudad de Buenos Aires. Por ello, a fines de comparar la eficacia, resulta más atractivo encontrar estudios donde distintas vacunas hayan sido aplicadas a una misma población. Aunque esto ha sucedido en muchos países no todos los países han publicado sus experiencias.

3. Con qué parametros: este es un tema estadístico, pero no porque sea técnico deja de ser menor. Un estudio en Hungría fue presentado por el Instituto Gamaleya como prueba de la superioridad de Sputnik V frente a Pfizer. La vacuna Sputnik V redujo en un 85.7% las infecciones frente al 83.3% de Pfizer. Sin duda, aunque la diferencia sea de apenas un 2.4%, un número es mayor que otro. ¿Pero así se mide la efectividad en los estudios? La respuesta es NO.

En todos los estudios se reportan otros números que conocemos como intervalo de confianza (al 95%). Este intervalo nos dice que cualquier valor que caiga dentro del rango que el estudio reporta, puede ser cierto en un 95% de las veces. 

En el caso de Sputnik V el intervalo de confianza del 95% , para prevenir la infección, varia entre el 84.4% y el 86.9% . O sea que la eficacia real osciló entre esos dos valores en el 95% de las veces. Al menos para ese momento, para ese lugar y para el efecto que se está midiendo. Un valor de 85% también sería cierto, y otro valor del 86% también. Pero un valor tan alto como el 87% o tan bajo como el 83%, ambos por fuera del intervalo de confianza, solo aparecen en menos del 5% de los casos.

En el caso de Pfizer el intervalo de confianza oscila entre el 82.6% y el 83.9%. Y cuando queremos comparar con otros tratamientos (en este caso vacunas), diremos que son diferentes si el intervalo de confianza de una no se superpone con el otro intervalo. Esto es la forma en que se deben leer, y no otra.

Veamos un estudio que cumple con algunas de las características que pretendemos:

A mitad del año 2021, comenzaron a aparecer los estudios de la "vida real", o estudios de efectividad.  Un estudio relevante es el de Hungria, publicado en Nature,  observó lo sucedido entre enero y junio de 2021 a 3.740.066 personas que recibieron dos dosis de vacunas de Pfizer, Sputnik-V, AstraZeneca, Sinopharm o Moderna. Aunque durante esos meses en Hungría la variante dominante era la alfa,  nos sirve de ejemplo para comparar la efectividad de distintas vacunas en la vida real.

La efectividad ajustada contra la infección varió entre el 68,7% y el 88,7. 

La efectividad para prevenir la mortalidad varió entre el 87,8% y el 97,5%. Con una efectividad del 100% en personas de 16 a 44 años para todas las vacunas. Lo que esto último quiere decir que para ese período no hubo muertes entre los vacunados en ese grupo de edad.

Después del ajuste por edad, sexo y día calendario, la efectividad estimada contra la infección por SARS-CoV-2 , para cada una de las vacunas administradas, fue la siguiente: 

Pfizer-BioNTech: 83,3% (IC del 95%: 82,6–83,9%); 

Moderna: 88,7% (IC del 95%: 86,6–90,4%); 

Sputnik-V 85,7% (IC del 95%: 84,3-86,9%); 

AstraZeneca: 71,5% (IC del 95%: 69,2–73,6%); 

Sinopharm: 68,7% (IC 95% 67,2-70,1%) 

Mientras que la efectividad para disminuir la mortalidad reportó esto:

Pfizer-BionTech: 90.6% (IC del 95%: 89.4-91.5%);

Moderna: 93.6% (IC del 95%: 90.5-95.7%);

Sputnik- V: 97.5% (IC del 95%: 95.6-98.6%);

AstraZeneca: 88.3% (IC del 95%: 78.7-93.5%)

Sinopharm: 87.8% (IC del 95%: 86.1-89.4%)

Seguramente volvió a mirar el primer número que es el promedio, pero ya habíamos dicho que lo que importa es el rango (o sea el intervalo de confianza). Prestando atención al intervalo de confianza se puede decir que la efectividad para disminuir la infección fue igual para Moderna y Sputnik-V, y apenas menor para Pfizer, y luego las vacunas de AstraZeneca y Sinopharm, sin diferencias entre ellas.

Recordemos que el estudio fue terminado en Junio de 2021, en ese entonces todavía no era relevante la disminución de los anticuerpos y las vacunas parecian funcionar igual para la variante alfa. Algo que cambiaría con delta y más aun con ómicron, por lo que estos datos son ciertos, pero solo para esa variante alfa y para el tiempo que fue estudiado. Pero fueron relevantes para demostrar que aunque Sputnik-V era apenas mejor que Pfizer, su efectividad era tan buena como la vacuna de Moderna. Pero también es relevante para decir que el desempeño de las vacunas, todas las vacunas utilizadas, era muy alto. Frente a la evasión inmune que hay para disminuir las infecciones frente a la variante ómicron todos estos datos ciertamente han perdido vigencia.

Pero analizando los datos de efectividad para la mortalidad esa diferencia se diluye y al menos 4 vacunas (Sinopharm, Pfizer, Moderna y AstraZeneca) que prácticamente solapan sus intervalos de confianza, por lo que puede decirse que son iguales, y Sputnik-V vuelve a sobresalir y solo solapa su rango de efectividad la vacuna de Moderna.

Si usted es un ser "anumérico", o dicho de otro modo con dificultades para interpretar tantos números no se preocupe: usted es casi normal. Nadie en su sano juicio puede interpretar esos números sin recurrir a un gráfico, que los autores del estudio omitieron. Pero usted puede hacerlo sobre un papel y verá que los intervalos se solapan. Yo lo hice y le comparto el vergonzoso gráfico que hice 👉

Cuando uno lee estos datos o cualquiera siempre es relevante la forma en que son "enmarcados". Uno puede resaltar que la vacuna Sputnik-V es la más efectiva (como presentó el Instituto Gamaleya a este estudio), pero también puede decir que fue tan buena como la vacuna de Moderna, o también decir que las vacunas ARNm no parecen brindar mayor ventaja que las tradicionales.

Pero estos números esconden otras cosas: como que en Hungría, las vacunas de Pfizer y Moderna fueron las opciones preferidas para los pacientes con enfermedades crónicas como diabetes tipo 2 o enfermedades cardiovasculares, que pueden disminuir la eficacia de la vacuna.

Este es uno de los primeros estudios que examinar la efectividad individual de la vacuna Moderna en un entorno del mundo real entre 222,892 personas, de las cuales el 36% tenía 65 años o más. La efectividad general fue del 88,7% contra la infección por SARS-CoV-2 y del 93,6% contra la muerte relacionada con Covid-19 al menos una semana después de la segunda dosis. Los resultados confirman la altísima eficacia de la vacuna de ARNm de Moderna en ensayos clínicos y en entornos del mundo real.

Resalta también la alta efectividad de la vacuna Sinopharm, de la cual se tienen escasos o nulos reportes en otros países. Aunque Machia y Ferrante encontraron en nuestro medio, en ocasión de valorar vacunas alternativas en lugar de la segunda dosis de Sputnik-V en Argentina, que la vacuna de Sinopharm lograba menos antigenicidad que otras que estaban disponibles (AstraZeneca, 2da dosis de Sputnik-V y Moderna). También son escasos los de otra vacuna China (SinoVac) cuyo análisis de efictividad fue más que relevante en un estudio sobre 10 millones de personas en Chile (Jara et al).

Aun cuando el estudio reune a vacunados y no vacunados en un mismo país y con una misma variante puede tener limitaciones importantes. En primer lugar, el período de estudio fue diferente para cada vacuna, por lo que el análisis asume implícitamente que el efecto de cada covariable, incluida la vacunación, es constante durante el seguimiento. En segundo lugar, a pesar de los ajustes por edad, sexo y día calendario, no se incluyeron otras covariables importantes como las comorbilidades, los medicamentos o el estado socioeconómico.

Unos meses después de finalizado el estudio, en noviembre de 2021, Hungría tuvo una ola con la variante delta y en febrero de 2022 otra mayor con la variante ómicron.. Por datos de otros países sabemos que esto erosionó en mucho la efectividad de las vacunas para disminuir la infección.

En febrero de 2022 otro estudio fue publicado sobre Hungría (variantes alfa y delta), donde los autores señalan que la disminución de la efectividad comenzó a caer para todas las vacunas, en especial para AstraZeneca, Sinopharm y Sputnik-V. Por lo que a partir de mediados de agosto de 2021 comenzó a aplicarse una dosis adicional pero solo con vacunas ARNm.


Este último estudio es interesante porque afirma que se recuperó la efectividad para la infección, pero no aportó los números discriminados para cada uno de los efectos con sus respectivos intervalos de confianza. Por los gráficos es posible observar que los intervalos de confianza prácticamente todos se superponen, por lo que pudieran valer las mismas consideraciones que antes. Salvo que esta vez se trata de esquemas de vacunación mixtos o heterólogos.

Argentina también utiliza varias vacunas, aunque recién en 2022 ha agregado masivamente las vacunas ARNm. Las preferencias por marcas son comunes entre los medicamentos habituales en las prescripciones médicas, aunque en Argentina desde el 2002 se puede prescribir por el nombre genérico. Probablemente por que las vacunas son mayoritariamente provistas por el estado ni los propios médicos conocemos, en general, cual es el fabricante para el resto de las vacunas que se están dando en el país. Seguramente la situación de crisis por el virus y la exposición mediática, aunque no se debe descartar  bastante de guerra comercial ha influido en el ánimo de los médicos y la gente en las preferencias por una u otra vacuna. En toda América Latina se instaló entre muchos que "Pfizer es la mejor vacuna", algo que no pudo ser comprobado en este estudio, como tampoco se puede comprobar que Sputnik-V lo sea. Lo que no se debe olvidar es que ambos han tenido problemas de provisión de sus vacunas en la primera mitad del 2021, lo que dió lugar a que muchos países usaran esquemas heterólogos.

Hoy países como Argentina han comenzado a aplicar sus dosis adicionales y de refuerzo con vacunas ARNm, por lo que esta información sería solo relevante para aquellos que aun no hubieran recibido el esquema primario, claro está siempre que pudieran ser capaces de elegir, algo que ha sucedido en varios lugares pero por decisión de autoridades locales. 

Más estudios serían necesarios para ver que ha sucedido durante la última ola con la variante ómicron. Aunque estudios de otros países ya nos adelantan que la efectividad para disminuir la infección cayó para todas las vacunas pero se preserva todavía una alta efectividad para disminuir los casos graves y la mortalidad. Pero en este último efecto la diferencia entre las vacunas no parece mostrar diferencias marcadas ni entre tecnologías usadas ni entre fabricante. 

El monitoreo que muchos países hacen sobre la efectividad en el mundo real sigue siendo necesario para establecer los tiempos de refuerzo, donde la permanencia de la inmunidad en el tiempo será otra de las variables a destacar a la hora de comparar la perfomance de las diferentes vacunas.

1. Vokó Z, Kiss Z, Surján G, Surján O, Barcza Z, Pályi B, Formanek-Balku E, Molnár GA, Herczeg R, Gyenesei A, Miseta A, Kollár L, Wittmann I, Müller C, Kásler M. Nationwide effectiveness of five SARS-CoV-2 vaccines in Hungary-the HUN-VE study. Clin Microbiol Infect. 2021 Nov 25:S1198-743X(21)00639-X. doi: 10.1016/j.cmi.2021.11.011. Epub ahead of print. PMID: 34838783; PMCID: PMC8612758.
 
2. Real-time monitoring of the effectiveness of six COVID-19 vaccines in Hungary in 2021 using the screening method. Krisztina J. Horvath, Tamas Ferenci, Annamaria Ferenczi, Gergo Turi, Gergely Rost, Beatrix Oroszi.
Mahase E. Covid-19: Antibody boost after third dose varies greatly by vaccine, study finds doi:10.1136/bmj.n3011 [Texto completo]
 
4.  Vacunación heteróloga en CABA tras primer dosis de Sptnik V, mayor con vacuna de Moderna y menor con Sinopharm, pero igual con Sputnik y AZ.  Macchia A, Ferrante D, Bouzas MB, et al. Immunogenicity induced by the use of alternative vaccine platforms to deal with vaccine shortages in a low- to middle-income country: Results of two randomized clinical trials. Lancet Reg Health Am. 2022 May;9:100196. doi: 10.1016/j.lana.2022.100196
 
5.  Efectividad de Coronavac en una cohorte de 10 millones de personas en Chile: Jara A, Undurraga EA, González C, Paredes F, Fontecilla T, Jara G, Pizarro A, Acevedo J, Leo K, Leon F, Sans C, Leighton P, Suárez P, García-Escorza H, Araos R. Effectiveness of an Inactivated SARS-CoV-2 Vaccine in Chile. N Engl J Med. 2021 Sep 2;385(10):875-884. doi: 10.1056/NEJMoa2107715. Epub 2021 Jul 7. PMID: 34233097; PMCID: PMC8279092. [Pubmed]
 
6. Andrews N, Stowe J, Kirsebom F, Toffa S, Rickeard T, Gallagher E, Gower C, Kall M, Groves N, O'Connell AM, Simons D, Blomquist PB, Zaidi A, Nash S, Iwani Binti Abdul Aziz N, Thelwall S, Dabrera G, Myers R, Amirthalingam G, Gharbia S, Barrett JC, Elson R, Ladhani SN, Ferguson N, Zambon M, Campbell CNJ, Brown K, Hopkins S, Chand M, Ramsay M, Lopez Bernal J. Covid-19 Vaccine Effectiveness against the Omicron (B.1.1.529) Variant. N Engl J Med. 2022 Mar 2. doi: 10.1056/NEJMoa2119451. Epub ahead of print. PMID: 35249272.
 
7.  Rotshild, V., Hirsh-Raccah, B., Miskin, I. et al. Comparing the clinical efficacy of COVID-19 vaccines: a systematic review and network meta-analysis. Sci Rep 11, 22777 (2021). https://doi.org/10.1038/s41598-021-02321-z

8. Se identificaron siete estudios con 1 366 700 participantes (689 967 participantes en el grupo vacunado y 676 733 participantes en el grupo no vacunado). Hubo 292 incidentes significativos (56 en el grupo vacunado y 236 en el grupo no vacunado) con una razón de riesgo de 0,12 y un intervalo de confianza del 95% de 0,040-0,363. En comparación con ninguna vacuna, todos los tipos de vacunas pueden prevenir eficazmente la tasa de enfermedad grave. YZ, Kuan CC. Vaccination to reduce severe COVID-19 and mortality in COVID-19 patients: a systematic review and meta-analysis. Eur Rev Med Pharmacol Sci. 2022 Mar;26(5):1770-1776. doi: 10.26355/eurrev_202203_28248. PMID: 35302230.


15 de febrero de 2022

Efectividad, internación y paradoja de Simpson

Explicar los datos que leemos es sin duda una habilidad distinta a la entenderlos. No había encontrado la forma de explicar algunos datos hasta que me encontré con unos gráficos de Salvador Peiró, un valenciano, quien también se dedica a la farmacoepidemiología. Por lo que supongo que los dibujó por las mismas razones que yo lo explico ahora, para que ustedes puedan explicarselos a otros y también a sus pacientes.

No es raro encontrar gráficos como este. 👉

Se trata de una sala de cuidados intensivos donde hay 50 personas no vacunadas (en rojo) y 40 vacunadas (en verde). Gráficos de este tipo suelen acompañarse de un aviso como que el "44.4% de las internadas estaban vacunadas" o bien que "el 55.6% de las internadas en cuidados intensivos no estaban vacunadas", que es lo mismo. Una lectura simple nos dice que las no vacunadas son la mayoría en la sala de cuidados intensivos. Este tipo de información es muy requerido por todos, con la esperanza de que dé alguna información sobre la efectividad de las vacunas. Pero en realidad un gráfico así nada nos dice de la efectividad de una vacuna para prevenir este tipo de internaciones. Aun más, a partir de la llegada de la variante ómicron se incrementó la cantidad de gente que se internaba por una causa y se encuentra que también está infectada por covid. De este modo en algunos países como Escocia o Dinamarca las internaciones se dividen en pacientes internados "por covid" y pacientes con "covid". Pero sigamos:

Estas cifras de hospitalización, sin ser falsos, distorsionan la realidad y afectan a la racionalidad de nuestro juicio sobre la efectividad de las vacunas frente a la covid. Tienen dos grandes problemas: la información que ofrecen está mal “enmarcada” y la paradoja de Simpson.

El efecto marco (framework effect) es un sesgo cognitivo que modifica nuestras preferencias, haciéndolas menos racionales, según la forma en que nos es presentada. ("enmarcada") la información. No soy un experto en comunicación, pero supongo que es algo que siempre deben tener en cuenta en los grandes medios de comunicación. El concepto fue introducido por los premios de Nobel de Economía Kahneman y Tversky en 1981 en un artículo que publicaron en Science.

Muy simplificadamente, a los participantes se les dio a elegir entre un hipotético tratamiento para 600 pacientes con una grave enfermedad que salvaría a 200 de ellos, frente a otro hipotético tratamiento con el que fallecerían 400. Aunque ambas alternativas son idénticas (en ambas 200 personas sobreviven y 400 fallecen), la mayoría de los participantes prefirieron el tratamiento que salvaba vidas, porque fue “enmarcado” o connotado positivamente.

Sin ser tan académicos creo que todos sabemos que la reacción de otros va a cambiar según la forma en que le presentemos la información.  En el ejemplo gráfico uno puede decir que las no vacunadas se internan más que las vacunadas, pero también puede decir que un 44.4% de las internadas estaban vacunadas. Todo depende si lo quiero connotar positivamente. Pero en epidemiología sabemos que si no consideramos la procedencia de estas internaciones de poco nos vale.

Sigamos con el ejemplo: nuestra sala de UCI tiene 90 internaciones diarias, 40 en vacunadas (40*100/90 = 44,4 % de las internadas están vacunadas) y 50 en no vacunadas (50*100/90 = 55,6 % de las internadas no están vacunadas). Ahora sumemos otro dato, que es la vacunación en la misma región donde está nuestra sala de cuidados intensivos, ya que esta sala da cobertura a 5.5 millones de personas mayores de 12 años en nuestra comarca.

Si quisieramos tener una incidencia de las internadas en UCI sería de (90*100.000/5.500.000 =) 1,6 ingresadas por 100.000 personas mayores de 12 años/dia. Pero esta cifra conjunta de vacunadas y no vacunadas, que a veces se reporta en las estadísticas oficiales, no ofrece mucha información sobre el riesgo de ingreso en UCI de las vacunadas y las no vacunadas.

Agreguemos más datos. Asumamos que el 91 % de la población mayor de 12 años (5.5*0,91=5 millones) está vacunada, mientras que el 9 % restante (500.000) no lo está. Con estados datos ya podemos ofrecer una información mejor enmarcada (Figura 2): Los 500.000 no vacunados han generado 50 ingresos/semana en UCI, con una tasa de (50*100.000/500.000) 10 ingresos por 100.000 no vacunados a la semana. Los 5 millones de vacunados han generado 40 internaciones, con una tasa de (40*100.000/5.000.000) de 0,8 internaciones en UCI por 100.000 vacunados. 

Sobre estas dos tasas poblacionales (en vacunadas y no vacunadas) yo puedo calcular un riesgo (en epidemiología le decimos riesgo a una probabilidad). En este caso será 10 / 0.8 = 12.5 veces más probable que una no vacunada se interne en comparación con los que sí se vacunaron. Esto es lo mismo a lo que se presenta en los estudios de caso control donde se expresa la probabilidad con un odd ( o chance), en este caso el "odd ratio" será el calculado 12.5.

El primero que hizo cálculos de este tipo fue un médico llamado John Snow, alrededor de 1848 en Londres, que tras analizar algunas bombas de agua concluyó que la causa del cólera estaba en el agua que tomaban las personas que vivian en Londres. No tuvo mucho éxito en su época, porque lo descubrió antes que los humanos supieramos las bacterias existian.

Estas tasas de incidencia poblacionales y separadas por grupos ya informan a vacunadas y a no vacunadas de su diferencia en riesgo de internarse en la UCI diariamente: 12,5 veces más en no vacunadas (que es lo mismo que decir que la probabilidad de internarse es de un 92.5% menor en vacunadas*) y ofrecen una información mejor “enmarcada” para la toma de decisiones que traslada confusamente la idea de que estos riesgos se repartían casi mitad y mitad. Estos datos, tasas poblacionales y riesgos relativos (y no la proporción de personas ingresadas), son los que importan para informar las preferencias racionales sobre la vacunación.

Recordemos que, al extremo, si el 100 % de los habitantes de la comarca estuvieran vacunadas, todos los ingresos en UCI procederían de esta población. La gran diferencia estaría en que los 500.000 previamente no vacunadas habrían producido solo 4 ingresos/semana (0,8/100.000; 12,5 veces menos que los 50 del ejemplo) y en la UCI solo habrían ingresado esa semana un total de 44 personas en lugar de 90 (Figura 3).

También podemos inferir que aunque las no vacunadas sean pocas en este ejemplo (el 9%) todavía el impacto en las internaciones graves puede ser grande. Y la idea es que las camas estén disponibles para otros problemas de salud, o mejor aun que estén disponibles y que no se ocupen. 

Factores "confundidores" y paradoja de Simpson

El efecto "marco" no es el único problema que existe en ciencia a la hora de interpretar resultados. También existe una importante confusión (efectos "confundidores") por la mayor incidencia de covid grave en personas mayores de 65 años en relación a las más jóvenes y el hecho de que estas personas se hayan vacunado en mayor proporción que las de menor edad. 

Dicho de otro modo: la edad es un "riesgo" (que en epidemiología quiere decir que incrementa la probabilidad) de padecer covid grave pero también de que se vacunen más.

En 1951, un matemático llamado Edward H. Simpson (la H es de Hugh no de Homero), describió una paradoja estadística que nos permite entender porque, en apareciencia, a veces las estadísticas parecen mostrar en internación más pacientes vacunados que no vacunados. Es importante que lo sepa, porque todas las estadísticas de los grupos antivacunas se basan en utilizar los datos de esta forma. Y es la forma en que en Argentina, el homéopata Eduardo Yahbes interpretó los datos del Ministerio de Salud en Agosto de 2021, concluyendo que el 90% de las muertes en Argentina ocurrían en vacunados. Poco importó que la afirmación fuera falsa, porque fue rápidamente difundida y aun todavía se cita como argumento. No siempre se trata de datos, sino también de cual es el relato que alguna gente quiere para reafirmar sus ideas preconcebidas.

La paradoja de Simpson es un fenómeno que sucede cuando en la población general existe una tendencia que desaparece o se revierte cuando se estratifica el análisis estadístico por grupos.

En el ejemplo de la figura, al estratificar por edad se invierte la tendencia y a mayor vacunación menor tasa de ingresos por covid dentro de cada grupo de edad. En otras palabras: las vacunadas tienen una mayor incidencia de casos graves no por ser vacunadas, sino por su mayor edad; pero dentro de cada grupo de edad las vacunadas tienen menor incidencia de casos graves que las no vacunadas.

Figura 4. Paradoja de Simpson: a más vacunadas más ingresos en población total, pero menos cuando se estratifica por edad. Cada cama representa 10 ingresos; cada figura humana representa 25.000 habitantes.

 

 

Lo que la paradoja de Simpson enseña a la hora de informar las preferencias sobre vacunación es que, si no se estratifica por edad, los casos graves en vacunadas estarán sobrerrepresentados porque hay una mayor proporción de personas mayores vacunadas y, a su vez, las personas mayores tienen un riesgo aumentado de desarrollar covid grave.

Como informar sobre la efectividad ahora

El hecho de que la mayor parte de la población esté vacunada obliga a cambiar la estrategia de comunicación. Ya que saber cuantos pacientes vacunados o no están internados no tiene mucho valor. La mejor manera es sin duda mostrando los gráficos por edades, en epidemiología llamamos a esto "estratificarlos". De esta manera se pueden "enmarcar" más adecuadamente, e incrementar las medidas no farmacológicas acorde al avance de la epidemia. Salvador Peiró con datos del CDC lo muestra en una gráfica que el hizo, y que le muestro aquí: 

Se ve claramente que las tasas de internación en vacunadas (color verde) está muy por debajo de las tasas de internación en no vacunadas (en azul). Muchos países pueden mostrar esto, desafortunadamente no es el caso de Argentina. Pero ayuda a interpretar otras estadísticas como los casos o la mortalidad también. 

Seguramente esto no cambia la disposición de nadie para vacunarse o no, pero si puede ayudar a que podamos interpretar mejor los gráficos y a pedir gráficos que tengan más información. Y sobre todo interpretarlos por uno mismo, ya que a diario veo gráficos que son "malinterpretados" con poca ciencia y menos conciencia.

Los datos constituyen una parte del conocimiento, la otra es la forma en que esos datos son enmarcadas, eso es el relato que se construye a partir de estos datos. Pero la mente no funciona así. En general se construye un relato y se realzan los datos que coinciden con nuestra forma de ver la realidad. En ciencia se piensa igual, pero si se ejerce honestamente existe la posibilidad de cambiar de opinión ante los nuevos datos. En el caso específico de vacunarse o no también inciden otras cuestiones, como el riesgo. Aun así los humanos no siempre valoramos los riesgos o probabilidades adecuadamente, si así fuera seguramente la lotería no sería un impuesto a la ignorancia.

Artículos relacionados

 * Se puede transformar un odd en probabilidad mediante la fórmula Odd/=Odds + 1, en este caso seria 12.5 / 12.5 + 1 = 0.925, que es lo mismo que decir 92.5%.

21 de marzo de 2021

La paradoja de Simpson

La que sigue es una historia sobre el mal uso de la matemática. Una aventura peligrosa que terminó en un juicio por discriminación de género que –en rigor– cualquier matemático podría haber detectado y evitado, si es que hubiera formado parte del estudio jurídico que asesoró a la joven que se sintió damnificada.

Sucedió hace un poco más de 40 años. Para ser más precisos, fue en el año 1973 e involucró a la Universidad de California, en Berkeley. Allí es donde se encuentra ubicada una de las universidades más importantes del mundo y, sobre todo, uno de los departamentos de matemática más importantes del mundo.

Una joven estudiante intentó ingresar en la universidad, pero no pudo hacerlo. Es decir, no pudo superar lo que aquí sería equivalente a un examen de ingreso. Ella, seguramente asesorada por un grupo de abogados, creyó interpretar que en Berkeley, en ese momento, había una práctica –sutil por cierto– para discriminar hombres y mujeres, algo así como una segregación por género.

Como creían tener las pruebas suficientes, iniciaron un juicio que conmovió no sólo a la universidad propiamente dicha, sino a toda la comunidad local. No lo escribí aún, pero Berkeley es un barrio que queda a unos 20 kilómetros al nordeste de San Francisco, en California. Si hubiera sido en alguna facultad de un Estado en donde un caso de estas características podría ser más esperable (piense en Mississippi, Alabama, o incluso Texas), quizás habría tenido un impacto distinto, pero… ¿en San Francisco?

Lo que sigue entonces es una breve descripción del error que se cometió o que cometieron los abogados que representaron a la joven. Los datos parecían mostrar que personas del sexo masculino eran aceptadas para ingresar con un porcentaje mayor que las mujeres, o en todo caso, con un porcentaje mayor que el simple azar.

Voy a cambiar los datos originales para hacer los cálculos más sencillos, pero nada va a cambiar en términos conceptuales. Le pido que me siga, porque es un problema que aparece con mucha más frecuencia de la que uno cree, tanto que el error de interpretación que genera recibe un nombre: “La Paradoja de Simpson”.

En general, a una universidad la conforman distintas facultades en donde se estudian distintas disciplinas. Por ejemplo, la Universidad de Buenos Aires alberga, entre otras, a las facultades de Ciencias Exactas, Medicina, Arquitectura, Ingeniería, etcétera.

Para hacer las cuentas más fáciles, voy a suponer que en Berkeley había nada más que dos facultades, medicina y kinesiología, y voy a suponer que ese año se presentaron a rendir los exámenes de admisión 2.200 personas divididos por mitades: 1100 personas de cada sexo.

Luego de las pruebas pertinentes, ingresaron en total 930 hombres y 390 mujeres.

Si uno mira estos datos, la conclusión inmediata que saca es la siguiente:

930/1100 = 84,54% ingresantes hombres

vs.

390/1100 = 35,45% ingresantes mujeres

Si a uno le presentan estos números, parece que no hay mucho para discutir: salvo que haya algún argumento desconocido, parece un caso evidente de discriminación por sexo o favoritismo por género. Más aún: cuando uno revisa años anteriores, este caso se repetía en forma sistemática.

Es por eso que con estos datos, los letrados de la joven creyeron que tenían motivos suficientes para iniciar el juicio. Y lo hicieron. Ahora, acompáñeme a revisar con un poco más de cuidado los detalles que faltan.

Investiguemos primero la distribución por facultad. Es decir, qué proporción de hombres y de mujeres se inscribió, tanto en medicina como en kinesiología.

Una observación: no deje que los números la/lo confundan. Elegí a propósito números fáciles para poder seguir el ejemplo. En definitiva, no se trata de revisar el juicio, que está saldado hace 41 años, sino de entender dónde está la paradoja.

Sigo: de las 1.100 mujeres aspirantes en total, 1.000 hicieron la admisión en medicina y solamente 100 se anotaron en kinesiología.

La proporción se revirtió en el caso de los hombres: de los 1100 aspirantes-hombres que se presentaron en la universidad, 1.000 se inscribieron en kinesiología y solamente 100 en medicina.

O sea, exactamente al revés que las mujeres.

Ahora veamos si hubo discriminación por facultad. Es decir, supongo que no se le escapa a usted que –en general– los exámenes de ingreso a la facultad de medicina son más difíciles que los que ofrece kinesiología, o bien las vacantes que tiene cada una son ciertamente distintas. De una u otra forma, como el examen fue el mismo en cada facultad (para hombres y mujeres) es razonable investigar cómo le fue a cada grupo.

Por una cuestión de vacantes disponibles, el examen de ingreso a medicina siempre fue más difícil que el de ingreso a kinesiología pero, de todas formas, la prueba era la misma para hombres o mujeres. Ahora veamos cómo le fue a cada grupo.

En el caso de medicina, de las 1.000 mujeres que se presentaron ingresaron 300. O sea, el 30 por ciento.

Curiosamente, lo mismo sucedió con los hombres, sólo que se presentaron muchos menos a rendir la prueba. Sobre 100 hombres que la rindieron, aprobaron 30. O sea, se mantuvo el mismo porcentaje entre hombres y mujeres: ingresó el 30 por ciento.

Ahora exploremos lo que pasó en kinesiología. En esta facultad se presentaron 100 mujeres a rendir el examen y aprobaron 90, es decir el 90 por ciento.

Por otro lado, se presentaron muchísimos más hombres al examen, 1.000, y lo interesantísimo es que aprobaron 900, o sea, también el 90 por ciento.

¿Qué conclusión podemos sacar hasta acá?

En cada facultad, el número de hombres y de mujeres que se presentaron a rendir el examen fueron muy diferentes, pero el porcentaje que superó la prueba fue el mismo en cada caso: 30 por ciento en medicina –independientemente del sexo– y 90 por ciento en kinesiología, ¡también independientemente del sexo!

Es decir, evidentemente el sexo no tuvo ninguna relevancia en cada facultad. Sin embargo, cuando uno mira los totales, sobre una muestra de 1.100 hombres y el mismo número de mujeres, ¡ingresaron 930 hombres y 390 mujeres!

Justamente en eso consiste la paradoja. En realidad, no hubo ninguna discriminación. Solo que al agruparlos por sexo y no por facultad, aparece una inconsistencia que en la realidad no existe.

Fíjese en esta tabla que resume todo.










Estos números son muy claros ahora. Al mirar la última columna solamente, pareciera como que hay un evidente sesgo en favor de los hombres, pero al hacer la discriminación por facultad, se advierte que “tal” discriminación no existe.

¿Cómo se explica esta “aparente” paradoja? Es que al haber una diferencia tan grande entre los postulantes hombres y mujeres por facultad, eso termina distorsionando la muestra total.

Cuando uno está en el colegio, “sufre” cuando tiene que sumar fracciones. La tentación es sumar los numeradores entre sí, y lo mismo con los denominadores. Por ejemplo, sería mucho más fácil si

2/3 + 5/8 = 7/11

¡Pero eso no es cierto! No se pueden sumar los numeradores y los denominadores así como están. [1]

En el caso que nos ocupa, si usted mira el cuadro que figura en (*) uno podría creer que:

(30/100) + (900/1000) = 930/1100 (1)

y

(300/1000) + (90/100) = 390/1100 (2)

¡Pero ninguna de las dos igualdades es cierta!

De hecho, si usted se fija, los números que figuran en (1) (sobre el sector izquierdo), son los mismos que los que aparecen en (2), solamente que aparecen “disimulados”. Es que (30/100) = (300/1000) y por otro lado (900/1000) = (90/100). Si se pudieran sumar fracciones simplemente sumando los numeradores por un lado y los denominadores por el otro, entonces quizá no habría paradoja y sí habría discriminación, aunque, para qué ocuparse de algo que es falso, ¿no?

El tema es que el juicio cayó ni bien fue presentado y el prestigio de la universidad de Berkeley queda intacto. Eso sí, terminó siendo un bochorno.

Una reflexión final: así como propuse hace un tiempo la incorporación de matemáticos en los hospitales (o centros de salud) en donde se investiga la incidencia del uso de ciertas drogas y el análisis estadístico que requiere de especialistas en el área, ¿no habrá llegado el momento también de incorporar matemáticos a los estudios jurídicos? ¿O ya es de práctica común y a mí se me escapa? Ciertamente no consultaron a ninguno en el estudio de letrados que asesoró a la joven estudiante, en el famoso caso de segregación por sexo en la Universidad de Berkeley que nunca existió.

Por Adrián Paenza (matemático argentino). Vía "El cohete a la luna"

[1] Dicho en términos generales, no es cierto que
(a/b) + (c/d) = (a+c)/(b+d). En rigor, 2/3 + 5/8 = 31/24….pero eso es otra historia.

El nombre proviene de este artículo, escrito por otro matemático: Simpson, Edward H. (1951). «The Interpretation of Interaction in Contingency Tables». Journal of the Royal Statistical Society, Ser. B 13: 238-241.

Entradas relacionadas

19 de agosto de 2020

Estadistica para redes sociales

El manejo de las estadísticas siempre ha sido preocupante en la comunidad científica. Muchos estudios técnicos suelen ser mal interpretados en especial cuando se difunden en redes sociales, o aún en la prensa, aunque esto suele ser menor en periodistas que se especializan en difundir conocimientos científicos, afortunadamente cada vez son más. No faltan en las redes sociales los "especialistas" que no sólo difunden o respaldan esto por ignorancia, sino por algún sospechoso afán de sobresalir entre sus seguidores, lo cual no tendría mayor cuidado si esto no lo hicieran públicamente, y de ese modo, con su "prestigio" confundir aún más, en un tiempo en que una epidemia aparece como socialmente disruptiva, y la verdad, al igual que sucede en las guerras, parece ser la primera en desaparecer. 

Pirámide de evidencia


Esto implica que cuanto más gente se vacune, es esperable mayor cantidad de infectados vacunados, pero la proporción es mucho menor, por más que en números absolutos pueden llegar a predominar. Y si asi no se entendió, entonces otra forma de presentar la información en el caso de las vacunas seria esta:

O quizás funcione esta:



31 de enero de 2018

Intervalos de confianza

En una curva normal, o de Gauss, el porcentaje de la población que abarca el primer desvio standard, hacia ambos lados de la media es del 68%, por lo que si quisieramos expresar solo a este el intervalo de confianza seria expresado en un estudio clínico como IC68. Los resultados, en los estudios clinicos, suelen reportarse con la media, o promedio, de la muestra estudiada y su dispersión. Tomemos un ejemplo: tras dos dosis de una vacuna en Estados Unidos, se encontró que la hospitalización se redujo un 93% CI95 83%-97%. Esto significa que la reducción de internaciones tuvo una media del 93%, pero para el 95% de la población estudiada podia ser tan cierto una reducción tan baja como el 83% o tan alta como un 97%. A veces nos sirve tener un estimador puntual, otras nos interesa la variabilidad, pero casi siempre las dos dos estimaciones. 

Asi es como suelen reportarse los resultados en los estudios clínicos que leemos en las revistas médicas.

La media es entonces un estimador puntual y los intervalos de confianza representan la dispersión o variabilidad.

En una de distribución de Gauss puede verse claramente que al elegir un alfa (probabilidad de que un valor no esté dentro del intervalo de confianza) del 5%, caerá en la curva entre 1,96 y -1,96 desvio standard respecto a la media.  Algunos estudios, para aportar mayor precisión, reportan un mayor nivel de confianza, por ejemplo al 99%.

A medida que aumente la población que fue estudiada,  la amplitud del intervalo de confianza será menor, pero de mayor precisión. Esto se puede demostrar con una simple calculadora que toma en cuenta la población, la media y el desvio standard. 

Es por ello que cuando mayor es el número de personas en el estudio, menor es la amplitud o rango de nuestro intervalo de confianza, y por ende más preciso. 

Graficamente es enseñado con una curva de Gauss, pero también se puede encontrar en un box-plot o simplemente con lineas horizontales atravesando un punto. Donde el punto representa a la media y los extremos de la línea representan los intervalos inferior y superior. 

 
Estos últimos gráficos suelen ser útiles para representar a múltiples estudios en un mismo gráfico, por ejemplo en un metanálisis, que representa a esto en un tipo de gráfico que llamamos Forest Plot.
 

En el gráfico se explica más claramente como interpretar visualmente los resultados, generalmente el efecto nulo se señala como 1 (esto significa que la probabilidad que un evento ocurra o no ocurra es la misma, o 1 versus 1, es decir el 50% de las veces, el peor escenario para las estadísticas). Si se trata de vacunas y lo que medimos es la disminución de la mortalidad, lo que esperamos es que la media y sus intervalos de confianza estén a la izquierda de ese uno. Pero si midieramos el incremento de los anticuerpos, lo que queremos es que este a la derecha. Si los intervalos de confianza atraviesan el efecto nulo diremos que el efecto encontrado no fue clínicamente significativo, dicho de otro modo, no se pudo demostrar diferencia entre el tratamiento en cuestión y el placebo. 

Más todavia, si comparo dos tratamientos entre si, y los intervalos de confianza se solapan, o se superponen, esto indicaria que no hay diferencia entre los dos. Tal como se observa con las dos curvas de Gauss en el gráfico. 

Los resultados para la mayoria de los fármacos eficaces los riesgos relativos suelen estar entre 1 y 2.  Pero como a veces nos encontramos estudios contradictorios, preferimos los metanálisis que contienen a varios estudios originales, y los resultados suelen expresarse como el rombo del gráfico, donde los extremos del mismo marca los intervalos de confianza, el tamaño suele expresar el tamaño poblacional y la ubicación en relación al efecto nulo nos indica claramente cual fue la respuesta obtenida.

Publicaciones relacionadas

Intervalos de confianza: porqué usarlos

Como leer un Forest Plot (en inglés) 

Metanálisis e Ivermectina

The clinician’s guide to p values, confidence intervals, and magnitude of effects – Eye (if the link is paywalled, try this one)

Bayesian interpretation of p values in clinical trials.

Scientists Rise Up Against Statistical Significance

.050 shades of grey in p-value cutoffs

Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations – European Journal of Epidemiology

What a nerdy debate about p-values shows about science — and how to fix it – VOX

Big names in statistics want to shake up much-maligned P value – Nature News

‘One-size-fits-all’ threshold for P values under fire – Nature News

Intervalos de confianza en GRADE

https://link.springer.com/content/pdf/10.1007/s10654-016-0149-3.pdf

12 de abril de 2017

El efecto Dunning-Kruger


 ¿Ha oído hablar del 'efecto Dunning-Kruger'? Es la tendencia (aparente) de las personas no calificadas a sobrestimar su competencia y también la tendencia de los más calificados a subestimar sus competencias. Descubierto en 1999 por los psicólogos Justin Kruger y David Dunning , el efecto se ha hecho famoso desde entonces.

Y puedes ver por qué.

Es el tipo de idea que es demasiado buena para  no ser cierta. Todo el mundo 'sabe' que los idiotas tienden a no ser conscientes de su propia idiotez. O como dice John Cleese :

Si eres muy, muy estúpido, ¿Cómo es posible que te des cuenta de que eres muy, muy estúpido?

Por supuesto, los psicólogos han tenido cuidado de asegurarse de que la evidencia se reproduzca. Pero, por supuesto, cada vez que lo busca, el efecto Dunning-Kruger salta de los datos. Así que parecería que todo va sobre bases sólidas.

Excepto que hay un problema.

El efecto Dunning-Kruger también surge de datos en los que no debería . Por ejemplo, si elabora cuidadosamente datos aleatorios para que no contengan un efecto Dunning-Kruger, seguirá encontrando el efecto . La razón resulta vergonzosamente simple: el efecto Dunning-Kruger no tiene nada que ver con la psicología humana. Es un artefacto estadístico, un impresionante ejemplo de autocorrelación.

¿Qué es la autocorrelación?

La autocorrelación ocurre cuando correlaciona una variable consigo misma. Por ejemplo, si mido la altura de 10 personas, encontraré que la altura de cada persona se correlaciona perfectamente consigo misma. Si esto suena como un razonamiento circular, es porque lo es. La autocorrelación es el equivalente estadístico de afirmar que 5 = 5.

Cuando se enmarca de esta manera, la idea de autocorrelación suena absurda. Ningún científico competente correlacionaría una variable consigo misma. Y eso es cierto para la forma pura de autocorrelación. Pero, ¿qué pasa si una variable se mezcla en ambos lados de una ecuación, donde se olvida? Por esa causa, la autocorrelación es más difícil de detectar.

Aquí hay un ejemplo. Supongamos que estoy trabajando con dos variables, x e y . Encuentro que estas variables no están correlacionadas en absoluto, como se muestra en el panel izquierdo de la Figura 1Hasta aquí todo bien.

Figura 1: Generación de autocorrelación. El panel izquierdo traza las variables aleatorias x e y , que no están correlacionadas. El panel derecho muestra cómo esta no correlación puede transformarse en una autocorrelación. Definimos una variable llamada z , que está fuertemente correlacionada con x . El problema es que z resulta ser la suma x + y . Entonces estamos correlacionando x consigo mismo. La variable y añade ruido estadístico.


A continuación, empiezo a jugar con los datos. Después de un poco de manipulación, se me ocurre una cantidad que llamo z . Guardo mi trabajo y me olvido de él. Meses después, mi colega revisa mi conjunto de datos y descubre que z se correlaciona fuertemente con x (Figura 1 , derecha). ¡Hemos descubierto algo interesante!

De hecho, hemos descubierto la autocorrelación. Sin el conocimiento de mi colega, he definido la variable z para que sea la suma de x + y . Como resultado, cuando correlacionamos z con x , en realidad estamos correlacionando x consigo mismo. (La variable y viene por el camino, proporcionando ruido estadístico). Así es como ocurre la autocorrelación, olvidando que tiene la misma variable en ambos lados de una correlación, en el gráfico entonces la variable está presente en ambos ejes.

El efecto Dunning-Kruger

Ahora que comprende la autocorrelación, hablemos del efecto Dunning-Kruger. Al igual que el ejemplo de la Figura 1, el efecto Dunning-Kruger equivale a una autocorrelación. Pero en lugar de acechar dentro de una variable re etiquetada, la autocorrelación de Dunning-Kruger se esconde debajo de un gráfico engañoso. 

Veamos:

En 1999, Dunning y Kruger informaron los resultados de un experimento simple. Consiguieron un grupo de personas para completar una prueba de habilidades. Luego le pidieron a cada persona que evaluara su propia habilidad. Lo que Dunning y Kruger (pensaron que) encontraron fue que las personas que obtuvieron malos resultados en la prueba de habilidades también tendían a sobrestimar su capacidad. Ese es el 'efecto Dunning-Kruger'.

Dunning y Kruger visualizaron sus resultados como se muestra en la Figura 2 . Es un gráfico simple que llama la atención sobre la diferencia entre dos curvas. En el eje horizontal, Dunning y Kruger han colocado a las personas en cuatro grupos (cuartilos) según sus puntajes en las pruebas. En el gráfico, las dos líneas muestran los resultados dentro de cada grupo. La línea gris indica los resultados promedio de las personas en la prueba de habilidades. La línea negra indica su 'capacidad percibida' promedio. Claramente, las personas que obtuvieron una puntuación baja en la prueba de habilidades tienen un exceso de confianza en sus habilidades. (O eso parece).

Figura 2: El gráfico de Dunning-Kruger. De Dunning y Kruger (1999) . Esta figura muestra cómo Dunning y Kruger informaron sus hallazgos originales. Dunning y Kruger dieron una prueba de habilidades a los individuos y también le pidieron a cada persona que estimara su habilidad. Dunning y Kruger luego colocaron a las personas en cuatro grupos según sus puntajes de prueba clasificados. Esta figura contrasta el percentil (promedio) de la 'puntuación real de la prueba' dentro de cada grupo (línea gris) con el percentil (promedio) de la 'capacidad percibida'. El 'efecto' Dunning-Kruger es la diferencia entre las dos curvas: el hecho (aparente) de que las personas no calificadas sobrestiman su capacidad.



Por sí solo, el gráfico de Dunning-Kruger parece convincente. Agregue el hecho de que Dunning y Kruger son excelentes escritores, y tiene la receta para un artículo exitoso. En ese sentido, te recomiendo que leas su artículo, porque nos recuerda que no es lo mismo buena retórica que buena ciencia.

Deconstruyendo Dunning-Kruger

Ahora que ha visto el gráfico de Dunning-Kruger, mostremos cómo oculta la autocorrelación. Para aclarar las cosas, comentaré los gráficos a medida que avanzamos.

Comenzaremos con el eje horizontal. En el gráfico de Dunning-Kruger, el eje horizontal es "categórico", lo que significa que muestra "categorías" en lugar de valores numéricos. Por supuesto, no hay nada de malo en trazar categorías. Pero en este caso, las categorías son en realidad numéricas. Dunning y Kruger toman los puntajes de las pruebas de las personas y las colocan en 4 grupos clasificados. (Los estadísticos llaman a estos grupos 'cuartilos').

Lo que significa esta clasificación es que el eje horizontal traza efectivamente la puntuación de la prueba. Llamemos a esta puntuación x .

Figura 3: Deconstrucción del gráfico de Dunning-Kruger. En el gráfico de Dunning-Kruger, el eje horizontal clasifica la "puntuación real de la prueba", que llamaré x .





A continuación, observemos el eje vertical, que está marcado como 'percentil'. Lo que esto significa es que en lugar de trazar los puntajes reales de las pruebas, Dunning y Kruger trazan la clasificación del puntaje en una escala de 100 puntos. 

Ahora veamos las curvas. La línea etiquetada como 'puntuación real de la prueba' traza el percentil promedio de la puntuación de la prueba de cada cuartilo. Las cosas parecen estar bien, hasta que nos damos cuenta de que Dunning y Kruger esencialmente están trazando el puntaje de la prueba ( x ) contra sí mismo. Notando este hecho, volvamos a etiquetar la línea gris. Grafica efectivamente x contra  x .

Figura 3: Deconstrucción del gráfico de Dunning-Kruger. En el gráfico de Dunning-Kruger, la línea marcada como "puntuación real de la prueba" representa la puntuación de la prueba ( x ) contra sí misma. En mi notación, eso es x contra  x .







Continuando, veamos la línea etiquetada como "capacidad percibida". Esta línea mide el percentil promedio de la autoevaluación de cada grupo. Llamemos a esta autoevaluación y . Si recordamos que hemos etiquetado la 'puntuación real de la prueba' como x , vemos que la línea negra representa y frente  a x .

Figura 3: Deconstrucción del gráfico de Dunning-Kruger. En el gráfico de Dunning-Kruger, la "capacidad percibida" del mercado de líneas representa la "capacidad percibida" y frente a la puntuación real de la prueba x .



Hasta ahora, nada salta a la vista como algo obviamente incorrecto. Sí, es un poco raro graficar x contra  x . Pero Dunning y Kruger no afirman que esta línea por sí sola sea importante. Lo importante es la diferencia entre las dos líneas ("capacidad percibida" frente a "puntuación real de la prueba"). Es en esta diferencia donde aparece la autocorrelación.

En términos matemáticos, una 'diferencia' significa 'restar'. Entonces, al mostrarnos dos líneas divergentes, Dunning y Kruger nos piden (implícitamente) que restemos una de la otra: tomemos la 'capacidad percibida' y restemos la 'puntuación real de la prueba'. En mi notación, eso corresponde a y – x .

Figura 3: Deconstrucción del gráfico de Dunning-Kruger. Para interpretar el gráfico de Dunning-Kruger, observamos (implícitamente) la diferencia entre las dos curvas. Eso corresponde a tomar la 'capacidad percibida' y restarle la 'puntuación real de la prueba'. En mi notación, esa diferencia es y – x (indicada por la flecha de dos puntas). Cuando juzgamos esta diferencia como una función del eje horizontal, implícitamente estamos comparando y – x con x . Dado que x está a ambos lados de la comparación, el resultado será una autocorrelación.

Restar y – x parece estar bien, hasta que nos damos cuenta de que se supone que debemos interpretar esta diferencia como una función del eje horizontal. Pero el eje horizontal traza la puntuación de la prueba x . Entonces se nos pide (implícitamente) que comparemos y – x con x :

\displaystyle (y - x) \sim x

¿Ves el problema? Estamos comparando x con la versión negativa de sí mismo . Esa es la autocorrelación de los libros de texto. Significa que podemos arrojar números aleatorios en x e y , números que posiblemente no podrían contener el efecto Dunning-Kruger, y sin embargo, en el otro extremo, el efecto seguirá emergiendo.

Réplica de Dunning-Kruger

Alguien escribió lo anterior, pero aun así no estaba convencido de sus argumentos, así que decidió usar datos reales. Solo usando datos reales puedo entender el problema con el efecto Dunning-Kruger. Veamos que sucedió.

Supongamos que somos psicólogos que reciben una gran subvención para replicar el experimento de Dunning-Kruger. Reclutamos a 1000 personas, les damos a cada una una prueba de habilidades y les pedimos que informen una autoevaluación. Cuando tenemos los resultados, echamos un vistazo a los datos.

Cuando graficamos el puntaje de la prueba de los individuos contra su autoevaluación, los datos parecen completamente aleatorios. La figura 7 muestra el patrón aleatorio. Parece que las personas de todas las habilidades son igualmente terribles para predecir su habilidad. No hay indicios de un efecto Dunning-Kruger.

Figura 7: una replicación fallida. Esta figura muestra los resultados de un experimento mental en el que intentamos replicar el efecto Dunning-Kruger. Hacemos que 1000 personas realicen una prueba de habilidades y estimen su propia capacidad. Aquí, trazamos los datos sin procesar. Cada punto representa el resultado de un individuo, con 'puntaje de prueba real' en el eje horizontal y 'autoevaluación' en el eje vertical. No hay indicios de un efecto Dunning-Kruger.

Después de mirar nuestros datos sin procesar, nos preocupa que hayamos hecho algo mal. Muchos otros investigadores han replicado el efecto Dunning-Kruger. ¿Cometimos un error en nuestro experimento?

Lamentablemente, no podemos recopilar más datos. (Nos hemos quedado sin dinero.) Pero podemos jugar con el análisis. Un colega sugiere que, en lugar de graficar los datos sin procesar, calculemos el "error de autoevaluación" de cada persona. Este error es la diferencia entre la autoevaluación de una persona y su puntaje en la prueba. ¿Quizás este error de evaluación se relaciona con el puntaje real de la prueba?

Hacemos los números y, para nuestro asombro, encontramos un efecto enorme. La figura 8 muestra los resultados. Parece que las personas no calificadas tienen un exceso de confianza, mientras que las personas calificadas son demasiado modestas.

(Nuestros técnicos de laboratorio señalan que la correlación es sorprendentemente estrecha, casi como si los números se hubieran elegido a mano. Pero dejamos de lado esta observación y seguimos adelante).

Figura 8: ¿Quizás el experimento fue exitoso? Usando los datos sin procesar de la Figura 7 , esta figura calcula el 'error de autoevaluación': la diferencia entre la autoevaluación de un individuo y su puntaje real en la prueba. Este error de evaluación (eje vertical) se correlaciona fuertemente con el eje (horizontal) de la puntuación real de la prueba.






Animados por nuestro éxito en la Figura 8, decidimos que los resultados pueden no ser "malos" después de todo. Entonces arrojamos los datos en el gráfico de Dunning-Kruger para ver qué sucede. Descubrimos que, a pesar de nuestras dudas sobre los datos, el efecto Dunning-Kruger estuvo presente todo el tiempo. De hecho, como muestra la Figura 9 , nuestro efecto es incluso mayor que el original (de la Figura 2 ).

Figura 9: Recuperación de Dunning y Kruger. A pesar de la aparente falta de efecto en nuestros datos sin procesar (Figura 8 ), cuando conectamos estos datos en el gráfico de Dunning-Kruger, obtenemos un efecto masivo. Las personas que no están calificadas sobrestiman sus habilidades. Y las personas hábiles son demasiado modestas.

Las cosas se desmoronan

Satisfechos con nuestra replicación exitosa, comenzamos a escribir nuestros resultados. Entonces las cosas se desmoronan. Lleno de culpa, nuestro curador de datos se sincera: perdió los datos de nuestro experimento y, en un ataque de pánico, los reemplazó con números aleatorios . Nuestros resultados, confiesa, se basan en ruido estadístico.

Devastados, volvemos a nuestros datos para dar sentido a lo que salió mal. Si hemos estado trabajando con números aleatorios, ¿cómo podríamos haber replicado el efecto Dunning-Kruger? Para averiguar qué pasó, dejamos de fingir que estamos trabajando con datos psicológicos. Reetiquetamos nuestros gráficos en términos de variables abstractas x e y . Al hacerlo, descubrimos que nuestro "efecto" aparente es en realidad una autocorrelación.

La figura 10 lo desglosa. Nuestro conjunto de datos se compone de ruido estadístico: dos variables aleatorias, x e y , que no tienen ninguna relación (Figura 10 A). Cuando calculamos el 'error de autoevaluación', tomamos la diferencia entre y y x . Como era de esperar, encontramos que esta diferencia se correlaciona con x (Figura 10 B). Pero eso es porque x se autocorrelaciona consigo mismo. Finalmente, desglosamos el gráfico de Dunning-Kruger y nos damos cuenta de que también se basa en la autocorrelación (Figura 10 C). Nos pide que interpretemos la diferencia entre y y como una función de x . Es la autocorrelación del panel B, envuelta en un barniz más engañoso.

Figura 10: Abandonando la pretensión psicológica. Esta figura repite el análisis que se muestra en las Figuras 7 a 9, pero deja de lado la pretensión de que estamos tratando con la psicología humana. Estamos trabajando con variables aleatorias x e y que se extraen de una distribución uniforme. El panel A muestra que las variables no están correlacionadas en absoluto. El panel B muestra que cuando graficamos y – x contra x , obtenemos una fuerte correlación. Pero eso es porque hemos correlacionado x consigo mismo. En el panel C, ingresamos estas variables en el gráfico de Dunning-Kruger. Nuevamente, el efecto aparente equivale a la autocorrelación: interpretar y – x como una función de x.

El objetivo de esta historia es ilustrar que el efecto Dunning-Kruger no tiene nada que ver con la psicología humana. Es un artefacto estadístico, un ejemplo de autocorrelación que se esconde a plena vista.

Lo interesante es cuánto tiempo les tomó a los investigadores darse cuenta de la falla en el análisis de Dunning y Kruger. Dunning y Kruger publicaron sus resultados en 1999. Pero el error tardó hasta 2016 en comprenderse por completo. Edward Nuhfer y sus colegas fueron los primeros en desacreditar exhaustivamente el efecto Dunning-Kruger. (Consulte sus artículos conjuntos en 2016 y 2017 ). En 2020, Gilles Gignac y Marcin Zajenkowski publicaron una crítica similar .

Una vez que lee estas críticas, se vuelve dolorosamente obvio que el efecto Dunning-Kruger es un artefacto estadístico. Pero hasta la fecha, muy pocas personas conocen este hecho. En conjunto, los tres artículos de crítica tienen alrededor de 90 veces menos citas que el artículo original de Dunning-Kruger.  Así que parece que la mayoría de los científicos todavía piensan que el efecto Dunning-Kruger es un aspecto sólido de la psicología humana. 

Ni rastro de Dunning Kruger

El problema con el gráfico de Dunning-Kruger es que viola un principio fundamental en estadística. Si va a correlacionar dos conjuntos de datos, deben medirse de forma independiente. En el gráfico de Dunning-Kruger, este principio se viola. El gráfico mezcla la puntuación de la prueba en ambos ejes, lo que da lugar a una autocorrelación.

Al darse cuenta de este error, Edward Nuhfer y sus colegas hicieron una pregunta interesante: ¿qué sucede con el efecto Dunning-Kruger si se mide de una manera estadísticamente válida? Según la evidencia de Nuhfer, la respuesta es que el efecto desaparece.

La Figura 11 muestra sus resultados. Lo que es importante aquí es que la 'habilidad' de las personas se mide independientemente de su desempeño en las pruebas y de su autoevaluación. Para medir la 'habilidad', Nuhfer agrupa a las personas por su nivel de educación, que se muestra en el eje horizontal. El eje vertical luego traza el error en la autoevaluación de las personas. Cada punto representa a un individuo.

Figura 11: Una prueba estadísticamente válida del efecto Dunning-Kruger. Esta figura muestra la prueba del efecto Dunning-Kruger de 2017 de Nuhfer y sus colegas. Similar a la Figura 7 , este gráfico representa la habilidad de las personas frente a su error en la autoevaluación. Pero a diferencia de la Figura 7, aquí las variables son estadísticamente independientes. El eje horizontal mide la habilidad utilizando el rango académico. El eje vertical mide el error de autoevaluación de la siguiente manera. Nuhfer toma el puntaje de una persona en la prueba SLCI (prueba de inventario de conceptos de alfabetización científica) y lo resta de la autoevaluación de la persona, llamada KSSLCI (encuesta de conocimiento de la prueba SLCI). Cada punto negro indica el error de autoevaluación de un individuo. Las burbujas verdes indican las medias dentro de cada grupo, con el intervalo de confianza asociado. El hecho de que las burbujas verdes se superpongan a la línea de efecto cero indica que, dentro de cada grupo, los promedios no son estadísticamente diferentes de 0. En otras palabras, no hay evidencia de un efecto Dunning-Kruger.

Si el efecto Dunning-Kruger estuviera presente, se mostraría en la Figura 11 como una tendencia a la baja en los datos (similar a la tendencia en la Figura 7 ). Tal tendencia indicaría que las personas no calificadas sobrestiman su habilidad y que esta sobreestimación disminuye con la habilidad. Mirando la Figura 11, no hay indicios de una tendencia. En cambio, el error de evaluación promedio (indicado por las burbujas verdes) ronda el cero. En otras palabras, el sesgo de evaluación es trivialmente pequeño.

Aunque no hay indicios de un efecto Dunning-Kruger, la figura 11 muestra un patrón interesante. Moviéndose de izquierda a derecha, la dispersión del error de autoevaluación tiende a disminuir con más educación. En otras palabras, los profesores generalmente son mejores para evaluar su capacidad que los estudiantes de primer año. Eso tiene sentido. Sin embargo, tenga en cuenta que esta precisión creciente es diferente al efecto Dunning-Kruger, que se trata de un sesgo sistémico en la evaluación promedio. No existe tal sesgo en los datos de Nuhfer.

No calificado y sin saberlo

Los errores suceden. Entonces, en ese sentido, no debemos culpar a Dunning y Kruger por haberse equivocado. Sin embargo, hay una deliciosa ironía en las circunstancias de su error. Aquí hay dos profesores de la Ivy League  que argumentan que las personas no calificadas tienen una 'doble carga': las personas no calificadas no solo son 'incompetentes'... no son conscientes de su propia incompetencia.

La ironía es que la situación es en realidad al revés. En su artículo original, Dunning y Kruger son los que transmiten su incompetencia (estadística) al combinar la autocorrelación con un efecto psicológico. Bajo esta luz, el título del artículo aún puede ser apropiado. Es solo que fueron los autores (no los sujetos de prueba) quienes 'no estaban capacitados y no lo sabían'.

Blair Fix, en Economics from the Top Down El efecto Dunning-Kruger