Mostrando las entradas con la etiqueta Adrian Paenza. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Adrian Paenza. Mostrar todas las entradas

21 de marzo de 2021

La paradoja de Simpson

La que sigue es una historia sobre el mal uso de la matemática. Una aventura peligrosa que terminó en un juicio por discriminación de género que –en rigor– cualquier matemático podría haber detectado y evitado, si es que hubiera formado parte del estudio jurídico que asesoró a la joven que se sintió damnificada.

Sucedió hace un poco más de 40 años. Para ser más precisos, fue en el año 1973 e involucró a la Universidad de California, en Berkeley. Allí es donde se encuentra ubicada una de las universidades más importantes del mundo y, sobre todo, uno de los departamentos de matemática más importantes del mundo.

Una joven estudiante intentó ingresar en la universidad, pero no pudo hacerlo. Es decir, no pudo superar lo que aquí sería equivalente a un examen de ingreso. Ella, seguramente asesorada por un grupo de abogados, creyó interpretar que en Berkeley, en ese momento, había una práctica –sutil por cierto– para discriminar hombres y mujeres, algo así como una segregación por género.

Como creían tener las pruebas suficientes, iniciaron un juicio que conmovió no sólo a la universidad propiamente dicha, sino a toda la comunidad local. No lo escribí aún, pero Berkeley es un barrio que queda a unos 20 kilómetros al nordeste de San Francisco, en California. Si hubiera sido en alguna facultad de un Estado en donde un caso de estas características podría ser más esperable (piense en Mississippi, Alabama, o incluso Texas), quizás habría tenido un impacto distinto, pero… ¿en San Francisco?

Lo que sigue entonces es una breve descripción del error que se cometió o que cometieron los abogados que representaron a la joven. Los datos parecían mostrar que personas del sexo masculino eran aceptadas para ingresar con un porcentaje mayor que las mujeres, o en todo caso, con un porcentaje mayor que el simple azar.

Voy a cambiar los datos originales para hacer los cálculos más sencillos, pero nada va a cambiar en términos conceptuales. Le pido que me siga, porque es un problema que aparece con mucha más frecuencia de la que uno cree, tanto que el error de interpretación que genera recibe un nombre: “La Paradoja de Simpson”.

En general, a una universidad la conforman distintas facultades en donde se estudian distintas disciplinas. Por ejemplo, la Universidad de Buenos Aires alberga, entre otras, a las facultades de Ciencias Exactas, Medicina, Arquitectura, Ingeniería, etcétera.

Para hacer las cuentas más fáciles, voy a suponer que en Berkeley había nada más que dos facultades, medicina y kinesiología, y voy a suponer que ese año se presentaron a rendir los exámenes de admisión 2.200 personas divididos por mitades: 1100 personas de cada sexo.

Luego de las pruebas pertinentes, ingresaron en total 930 hombres y 390 mujeres.

Si uno mira estos datos, la conclusión inmediata que saca es la siguiente:

930/1100 = 84,54% ingresantes hombres

vs.

390/1100 = 35,45% ingresantes mujeres

Si a uno le presentan estos números, parece que no hay mucho para discutir: salvo que haya algún argumento desconocido, parece un caso evidente de discriminación por sexo o favoritismo por género. Más aún: cuando uno revisa años anteriores, este caso se repetía en forma sistemática.

Es por eso que con estos datos, los letrados de la joven creyeron que tenían motivos suficientes para iniciar el juicio. Y lo hicieron. Ahora, acompáñeme a revisar con un poco más de cuidado los detalles que faltan.

Investiguemos primero la distribución por facultad. Es decir, qué proporción de hombres y de mujeres se inscribió, tanto en medicina como en kinesiología.

Una observación: no deje que los números la/lo confundan. Elegí a propósito números fáciles para poder seguir el ejemplo. En definitiva, no se trata de revisar el juicio, que está saldado hace 41 años, sino de entender dónde está la paradoja.

Sigo: de las 1.100 mujeres aspirantes en total, 1.000 hicieron la admisión en medicina y solamente 100 se anotaron en kinesiología.

La proporción se revirtió en el caso de los hombres: de los 1100 aspirantes-hombres que se presentaron en la universidad, 1.000 se inscribieron en kinesiología y solamente 100 en medicina.

O sea, exactamente al revés que las mujeres.

Ahora veamos si hubo discriminación por facultad. Es decir, supongo que no se le escapa a usted que –en general– los exámenes de ingreso a la facultad de medicina son más difíciles que los que ofrece kinesiología, o bien las vacantes que tiene cada una son ciertamente distintas. De una u otra forma, como el examen fue el mismo en cada facultad (para hombres y mujeres) es razonable investigar cómo le fue a cada grupo.

Por una cuestión de vacantes disponibles, el examen de ingreso a medicina siempre fue más difícil que el de ingreso a kinesiología pero, de todas formas, la prueba era la misma para hombres o mujeres. Ahora veamos cómo le fue a cada grupo.

En el caso de medicina, de las 1.000 mujeres que se presentaron ingresaron 300. O sea, el 30 por ciento.

Curiosamente, lo mismo sucedió con los hombres, sólo que se presentaron muchos menos a rendir la prueba. Sobre 100 hombres que la rindieron, aprobaron 30. O sea, se mantuvo el mismo porcentaje entre hombres y mujeres: ingresó el 30 por ciento.

Ahora exploremos lo que pasó en kinesiología. En esta facultad se presentaron 100 mujeres a rendir el examen y aprobaron 90, es decir el 90 por ciento.

Por otro lado, se presentaron muchísimos más hombres al examen, 1.000, y lo interesantísimo es que aprobaron 900, o sea, también el 90 por ciento.

¿Qué conclusión podemos sacar hasta acá?

En cada facultad, el número de hombres y de mujeres que se presentaron a rendir el examen fueron muy diferentes, pero el porcentaje que superó la prueba fue el mismo en cada caso: 30 por ciento en medicina –independientemente del sexo– y 90 por ciento en kinesiología, ¡también independientemente del sexo!

Es decir, evidentemente el sexo no tuvo ninguna relevancia en cada facultad. Sin embargo, cuando uno mira los totales, sobre una muestra de 1.100 hombres y el mismo número de mujeres, ¡ingresaron 930 hombres y 390 mujeres!

Justamente en eso consiste la paradoja. En realidad, no hubo ninguna discriminación. Solo que al agruparlos por sexo y no por facultad, aparece una inconsistencia que en la realidad no existe.

Fíjese en esta tabla que resume todo.










Estos números son muy claros ahora. Al mirar la última columna solamente, pareciera como que hay un evidente sesgo en favor de los hombres, pero al hacer la discriminación por facultad, se advierte que “tal” discriminación no existe.

¿Cómo se explica esta “aparente” paradoja? Es que al haber una diferencia tan grande entre los postulantes hombres y mujeres por facultad, eso termina distorsionando la muestra total.

Cuando uno está en el colegio, “sufre” cuando tiene que sumar fracciones. La tentación es sumar los numeradores entre sí, y lo mismo con los denominadores. Por ejemplo, sería mucho más fácil si

2/3 + 5/8 = 7/11

¡Pero eso no es cierto! No se pueden sumar los numeradores y los denominadores así como están. [1]

En el caso que nos ocupa, si usted mira el cuadro que figura en (*) uno podría creer que:

(30/100) + (900/1000) = 930/1100 (1)

y

(300/1000) + (90/100) = 390/1100 (2)

¡Pero ninguna de las dos igualdades es cierta!

De hecho, si usted se fija, los números que figuran en (1) (sobre el sector izquierdo), son los mismos que los que aparecen en (2), solamente que aparecen “disimulados”. Es que (30/100) = (300/1000) y por otro lado (900/1000) = (90/100). Si se pudieran sumar fracciones simplemente sumando los numeradores por un lado y los denominadores por el otro, entonces quizá no habría paradoja y sí habría discriminación, aunque, para qué ocuparse de algo que es falso, ¿no?

El tema es que el juicio cayó ni bien fue presentado y el prestigio de la universidad de Berkeley queda intacto. Eso sí, terminó siendo un bochorno.

Una reflexión final: así como propuse hace un tiempo la incorporación de matemáticos en los hospitales (o centros de salud) en donde se investiga la incidencia del uso de ciertas drogas y el análisis estadístico que requiere de especialistas en el área, ¿no habrá llegado el momento también de incorporar matemáticos a los estudios jurídicos? ¿O ya es de práctica común y a mí se me escapa? Ciertamente no consultaron a ninguno en el estudio de letrados que asesoró a la joven estudiante, en el famoso caso de segregación por sexo en la Universidad de Berkeley que nunca existió.

Por Adrián Paenza (matemático argentino). Vía "El cohete a la luna"

[1] Dicho en términos generales, no es cierto que
(a/b) + (c/d) = (a+c)/(b+d). En rigor, 2/3 + 5/8 = 31/24….pero eso es otra historia.

El nombre proviene de este artículo, escrito por otro matemático: Simpson, Edward H. (1951). «The Interpretation of Interaction in Contingency Tables». Journal of the Royal Statistical Society, Ser. B 13: 238-241.

Entradas relacionadas

23 de enero de 2021

Impuesto a la ignorancia

Por Adrian Paenza

Uno de los temas que siempre me atrapa es intentar entender nuestra conducta, la de los seres humanos. Me cuesta trabajo aceptar que, por ejemplo, haya tanta gente que juegue o apueste dinero en las diferentes variantes de lotería, quiniela o en los casinos, también en todas las variantes que se le ocurran: ruleta, punto y banca, dados, veintiuno, … Es que la probabilidad de ganar es tan baja que resulta sorprendente que haya tanto público que siga insistiendo ¿Por qué? ¿Qué es lo que nos motiva? La respuesta obvia es ganar dinero fácil: uno supuestamente hace una inversión pequeña y el potencial beneficio es inmenso. No crea que me estoy refiriendo exclusivamente a aquellos que son jugadores empedernidos o enfermos, que obtienen con el juego el equivalente de una droga. Ese grupo de personas están bien tipificadas y estudiadas, pero me refiero a una persona cualquiera, como usted o yo, que a pesar de tener tantas posibilidades en contra, decide apostar igual ¿Será equivalente al proceso mental que nos llevaba de niños a jugar a ser invisibles o a poder volar?

Las historias abundan: basta con barrer internet (ahora que es una herramienta que permite acceder a información que hace un par de décadas hubiera sido inalcanzable) y encontrarse con múltiples ejemplos de gente que ganó mucho, o ganó muchas veces, o tuvo una suerte que es difícil de entender. Pero de la misma forma, hay gente que mide 2.15 metros o 2.23 y juega en la NBA por poner un ejemplo. Son pocos, pero hay.

El 14 de enero de 1995 fue una noche que Peter Walker nunca se va a olvidar. Acertó los seis números de la Lotería Nacional del Reino Unido, con un premio mayor estimado de 16 millones de libras esterlinas (20 millones de dólares aproximadamente). Lamentablemente para él, Walker (un nombre ficticio) solo se llevó a su casa 122.510 libras esterlinas (unos 150 mil dólares) porque otras 132 personas jugaron a los mismos números que él, y por lo tanto, tuvo que compartir el premio mayor.

Hay miles de historias o propuestas que supuestamente ayudan a mejorar la probabilidad de acertar, pero lamentablemente son todas falsas: si uno elige y tiene que acertar seis números entre los primeros 49, hay UNA posibilidad entre 13.983.816. O sea, una forma de acertar en casi 14 millones. Explíqueme entonces por qué uno sigue jugando. No importa que sea poco dinero el que juega o invierte: uno ¡¡IGUAL JUEGA!! Y sabe también que casi seguro (con un CASI en letras MUY MAYÚSCULAS) va a perder lo que apuesta.

Con todo, hay algo que SÍ puede ayudar. Un momento: no va a ayudarla/o a ganar o a acertar los seis números. Lo que SÍ puede cooperar es que la cantidad de personas que hayan elegido los mismos números que usted sea más pequeña. El pobre Walker, tuvo que compartir su éxito con más de un centenar de personas. Si hubiera ganado solo, en lugar de 150 mil dólares, se llevaba casi 20 millones. Obviamente, la historia cambia. Entonces, la pregunta que uno puede/podría hacerse es: ¿Cuáles son los números preferidos? Si uno pudiera saberlos de antemano, elegiría jugar otros, ¿no le parece?

Lamentablemente las loterías de cada país no proveen (o no deberían proveer) esa información. No sé cómo funciona en la Argentina, pero intuyo que sucede lo mismo que en el resto del mundo. Esa parte de la información es confidencial. Sin embargo, un matemático inglés (Simon Cox), profesor en la Universidad de Southampton, en el sur de Inglaterra, intentó recolectar la información por su cuenta. Hace más de una década se dedicó a analizar, no sólo los números ganadores sino que juntó los datos de 113 sorteos de la lotería. Comparó los números ganadores con cuántas personas habían acertado cuatro, cinco o los seis de ellos, y con esa información, intentó inferir cuáles eran los números más populares. Una digresión: no sabe cómo me gustaría haber podido participar, no en el juego propiamente dicho (habitualmente yo no juego) pero me gustaría que se me hubiera ocurrido a mí lo que se le ocurrió a él. Obviamente, no hizo nada ilegal. Eso sí: requirió de constancia y paciencia ¿No tiene ganas de pensar usted qué números usted cree que la mayoría los considera sus predilectos?

Sin que nos conozcamos (usted y yo) podría apostar a que la mayoría de las personas incluiría entre los seis elegidos el día de su cumpleaños, o la de sus hijas/hijos, esposa/o, o de los padres o algún familiar. Si bien eso provee de poca información (si uno supone que todos los días de cada año cumple la misma cantidad de personas, lo cual no es cierto), hay algo extra para deducir: son todos números menores o iguales a 31. Es decir, si fuera cierto que uno incluye siempre números ligados con días de un mes (cualquiera sea), es obvio que para elegir los menos populares e incrementar su posibilidad de estar sola o solo en la elección, conviene siempre elegir números mayores estrictos que 31.

Más allá de mis conjeturas, escribo los datos de lo que encontró él. El número que apareció más veces fue el número siete. Cox escribió que el siete es elegido un 25 por ciento más de veces que el número menos popular ¿Sabe cuál fue? El ¡46! También fueron seleccionados muchas veces el 14 y el 18, y entre los menos votados (o elegidos) aparecieron el 44 y 45. Y antes que me olvide y para hacer justicia con el trabajo de Cox, el hecho que la gente elija números menores o iguales que 31, él lo denomina birthday effect’, o sea, el "efecto cumpleaños". En el camino, surgieron otros patrones: los números más elegidos se agrupaban alrededor del centro del formulario (que se usa en Inglaterra para hacer la selección) lo que permite sugerir que quien juega sufre algún tipo de influencia que tiene que ver con el diseño, algo así como el efecto que tiene la forma en que un producto viene empaquetado o la foto que aparece en el sobre o en la caja o en el envoltorio. De la misma forma, miles de jugadores parecen dibujar una línea diagonal que atraviesa cierto grupo de números que aparecen en la boleta, pero hay un dato que me resulta verdaderamente sorprendente y me quiero detener un instante para pensarlo con usted.

La gente -en general- evita elegir números consecutivos. Por ejemplo, muy pocos casos eligen 1,2,3,4,5 y 6. Usted advierte que la probabilidad de que salgan esos seis números es la misma de que salgan 7, 23, 31, 42 y 45. Es decir, cualesquiera sean los seis números (distintos) la probabilidad de que sean elegidos es la misma. Lo interesante – según Cox- es que él estuvo estudiando los patrones que aparecen en juegos similares en Canadá, EEUU y Suiza: en todos los países sucede lo mismo ¿Por qué? ¿Qué explicación encontrar?

Por último, para maximizar las ganancias y dar validez a su teoría sobre la popularidad, Cox simuló jugar en forma virtual. Para eso compró ficticiamente 75 mil billetes cada semana eligiéndolos al azar, sin seleccionar entre los impopulares. Utilizó 224 sorteos consecutivos del Lotto en Inglaterra, y calculó que sus ganancias hubieran llegado a los ocho millones de dólares con una inversión aproximada de casi 19 millones de dólares. Al mismo tiempo, y como forma de control hizo lo mismo (con otros 75 mil billetes por semana) pero elegidos entre los números que él consideraba impopulares. Usando esta forma de elegir, la inversión hubiera sido la misma, pero las ganancias se hubieran más que duplicado. El artículo figura en la revista The Statistician, vol 47, página 629. La conclusión de Cox es: “elija seis números mayores que 31 y que aparezcan en los bordes de la planilla en la que tiene que escribir la selección. Por lo tanto, si usted acierta los seis números es menos probable que tenga que compartir las ganancias. Eso sí: la probabilidad que encontré también predice que uno no va a acertar hasta el ¡siglo 28!”

Pongámoslo de esta forma: apostar a cualquiera de estos juegos es un impuesto a la ignorancia. Usted decide si lo paga … ¡o no!

Adrián Paenza es un matemático y periodista argentino.

Imagen: Maurice Lester Szyslak (Moe). Kent Brockman (el que da las noticias en tv) también ganó la lotería en Springfield, por 130 millones de dólares, durante "la fiebre del loto". En la imagen Barney Gumble recibiendo un premio.