Ciencias de datos para tomar decisiones
29/04/2021

Ciencias de datos para tomar decisiones

El científico de datos Youyang Gu se considera un realista, lo declara en su perfil de Twitter : “Presentador de tomas imparciales. Realista." Una excelente historia del newsletter del MIT. 

Compartí la noticia

Cuando notó las proyecciones dispersas del covid-19 la primavera pasada (un modelo proyectaba 2 millones de muertes en Estados Unidos para el verano, otro predijo 60,000), Gu cuestionó si eso era tan bueno como el modelo podría ser. Decidió intentar hacer un modelo covid-19 él mismo. "Todo mi objetivo era producir el modelo más preciso posible", dice Gu, desde su apartamento en Manhattan. “No 'si esto' o 'si eso'. Básicamente, no hay "si". Realmente no importa cuáles sean los escenarios. Solo quería exponerlo: 'Este es el pronóstico más probable o realista de lo que va a suceder'".


En una semana, había construido un modelo de aprendizaje automático y lanzó su sitio web COVID-19 Projections (https://covid19-projections.com/). Ejecutó el modelo todos los días (solo tomó una hora en su computadora portátil) y publicó proyecciones de muerte de covid-19 para 50 estados de EE. UU., 34 condados y 71 países.


A finales de abril, estaba atrayendo la atención; en última instancia, millones visitaban su sitio web a diario. Carl Bergstrom, profesor de biología en la Universidad de Washington, se dio cuenta y comentó en Twitter que el modelo de Gu estaba "haciendo predicciones que parecen tan buenas como las que he visto".


 
“Puedo ser un poco escéptico de ML. Pero en este caso, no dejes que el texto de 'aprendizaje automático' te engañe haciéndote pensar que esto es aceite de serpiente”, tuiteó Bergstrom.


Gu, de 27 años, graduado del MIT con una maestría en ingeniería eléctrica e informática (más un título en matemáticas), había estado trabajando en una empresa de análisis deportivo cuando se produjo la pandemia. Pero puso esa empresa en pausa cuando los deportes de las grandes ligas cerraron. Y luego, simplemente buscando en Google "epidemiología", comenzó su incursión en el modelado de covid-19.


“No tenía experiencia en el modelado de enfermedades infecciosas”, dice. Pero sí tenía algunos años de experiencia como científico de datos en finanzas, trabajando con modelos estadísticos, modelos que, basados en ciertos supuestos estadísticos, analizan datos y hacen proyecciones sobre, digamos, dónde estará el precio de una acción en el futuro.


“Resulta que muchos modelos de enfermedades infecciosas son básicamente modelos estadísticos”, dice Gu. Y el objetivo de precisión impulsado por las ganancias de la industria financiera le sirvió bien en el dominio epidemiológico. “Si no puede hacer un modelo preciso en finanzas, ya no tendrá trabajo”, dice. Por el contrario, el objetivo en el mundo académico, al menos desde la perspectiva de Gu, no es tanto hacer modelos precisos, sino más bien publicar artículos e informar las políticas públicas. “Eso no quiere decir que no hagan modelos precisos, solo que no optimizan específicamente para la precisión”, dice.


El modelo de Gu combina el aprendizaje automático con un simulador clásico de enfermedades infecciosas llamado modelo SEIR (que incluye a los individuos de la población que son susceptibles, expuestos, infecciosos, recuperados o eliminados debido a la muerte).

El componente SEIR utiliza como entrada un conjunto simulado de parámetros: un rango de mejor estimación para variables como el número de reproducción básico (la tasa a la que surgen nuevos casos en una población totalmente susceptible al comienzo de un brote, antes de las intervenciones o la inmunidad) , tasa de infección, fecha de cierre, fecha de reapertura y número de reproducción efectiva (la tasa a la que surgen nuevos casos después de algunas intervenciones). En términos de resultados, el simulador SEIR primero calcula las infecciones a lo largo del tiempo y luego calcula las muertes (multiplicando las infecciones por la tasa de letalidad por infección).


La capa de aprendizaje automático de Gu genera miles de combinaciones diferentes para esos conjuntos de parámetros al tratar de encontrar los parámetros de la vida real para cada región geográfica. Aprende qué parámetros generan las proyecciones de muerte más precisas al comparar las predicciones de SEIR con datos reales sobre muertes diarias de la Universidad Johns Hopkins. “Trata de aprender qué conjuntos de parámetros generan muertes que se asemejan más a los datos reales observados, mirando hacia atrás”, dice Gu. "Y luego usa esos parámetros para pronosticar y hacer proyecciones sobre muertes en el futuro".


Los pronósticos resultaron extraordinariamente precisos. Por ejemplo, el 3 de mayo, hizo una aparición en CNN Tonight y compartió las proyecciones de su modelo de que Estados Unidos alcanzaría 70.000 muertes el 5 de mayo, 80.000 muertes el 11 de mayo, 90.000 muertes el 18 de mayo y 100.000 muertes el 27 de mayo. El 28 de mayo, tuiteó , "covid19-projections.com obtuvo las 4 fechas exactamente correctas". Con algo de redondeo, eso era cierto.


“No estoy diciendo que haya sido perfecto durante el último año. Me he equivocado muchas veces. Pero creo que todos podemos aprender a abordar la ciencia como un método para encontrar la verdad, en lugar de la verdad en sí ".


El modelo no fue perfecto, por supuesto, pero impresionó a Nicholas Reich, un bioestadístico e investigador de enfermedades infecciosas de la Universidad de Massachusetts, Amherst, cuyo laboratorio, en colaboración con los Centros para el Control y la Prevención de Enfermedades de EE. UU., Agrega resultados de aproximadamente 100 equipos internacionales de modelaje. Entre todos los modelos agregados, observó Reich, el modelo de Gu estaba "consistentemente entre los mejores".


El 6 de octubre, Gu publicó su pronóstico final de muerte, justo antes de la ola de otoño. El modelo proyectaba que habría 231.000 muertes en Estados Unidos para el 1 de noviembre. El total registrado a esa fecha: 230.995.


Gu cerró su primer modelo a principios de octubre porque para entonces había muchos equipos haciendo buenos pronósticos de muerte. En cambio, se dedicó a modelar infecciones reales frente a infecciones reportadas. Y luego en diciembre comenzó el seguimiento de implantación de la vacuna y el escurridizo “pat h a la inmunidad de grupo”, lo que a principios de 2021 se revisó a “camino a la normalidad.” Mientras que la inmunidad colectiva se logra cuando una porción suficiente de una población es inmune al virus, lo que reduce la propagación, Gu define la normalidad como "el levantamiento de todas las restricciones relacionadas con el covid-19 para la mayoría de los estados de EE. UU.".


“Quedó claro que no alcanzaremos la inmunidad colectiva en 2021, al menos definitivamente no en todo el país”, dice. “Y creo que es importante, especialmente si estás tratando de infundir confianza, que hagamos caminos sensatos para cuando podamos volver a la normalidad . No deberíamos vincular eso a un objetivo poco realista como alcanzar la inmunidad colectiva. Sigo siendo cautelosamente optimista de que mi pronóstico original en febrero, para un regreso a la normalidad en el verano, será válido ".


A principios de marzo, empacó la tienda por completo; pensó que había hecho la contribución que pudo. “Quería dar un paso atrás y dejar que los demás modeladores y expertos hicieran su trabajo”, dice. "No quiero confundir el espacio".


Todavía está atento a los datos, investigando y analizando las variantes, el lanzamiento de la vacuna y la cuarta ola. "Si veo algo que es particularmente preocupante o preocupante de lo que creo que la gente no está hablando, definitivamente lo publicaré", dice. Pero por el momento se está enfocando en otros proyectos, como “ YOLO Stocks ”, una plataforma de análisis de cotizaciones bursátiles. Su principal trabajo en la pandemia es como miembro del grupo asesor técnico de la Organización Mundial de la Salud sobre la evaluación de la mortalidad por covid-19, donde comparte la experiencia de un forastero.
"Definitivamente he aprendido mucho el año pasado", dice Gu. "Fue muy revelador".

Lección n. ° 1: Concéntrese en los fundamentos


“Desde la perspectiva de la ciencia de datos, mis modelos han demostrado la importancia de la simplicidad, que a menudo se subestima”, dice Gu. Su modelo de pronóstico de muerte era simple no solo en su diseño, el componente SEIR con una capa de aprendizaje automático, sino también en su enfoque muy reducido y "de abajo hacia arriba" con respecto a los datos de entrada. De abajo hacia arriba significa "comenzar desde lo mínimo y agregar complejidad según sea necesario", dice. “Mi modelo solo usa muertes pasadas para predecir muertes futuras. No utiliza ninguna otra fuente de datos real ".

Gu notó que otros modelos se basaron en una variedad ecléctica de datos sobre casos, hospitalizaciones, pruebas, movilidad, uso de mascarillas, comorbilidades, distribución por edad, demografía , estacionalidad de la neumonía, tasa anual de mortalidad por neumonía, densidad de población, contaminación del aire, altitud, datos de tabaquismo, -contactos informados, tráfico de pasajeros de aerolíneas, puntos de atención, termómetros inteligentes, publicaciones en Facebook, búsquedas en Google y más.

"Existe la creencia de que si agrega más datos al modelo, o lo hace más sofisticado, entonces el modelo funcionará mejor", dice. "Pero en situaciones reales como la pandemia, donde los datos son tan ruidosos, desea mantener las cosas lo más simples posible".

“Decidí desde el principio que las muertes pasadas son el mejor predictor de muertes futuras. Es muy simple: entrada, salida. Agregar más fuentes de datos solo hará que sea más difícil extraer la señal del ruido".


Lección n. ° 2: Minimice las suposiciones


Gu considera que tuvo una ventaja al abordar el problema con una pizarra en blanco. "Mi objetivo era simplemente seguir los datos en covid para aprender sobre covid", dice. "Ese es uno de los principales beneficios de la perspectiva de un extraño".


Pero al no ser epidemiólogo, Gu también tenía que estar seguro de que no estaba haciendo suposiciones incorrectas o inexactas. “Mi función es diseñar el modelo de modo que pueda aprender las suposiciones por mí”, dice.


“Cuando aparecen nuevos datos que van en contra de nuestras creencias, a veces tendemos a pasar por alto esos nuevos datos o ignorarlos, y eso puede tener repercusiones en el futuro”, señala. "Ciertamente me encontré siendo víctima de eso, y sé que muchas otras personas también lo han hecho".

“Por lo tanto, ser conscientes del sesgo potencial que tenemos y reconocerlo, y poder ajustar nuestras creencias previas, ajustar nuestras creencias si los nuevos datos las refutan, es realmente importante, especialmente en un entorno de rápido movimiento como el que hemos visto con COVID-19."


Lección # 3: Pon a prueba la hipótesis


“Lo que he visto en los últimos meses es que cualquiera puede hacer afirmaciones o manipular datos para que se ajusten a la narrativa de lo que quieren creer”, dice Gu. Esto resalta la importancia de simplemente hacer hipótesis comprobables.

“Para mí, esa es toda la base de mis proyecciones y pronósticos. Tengo un conjunto de suposiciones, y si esas suposiciones son ciertas, entonces esto es lo que predecimos que sucederá en el futuro ”, dice. “Y si las suposiciones terminan siendo incorrectas, entonces, por supuesto, tenemos que admitir que las suposiciones que hacemos no son ciertas y ajustarlas en consecuencia. Si no formula hipótesis comprobables, no hay forma de demostrar si en realidad está en lo cierto o no ".
 

Lección n. ° 4: aprenda de los errores


“No todas las proyecciones que hice fueron correctas”, dice Gu. En mayo de 2020, proyectó 180.000 muertes en los EE. UU. Para agosto. “Eso es mucho más alto de lo que vimos”, recuerda. Su hipótesis comprobable resultó incorrecta: "y eso me obligó a ajustar mis suposiciones".


En ese momento, Gu estaba usando una tasa de mortalidad por infección fija de aproximadamente el 1% como una constante en el simulador SEIR. Cuando en el verano redujo la tasa de mortalidad por infección a aproximadamente el 0,4% (y luego a aproximadamente el 0,7%), sus proyecciones volvieron a un rango más realista. 


Lección # 5: Involucrar a los críticos


“No todo el mundo estará de acuerdo con mis ideas, y eso lo agradezco”, dice Gu, quien usó Twitter para publicar sus proyecciones y análisis. “Intento responder a la gente tanto como puedo, defender mi posición y debatir con la gente. Te obliga a pensar cuáles son tus suposiciones y por qué crees que son correctas ".


"Se remonta al sesgo de confirmación", dice. “Si no puedo defender adecuadamente mi posición, entonces ¿es realmente el reclamo correcto, y debería hacer estos reclamos? Me ayuda a comprender, al relacionarme con otras personas, cómo pensar sobre estos problemas. Cuando otras personas presentan evidencia que contradice mis posiciones, tengo que ser capaz de reconocer cuándo puedo estar equivocado en algunas de mis suposiciones. Y eso me ha ayudado enormemente a mejorar mi modelo ".


Lección n. ° 6: ejercite un escepticismo saludable


“Ahora soy mucho más escéptico de la ciencia, y no es algo malo”, dice Gu. “Creo que es importante cuestionar siempre los resultados, pero de forma saludable. Es una línea muy fina. Porque mucha gente simplemente rechaza rotundamente la ciencia, y esa tampoco es la forma de hacerlo ".

“Pero creo que también es importante no confiar ciegamente en la ciencia”, continúa. "Los científicos no son perfectos". Es apropiado, dice, si algo no parece correcto, hacer preguntas y encontrar explicaciones. “Es importante tener diferentes perspectivas. Si hay algo que hemos aprendido durante el año pasado, es que nadie tiene el 100% de razón todo el tiempo ".


“No puedo hablar por todos los científicos, pero mi trabajo es cortar todo el ruido y llegar a la verdad”, dice. “No estoy diciendo que haya sido perfecto durante el último año. Me he equivocado muchas veces. Pero creo que todos podemos aprender a abordar la ciencia como un método para encontrar la verdad, en lugar de la verdad en sí ".
 

NOTICIAS IMPORTANTES

Suscribite a nuestro NewsLetter y recibí todas las noticias en tu mail