La Justicia toma decisiones con algoritmos: no está claro que funcione o que sea justo.

Los jueces están usando algoritmos para justificar lo que ya quieren hacer. Las puntuaciones de riesgo algorítmicas podrían estar ocultando un problema más amplio sobre cómo funciona el sistema judicial.

2/11/2024

Cuando Sino Esthappan, estudiante de posgrado de la Universidad Northwestern, comenzó a investigar cómo los algoritmos deciden quién permanece en prisión, esperaba “una historia sobre humanos versus tecnología”. De un lado, estarían los jueces humanos, a quienes Esthappan entrevistó extensamente. Del otro, estarían los algoritmos de evaluación de riesgos, que se utilizan en cientos de condados de Estados Unidos para evaluar el peligro de conceder la libertad bajo fianza a los delincuentes acusados. Lo que descubrió fue más complicado y sugiere que estas herramientas podrían ocultar problemas mayores con el propio sistema de fianzas.

Las evaluaciones de riesgo algorítmicas tienen como objetivo calcular el riesgo de que un acusado penal no regrese a la corte (o, peor aún, de que dañe a otros) si es liberado. Al comparar los antecedentes de los acusados ​​penales con una amplia base de datos de casos anteriores, se supone que ayudan a los jueces a evaluar el riesgo que implicaría liberar a alguien de la cárcel. Junto con otras herramientas impulsadas por algoritmos, desempeñan un papel cada vez más importante en un sistema de justicia penal que a menudo está sobrecargado. Y, en teoría, se supone que ayudan a reducir el sesgo de los jueces humanos.

Pero el trabajo de Esthappan, publicado en la revista Social Problems , concluyó que los jueces no adoptan o rechazan de manera generalizada los consejos de estos algoritmos, sino que informan que los utilizan de manera selectiva, motivados por factores profundamente humanos que los llevan a aceptar o descartar sus puntuaciones. 

Las herramientas de evaluación de riesgos previa al juicio calculan la probabilidad de que los delincuentes acusados ​​regresen a las audiencias judiciales si son liberados de la cárcel. Las herramientas toman detalles que les proporcionan los funcionarios encargados de la etapa previa al juicio, incluidos datos como antecedentes penales y perfiles familiares. Comparan esta información con una base de datos que contiene cientos de miles de registros de casos anteriores, y analizan cómo se comportaron los acusados ​​con antecedentes similares. Luego, ofrecen una evaluación que puede adoptar la forma de una etiqueta de riesgo "bajo", "medio" o "alto" o un número en una escala. Los jueces reciben las puntuaciones para su uso en las audiencias previas al juicio: reuniones breves, celebradas poco después de que se arresta a un acusado, que determinan si será liberado (y en qué condiciones). 

Al igual que con otras herramientas de justicia penal algorítmica, sus partidarios las posicionan como correctivos neutrales y basados ​​en datos para corregir el capricho y el sesgo humanos. Los detractores plantean cuestiones como el riesgo de discriminación racial. “Dado que muchas de estas herramientas se basan en los antecedentes penales, el argumento es que los antecedentes penales también están codificados racialmente en función de las prácticas de vigilancia de las fuerzas del orden”, dice Esthappan. “Por lo tanto, ya existe un argumento de que estas herramientas están reproduciendo sesgos del pasado y los están codificando para el futuro”.

Tampoco está claro qué tan bien funcionan. Una investigación de ProPublica de 2016 descubrió que un algoritmo de puntuación de riesgo utilizado en el condado de Broward, Florida, era “notablemente poco confiable para pronosticar delitos violentos”. Solo el 20 por ciento de aquellos que el algoritmo predijo que cometerían delitos violentos realmente lo hicieron en los siguientes dos años después de su arresto. El programa también tenía más probabilidades de etiquetar a los acusados ​​​​negros como futuros delincuentes o de mayor riesgo en comparación con los acusados ​​​​blancos, descubrió ProPublica .

Aun así, el profesor de criminología de la Universidad de Pensilvania, Richard Berk, sostiene que los responsables de la toma de decisiones también pueden ser igualmente imperfectos. “Estos sistemas de justicia penal están hechos con instituciones y seres humanos, todos ellos imperfectos, y no es sorprendente que no hagan un buen trabajo a la hora de identificar o pronosticar el comportamiento de las personas”, afirma Berk. “Así que el listón está realmente muy bajo, y la pregunta es: ¿pueden los algoritmos subir el listón? Y la respuesta es sí, si se proporciona la información adecuada”.

Sin embargo, tanto los temores como las promesas en torno a los algoritmos en los tribunales presuponen que los jueces los utilizan de forma sistemática. El estudio de Esthappan demuestra que, en el mejor de los casos, se trata de una suposición errónea.

Esthappan entrevistó a 27 jueces de cuatro tribunales penales en diferentes regiones del país durante un año entre 2022 y 2023, y les hizo preguntas como: "¿Cuándo considera que las puntuaciones de riesgo son más o menos útiles?" y "¿Cómo y con quién discute las puntuaciones de riesgo en las audiencias previas al juicio?". También analizó la cobertura de noticias locales y los expedientes de casos, observó 50 horas de tribunales de fianzas y entrevistó a otras personas que trabajan en el sistema judicial para ayudar a contextualizar los hallazgos.

Los jueces dijeron a Esthappan que utilizaban herramientas algorítmicas para procesar rápidamente los casos de menor importancia, apoyándose en puntuaciones automatizadas incluso cuando no estaban seguros de su legitimidad. En general, desconfiaban de seguir las puntuaciones de bajo riesgo para los acusados ​​de delitos como agresión sexual y violencia de pareja, a veces porque creían que los algoritmos subestimaban o sobreestimaban varios factores de riesgo, pero también porque su propia reputación estaba en juego. Y, a la inversa, algunos describieron el uso de los sistemas para explicar por qué habían tomado una decisión impopular, creyendo que las puntuaciones de riesgo añadían un peso autoritario.
Las entrevistas revelaron patrones recurrentes en las decisiones de los jueces de utilizar puntuaciones de evaluación de riesgo, con frecuencia basadas en los antecedentes penales o el origen social de los acusados. Algunos jueces creían que los sistemas subestimaban la importancia de ciertas señales de alerta (como los antecedentes penales extensos de los acusados ​​o ciertos tipos de cargos relacionados con armas) o exageraban factores como los antecedentes penales antiguos o el bajo nivel educativo. “Muchos jueces utilizaron sus propios puntos de vista morales sobre cargos específicos como criterios para decidir cuándo las puntuaciones de riesgo eran legítimas o no a los ojos de la ley”, escribe Esthappan.

Algunos jueces también dijeron que utilizaban las puntuaciones como una cuestión de eficiencia. Estas audiencias previas al juicio son breves (a menudo, menos de cinco minutos) y requieren decisiones rápidas basadas en información limitada. La puntuación algorítmica al menos proporciona un factor más a tener en cuenta.

Sin embargo, los jueces también eran muy conscientes de cómo una decisión se reflejaría en ellos y, según Esthappan, este era un factor enorme a la hora de confiar en las puntuaciones de riesgo. Cuando los jueces veían una acusación que creían que era menos un problema de seguridad pública y más el resultado de la pobreza o la adicción, a menudo se remitían a las puntuaciones de riesgo, viendo un pequeño riesgo para su propia reputación si se equivocaban y viendo su papel, como lo describió un juez, como el de decidir “bolas y strikes”, en lugar de convertirse en un “ingeniero social”. 

En el caso de los cargos de alto nivel que implicaban algún tipo de peso moral, como la violación o la violencia doméstica, los jueces dijeron que era más probable que se mostraran escépticos. Esto se debió en parte a que identificaron problemas con la forma en que el sistema ponderaba la información para delitos específicos: en los casos de violencia de pareja, por ejemplo, creían que incluso los acusados ​​sin un largo historial delictivo podían ser peligrosos. Pero también reconocieron que lo que estaba en juego, para ellos y para los demás, era más importante. “Tu peor pesadilla es dejar salir a alguien con una fianza menor y luego ir y lastimar a alguien. Quiero decir, todos nosotros, cuando veo esas historias en las noticias, creo que podría haber sido cualquiera de nosotros”, dijo un juez citado en el estudio.  

Mantener en prisión a un acusado que presenta un riesgo verdaderamente bajo también tiene sus costos. Mantiene a alguien que probablemente no dañará a nadie lejos de su trabajo, su escuela o su familia antes de que sea condenado por un delito. Pero el riesgo para la reputación de los jueces es mínimo, y agregar una puntuación de riesgo no cambia ese cálculo. 

El factor decisivo para los jueces a menudo no era si el algoritmo parecía confiable, sino si los ayudaría a justificar una decisión que querían tomar. Los jueces que liberaban a un acusado basándose en una puntuación de riesgo baja, por ejemplo, podían “desviar parte de esa responsabilidad de ellos mismos y atribuirla a la puntuación”, dijo Esthappan. Si una presunta víctima “quiere que encierren a alguien”, dijo un sujeto, “lo que hará el juez es decir: ‘Nos guiamos por una evaluación de riesgo que puntúa el éxito en la probabilidad de que el acusado comparezca y vuelva a ser arrestado. Y, en función del estatuto y de esta puntuación, mi trabajo es establecer una fianza que proteja a otros en la comunidad’”. 

“En la práctica, los puntajes de riesgo amplían los usos de la discreción entre los jueces, quienes los utilizan estratégicamente para justificar sanciones punitivas”

El estudio de Esthappan pone en entredicho la idea de que las herramientas algorítmicas dan lugar a decisiones más justas y coherentes. Si los jueces eligen cuándo confiar en las puntuaciones basándose en factores como el riesgo reputacional, señala Esthappan, es posible que no estén reduciendo el sesgo impulsado por los humanos, sino que podrían estar legitimándolo y dificultando su detección. “Mientras que los responsables de las políticas promocionan su capacidad para frenar la discreción judicial, en la práctica, las puntuaciones de riesgo amplían los usos de la discreción entre los jueces, que las utilizan estratégicamente para justificar sanciones punitivas”, escribe Esthappan en el estudio. 

Megan Stevenson, economista y especialista en justicia penal de la Facultad de Derecho de la Universidad de Virginia, afirma que las evaluaciones de riesgo son una especie de “juguete tecnocrático de los responsables políticos y los académicos”. Dice que parece ser una herramienta atractiva para intentar “eliminar la aleatoriedad y la incertidumbre de este proceso”, pero, según los estudios sobre su impacto, a menudo no tienen un efecto importante en los resultados de ninguna manera.

Un problema mayor es que los jueces se ven obligados a trabajar con un tiempo y una información muy limitados. Berk, profesor de la Universidad de Pensilvania, afirma que recopilar más y mejor información podría ayudar a los algoritmos a realizar mejores evaluaciones. Pero eso requeriría tiempo y recursos que los sistemas judiciales tal vez no tengan. 

Pero cuando Esthappan entrevistó a los defensores públicos, estos plantearon una pregunta aún más fundamental: ¿debería existir la prisión preventiva, en su forma actual? Los jueces no solo trabajan con datos inconexos. Están determinando la libertad de alguien incluso antes de que esa persona tenga la oportunidad de luchar contra sus cargos, a menudo basándose en predicciones que son en gran medida conjeturas. “En este contexto, creo que tiene sentido que los jueces se basen en una herramienta de evaluación de riesgos porque tienen información muy limitada”, dice Esthappan a The Verge . “Pero, por otro lado, lo veo como una especie de distracción”. 

Las herramientas algorítmicas tienen como objetivo abordar un problema real relacionado con la toma de decisiones imperfecta de los seres humanos. “La pregunta que tengo es: ¿es ese realmente el problema?”, le dice Esthappan a The Verge . “¿Es que los jueces están actuando de manera sesgada o hay algo más estructuralmente problemático en la forma en que escuchamos a las personas antes del juicio?”. La respuesta, dice, es que “hay un problema que no necesariamente se puede solucionar con evaluaciones de riesgo, sino que se relaciona con un problema cultural más profundo dentro de los tribunales penales”.