13/7/18

Armas de destrucción matemática. Cómo el Big Data aumenta la desigualdad y amenaza la democracia

"[Por mor de la simplicidad, marcaré entre paréntesis y con números arábigos las páginas del libro que comento, según la edición castellana: Cathy O’Neil, Armas de destrucción matemática. Cómo el Big Data aumenta la desigualdad y amenaza la democracia, trad. de Violeta Arranz de la Torre, Madrid, Capitán Swing, 2018.]

Sin caer en determinismos tecnológicos, cualquiera con una mínima sensibilidad materialista aceptará que los instrumentos técnicos han sido elementos relevantes en el desarrollo de las instituciones políticas.

 Aunque podamos declarar la autonomía de los principios normativos que regulan nuestras aspiraciones políticas, su realización depende en muchas ocasiones de que dispongamos de medios técnicos que nos lo faciliten.

 Podemos ser unos incondicionales de la libertad de expresión, pero tenemos que aceptar que para que de facto disfrutemos de todo el contenido implicado en ese principio normativo, hacen falta muchísimas más cosas además de su reconocimiento formal en un texto legal. 

No hace falta pensar en sofisticadas tecnologías como la imprenta, la fibra óptica o el 3G: algo tan sencillo como la escritura es un elemento técnico fundamental para el ensanchamiento de la libertad de expresión e información. Lo es del mismo modo que disponer de técnicas de contabilidad resulta esencial para llevar a cabo programas de redistribución de riqueza a gran escala, o una red de telégrafos para conseguir una centralización estatal eficaz.

 Los principios normativos, decía, son autónomos de cada contexto tecnológico —Thomas Jefferson defendía la libertad de expresión con intuiciones muy similares a las de Pericles, aunque la mayoría de atenienses fueran analfabetos, no tuvieran correo postal ni conocieran la imprenta—, pero es innegable que las herramientas técnicas abren (o cierran, si están del lado del tirano) las posibilidades de institucionalización y su realización de facto.

1. Un ejemplo para explicar la principal idea del libro

Los modelos matemáticos son una de esas herramientas técnicas que en la era del big data —la capacidad para generar y procesar datos masivamente— afectan de lleno a nuestra vida sociopolítica. Para lo que a nosotros nos interesa, podemos hablar de un modelo matemático como un conjunto de normas que traducen datos en predicciones. 

Los puede haber más y menos sofisticados, pero la modelización de la realidad social es una capacidad cognitiva que usamos constantemente. La autora no insiste en ello, pero es fácil entender el uso pernicioso del big data como sesgo cognitivo a escala masiva y camuflado por matemáticas. Veamos el siguiente, basado en un prejuicio racial (que lo alimenta):
  1. Datos brutos: a veces roban productos de mi tienda; tengo alguna información acerca de esas personas y me fijo en alguna característica llamativa para mí, como su acento, su color de piel, su manera de vestir, etc.
  2. Procesamiento, busco correlaciones: la mayoría de ladrones a los que he pillado han resultado ser negros.
  3. Predicción: lo más probable es que si un negro entra mi tienda, será para robar; indicaré a mi guardia jurado que les vigile con especial atención.
El modelo es simple y se basa en una sencilla correlación de dos variables (hurtos y color de piel) que justifica la acción de prestar más atención a la vigilancia de ese tipo de clientes. 

Mi cerebro hace ese pequeño cálculo y orienta mi acción, haciéndome confundir correlación con causalidad. Para que un inofensivo algoritmo o modelo matemático se convierta en un “arma de destrucción matemática” (ADM) suele cumplir tres características:
  1. Opacidad (o incluso invisibilidad): ¿saben mis clientes que trato de predecir si me roban o no?, ¿saben que el color de su piel es una variable relevante en mi modelización de los hurtos?
  2. Bucle de retroalimentación: en lugar de contrastar mi modelo con una prueba empírica rigurosa (para descubrir si existe causalidad entre el color de piel y el robo), asumo que las correlaciones son vínculos causales y a medida que aplico mi modelo, mi propia generación de datos comienza a sesgarse por las correlaciones que había observado originalmente. Como vigilo más a los clientes negros, descubriré más hurtos suyos que de otros grupos que pudieran ser relevantes, retroalimentando la correlación inicial del modelo en cada iteración. Las ADM frecuentemente toman la forma de profecías autocumplidas.
  3. Escalabilidad: a parte de la escasa sensibilidad racial, poco se le puede impugnar a un tendero prejuicioso que con su pequeño modelo mental alimenta su propio sesgo cognitivo. Pero las ADM que trata O’Neil son a escala nacional y se basan en gran cantidad de datos —por eso afectan a tantas personas—. Aunque podría contar como otra característica más, la escalabilidad suele ir asociada al uso de variables sustitutivas [1].
1.1. Dos casos relacionados: la predicción de la reincidencia y del crimen

Como el comentario de este libro es una mera excusa para abordar cuestiones filosófico-políticas de mayor calado, me remitiré a exponer dos de los muchos casos que el libro desarrolla, para dar una muestra del funcionamiento de las ADM. Es bien sabido que una revisión de la jurisprudencia penal estadounidense revela sesgos racistas por parte de los jueces.

 Una manera de evitar la arbitrariedad que supone la sensibilidad política del juez es usar un algoritmo auxiliar que predice la reincidencia del reo, ayudando así a determinar cuántos años debería ir a la cárcel o si le otorgan la condicional: “podríamos pensar que la utilización de modelos de riesgo informatizados nutridos con datos debería reducir la influencia de los prejuicios en las condenas y contribuiría a que el trato impartido sea más imparcial” (p. 35).

El LSI-R es uno de esos algoritmos ampliamente utilizados en Estados Unidos, que basa sus resultados en cuestionarios que rellenan los mismos presos: “¿Cuántas condenas previas ha tenido?”, “¿Qué papel tuvieron otras personas en el delito?”, “¿Qué papel tuvieron las drogas y el alcohol?”, “¿Cuándo fue la primera vez que tuvo trato con la policía?”.

El modelo elabora sus predicciones de acuerdo a correlaciones que podríamos pensar que son razonables [2], por ejemplo, si el reo tuvo su primer encuentro con la policía con 13 años o si su hermano fue también delincuente, el algoritmo le asignará mas probabilidades de reincidir, porque hay una masiva base de datos [3] según la cual otros condenados con las mismas características fueron reincidentes.

Si le hacemos esa pregunta [sobre si sus familiares o amigos tienen antecedentes] a un condenado que se haya criado en un barrio de clase media, es mucho más probable que la respuesta sea no (…) el cuestionario no pregunta por la raza, ya que esa pregunta es ilegal, pero teniendo en cuenta la abundancia de detalles que obtiene de la vida de cada preso, esa única pregunta ilegal es prácticamente superflua (p. 37).

La herramienta es tremendamente eficiente y ahorra muchísimos recursos al sistema judicial, resolviendo mucho más rápido los procesos. Pero ¿sería aceptable que un fiscal argumentara contra la prisión condicional del acusado señalando que sus padres eran unos delincuentes?

Algunos cuerpos de policía en EE.UU. usan PredPol: una aplicación en la que “los datos de entrada principales son la tipología y localización de cada delito, así como el momento en que tienen lugar” (p. 109), por lo que a priori no cometería la misma injusticia que el LSI-R. La aplicación divide un mapa en zonas de diverso riesgo para así distribuir las patrullas policiales. 

Y otra vez aparece el bucle de retroalimentación: se envían más patrullas a barrios de mayor “desorden” (en los que abundan delitos menores), que a su vez producen más encuentros con la policía, que a su vez aumentan las correlaciones en la base de datos, que a su vez hace que se envíe al mismo lugar más policía, etc.

La policía de Los Ángeles podría decidir eliminar los delitos menores de los datos de entrada del modelo —posesión de pequeñas cantidades de droga, beber en la calle, hurtos en comercios, grafitis, multas de tráfico…—, pero cuando eso ocurre “la capacidad de predicción” se ve muy reducida, ya que los delitos graves, como los grandes robos, los asesinatos o las violaciones se producen de manera dispersa por el mapa.

 Lo que PredPol hace, concluye O’Neil, es “un mapa de la pobreza” (p. 113) y la “criminaliza”, “convencidos en todo momento de que nuestras herramientas no solo son científicas, sino también justas” (p. 115).

PredPol es un gran ejemplo de cómo los algoritmos son meros deudores de los sesgos, vicios y virtudes de sus diseñadores. Hay delitos, como las grandes estafas financieras, que no están localizadas en un mapa; o crímenes, como casos de corrupción, que se trenzan en restaurantes e instituciones de distritos financieros y que cuando se descubren no dan lugar a un parte policial que añada un punto en el mapa.

 La herramienta no solo funciona de manera pésima, sino que se funda en una criminología pobre, anticuada y conservadora. Lo mismo con la herramienta que usa la policía de Chicago: ¡hostigaban a jóvenes inocentes en base a su red de amigos de Facebook! (p. 129). Esta manera de usar las ADM legitima el statu quo mediante la técnica: “los procesos de big datacodifican el pasado. No inventan el futuro” (p. 252).

Con ligeras variaciones, este es el funcionamiento general de las ADM que describe el libro. En general, su carácter pernicioso redunda en que cuando segmentan la base de datos nos agrupan con gente “similar” a nosotros y nos asignan sus comportamientos. 

Muchas veces las correlaciones que se extraen del big data son reales, como la relación entre colesterol e infartos, lo cual no quiere decir que su uso sea justo, por ejemplo, que alguien no pueda acceder a un puesto de trabajo por su nivel de colesterol —o que le penalicen en el sueldo con un sobrecoste del seguro médico porque un algoritmo dice que el que está gordo es más propenso a morir y trabajar peor (p. 217)—. 

Otro tipo de correlaciones, también verdaderas, son usadas para reducir la capacidad de negociación de los más débiles [4]: por ejemplo, que si uno tiene familia a su cargo y está en el paro, será más propenso a aceptar condiciones de préstamo leoninas [5].

2. Tres reflexiones filosófico-políticas en torno al libro

2.1. Agencia humana y eficiencia en el sistema penal

A mi parecer, lo que todos los ADM que Cathy O’Neil expone tienen en común es la negación de la capacidad de agencia de los seres humanos. Las herramientas que modelizan nuestro comportamiento gracias al big data tienen una visión del libre albedrío propia de Calvino.

El modelo matemático procesa información de gente “como nosotros”, y nos agrupa según de qué se trate: por nuestro código postal, por una deuda similar en nuestra tarjeta de crédito, por nuestra edad, gustos culturales parecidos, hábitos alimenticios, etc.

 De esa información y de las múltiples correlaciones deduce un comportamiento, nos asigna un grupo, “microsegmenta” la base de datos: nos asigna un perfil de acción. Esa asignación de perfiles no es algo diferente en el caso del márquetin [6], que lo que hace es detectar los perfiles en los que se intersectan mayor cantidad de vulnerabilidades.

Ahora bien, de cara al sistema judicial, la sola idea de que se anule nuestra capacidad de agencia es desastrosa. El tratar de “predecir”, aunque sea teóricamente, si alguien cometerá un crimen es un absurdo desde el punto de vista del derecho, pues contradice la idea de responsabilidad moral y penal: si fuera cierto que estoy determinado (por mi infancia, mi familia, mis amigos, mi código postal…) a cometer un delito, ¿cómo se me puede exigir responsabilidad por ello? 

El intento de predicción y prevención del crimen mediante el sistema penal, propio de una novela orwelliana, socava uno de los pilares del Estado de derecho: los programas expuestos en este libro son un tenebroso ejemplo que retroalimenta las desigualdades e injusticias existentes.

Pero es que los algoritmos del sistema penal cometen otro grave error. La “eficiencia” que buscan, el “ahorro” de tiempo y recursos, no son principios constitucionales. 

La justicia y la imparcialidad, sin embargo, sí; principios, de hecho, bastante ineficientes, caros. Un juicio con acusación y defensa, presentación de pruebas, testigos, con varias posibilidades de apelación a tribunales, crea un sistema ineficaz y largo. Consume una enorme cantidad de recursos y todo a cambio de garantizar un juicio justo o respetar la presunción de inocencia del acusado. 

Esta cuestión la comenta muy brevemente O’Neil ––una excepción de altura filosófica en un libro lleno de crudos estudios de caso––: “en la lógica implícita en la Constitución [estadounidense], dejar en libertad a alguien que pudiera haber cometido un delito, por falta de pruebas, es menos peligroso para nuestra sociedad que encarcelar o ejecutar a una persona inocente” (p. 119).

 El LSR-I es un caso de fetichismo tecnológico: el descubrimiento de una técnica, a priori útil, ha difuminado los principios normativos que constituyen el sistema judicial. Es como si por el mero hecho de tener la capacidad técnica para llevar a cabo una democracia directa (con smartphones para todos y votaciones diarias) sacrificáramos todos los otros principios que articulan nuestro sistema político (la deliberación o las decisiones informadas, por ejemplo) [7].

2.2. Publicidad y disputabilidad de las acciones del Estado

Otro de los casos que cuenta el libro es el de una política pública de evaluación del profesorado de secundaria a partir de un modelo que indexaba diversas variables basadas en datos provenientes de los exámenes de los alumnos. El sistema fue un desastre (pp. 169-173) por razones que no vienen al caso (básicamente otro abusivo uso de variables proxy).

 Lo que sí nos interesa es el detalle de que los patrones de funcionamiento del algoritmo estuvieran ocultos a los profesores que estaban siendo modelizados: no sabían qué variables eran las relevantes para su puntuación [8].

 Imaginemos unas oposiciones públicas que excluyen candidatos sin dar razones, o aún peor: remitiendo dogmáticamente al resultado de un cálculo incuestionable escupido por un ordenador, otra escena propia de Orwell. El uso de algoritmos de propiedad privada (siempre opacos) en políticas públicas viola el criterio básico de publicidad, que en su más común formulación decía que “Son injustas todas las acciones que se refieren al derecho de otros hombres cuyos principios no soportan ser publicados” [9].

 Los modelos basados en big data convierten en indisputable la decisión del burócrata, del juez, porque su nula transparencia solo permite apelar a los sesgos que contienen mediante deducciones a partir de sus consecuencias. 

Como los consejos de tecnócratas de las instituciones europeas, el uso de algoritmos opacos va contra la naturaleza delegada y fiduciaria del poder político. Lo mismo que hoy hacen estos “neutrales” conjuntos de reglas matemáticas lo hicieron en otro tiempo los oscuros gabinetes técnicos de los poderes ejecutivos desembridados [10].

2.3. Sesgos de confirmación y deliberación política

Una de las aplicaciones de técnicas de microsegmentación es en campañas políticas. Igual que los publicistas que trabajan con los datos que genera nuestra actividad en internet para crear perfiles de consumidores rentables que luego vender a las marcas, los servicios de asesoría política de análisis de datos modelizan votantes-tipo. 

El uso más siniestro es la capacidad de, literalmente, individualizar la imagen que proyectan los candidatos sobre su electorado [11]. Cada candidato es un prisma con múltiples caras y opiniones específicas en variados temas no necesariamente relacionados entre sí. 

De hecho, las demandas que personifica un candidato pueden ser contradictorias vistas desde el punto de vista de su electorado en general. Imaginemos un político que personifique tres demandas —controlar el fracking, mejorar los parques nacionales y continuar la política exterior beligerante— que pueden ser excluyentes entre sí para muchos de sus votantes: ¿y si pudiéramos saber qué perfil de votante es cada uno de los interesados por el candidato, de tal modo que solo le hagamos llegar información de la cara del prisma en la que el votante en cuestión está interesado? 

En lugar de mandar el mismo email a todos los contactos de la lista, aplicamos minería de datos a los interesados y descubrimos si el email que reciba y los anuncios que vea en la web de campaña tienen que ser del candidato en su versión ecologista o en la militarista [12].

Desde este punto de vista, las perspectivas para la deliberación política no resultan halagadoras. El votante recibirá de los candidatos solo información personalizada acorde con su visión del mundo. En la era del big data, el votante ya ni siquiera puede ser concebido como consumidor (como se empeña en defender Cass Sunstein [13]).

 ¡El votante es el producto! Detectar mediante minería de datos a los sectores de población indecisos en circunscripciones clave —en las que unos miles de votos deciden la presidencia— los convierten en un activos en los que centrar las inversiones en publicidad de campaña, mientras que otros votantes —quizá porque sus clics han desvelado ya su clara intención de voto, quizá porque no producen información suficiente como para ser modelizados— dejan de recibir información directa de las oficinas de candidatos [14].

A este contexto agorero para la deliberación política y reino de los sesgos de confirmación, se unen las “cámaras de eco” que suponen las redes sociales, que nos proporcionan información de puntos de vista que ya conocemos (los de nuestros amigos y aquellos a quienes seguimos). 

El último golpe que las herramientas algorítmicas asestan a la democracia tal y como la conocíamos es la gran mediatización de nuestro acceso a la información, con Facebook y Google operando entre medios de comunicación convencionales y ciudadanos. Su poder omnímodo se revela mediante las increíbles cifras de confianza que infunden como fuentes de información [15]. Pero, de nuevo, la invisibilidad y opacidad de los modelos matemáticos nos dice mucho acerca de su forma de trabajar.

 El error es pensar que tecnicidad y matematización son equivalentes a neutralidad axiológica. Facebook utiliza múltiples criterios para decidir el orden en el que aparecen contenidos en nuestro muro. De hecho, no solo vende esa capacidad a anunciantes, sino que lleva a cabo macroexperimentos psicosociales constantemente (pp. 228-229).

 El algoritmo de búsqueda de Google, igual. Lo hacen igual que los periódicos y los telediarios: eligen un orden de aparición, unas determinadas imágenes y testimonios sobre otros, etc. Lo que ocurre con ese tipo de medios es que son criticables: sabemos que tienen una línea editorial y podemos cuestionar sus decisiones.

  La complejidad y opacidad matemática de Google y Facebook, en cambio, hace que se presenten como prístinos criterios alejados de sesgos humanos o intereses espurios.

Acabaré por donde comencé, compartiendo una reflexión que cruza el texto de O’Neil y que le da pleno sentido político. Sea cual sea el contexto tecnológico en el que nos encontremos, nuestras inquietudes políticas y humanas son esencialmente las mismas.

 La justicia y la presunción de inocencia tienen un valor autónomo respecto a nuestra capacidad para predecir crímenes, igual que el derecho a una jornada laboral asumible no debe verse afectado por nuestra tecnología para sofisticar al máximo la producción just in time, con horarios ajustados al flujo de clientes. Aunque fuese posible determinar cuándo uno morirá de un infarto, nunca consideraremos legítimo que se nos excluya del mercado de trabajo por discapacidades físicas.

 El big data supone una ventana de oportunidades innegable para el desarrollo de políticas públicas eficaces, implica grandes cambios en la manera en la que nos movemos en el mundo y en la que compartimos nuestra información. Implicará cambios en la forma en la nos informamos y nos informan, pero no en las razones por las cuales seguimos queriendo hacerlo."                   (David Guerrero Martín, Mientras Tanto, 30/06/18)

No hay comentarios: