¿Puede confiar en las afirmaciones de precisión del reconocimiento facial de Amazon?

Vota este post

En julio de 2018, la Unión Estadounidense por las Libertades Civiles (ACLU, por sus siglas en inglés) realizó una prueba utilizando la herramienta de reconocimiento facial de Amazon, «Rekognition», para comparar fotos de miembros del Congreso de los EE. UU. con fotografías policiales de personas arrestadas por un delito.

La ACLU encontró 28 coincidencias falsas, lo que destaca las deficiencias de la tecnología de reconocimiento facial que se vende a las agencias policiales en todo el país.

Entonces, ¿ha mejorado? Con curiosidad por saber si el reconocimiento facial está mejorando y con qué rapidez, Comparitech decidió realizar un estudio similar casi dos años después, agregando a los políticos del Reino Unido a la mezcla, para un total de 1959 legisladores.

El estudio muestra que el software de reconocimiento facial de Amazon comparó incorrectamente más de 100 fotos de legisladores estadounidenses y británicos con fotos de arrestos policiales, pero medir la precisión no es tan simple como parece.

Antes de discutir en detalle los resultados del estudio entre los políticos de EE. UU. y el Reino Unido, primero revisemos el punto de apoyo sobre el que giran todas estas pruebas: los umbrales de confianza.

Umbrales de confianza

Cuando Rekognition de Amazon compara dos imágenes, no devuelve simplemente una respuesta de sí o no. En cambio, los resultados se dan como porcentajes. Cuanto mayor sea el porcentaje, más confianza tiene Rekognition en que las dos imágenes son de la misma persona.

La ACLU usó la configuración predeterminada de Rekognition, que estableció el umbral de confianza en un 80 por ciento.

Amazon reprendió los hallazgos de la ACLU y dijo que el umbral era demasiado bajo. Un portavoz de Amazon le dijo a GCN que debería establecerse al menos en un 95 por ciento para fines de cumplimiento de la ley, y una publicación de blog en el sitio web de Amazon Web Services indicó que debería ser del 99 por ciento. Sin embargo, un informe de Gizmodo encontró que depende de la discreción de la policía establecer esos umbrales, y no siempre usan las recomendaciones de Amazon.

Elevar el umbral de confianza conduce inevitablemente a menos falsos positivos (coincidencia incorrecta de dos fotos de personas diferentes), pero también a más falsos negativos (falta de coincidencia de dos fotos de la misma persona). Desafortunadamente, los investigadores no pudieron medir esto último en este experimento. Más sobre eso más adelante.

Los investigadores de Comparitech se comunicaron con la ACLU y Amazon para obtener comentarios y actualizarán este artículo si recibimos una respuesta registrada.

A NOSOTROS

El conjunto de datos de EE. UU. estaba compuesto por fotos de 430 representantes y 100 senadores.

Con un umbral de confianza del 80 por ciento, Rekognition coincidió incorrectamente con un promedio de 32 congresistas de EE. UU. a fotos policiales en la base de datos de arrestos. Son cuatro más que el experimento de la ACLU hace dos años.

Según esos estándares, el reconocimiento facial de Amazon no ha mejorado e incluso ha funcionado peor que lo que postuló la ACLU hace dos años.

Sin embargo, cuando los investigadores aumentaron el umbral de lo que Amazon recomienda para la aplicación de la ley, no encontraron coincidencias incorrectas en o por encima del 95 por ciento de confianza. La ACLU no brindó resultados en este umbral en 2018, por lo que los investigadores no tienen resultados anteriores con los que puedan comparar.

Reino Unido

El conjunto de datos del Reino Unido consta de 1429 políticos: 632 miembros del Parlamento y 797 miembros de la Cámara de los Lores. Los investigadores los compararon con las mismas fotos de arrestos que los políticos estadounidenses.

Con un umbral de confianza del 80 por ciento, Rekognition identificó erróneamente un promedio de 73 políticos con fotografías policiales en la base de datos de arrestos. La tasa de falsos positivos fue menor para los políticos del Reino Unido (5 por ciento) que para los estadounidenses (13 por ciento), lo que podría sugerir que los políticos del Reino Unido se ven sustancialmente diferentes a sus contrapartes estadounidenses, al menos según Rekognition.

Cuando los investigadores elevaron el umbral de confianza al 95 por ciento, no hubo coincidencias incorrectas.

sesgo racial

La ACLU alegó que, con un umbral de confianza del 80 por ciento, la tecnología de reconocimiento facial de Amazon tenía prejuicios raciales, identificando erróneamente a los no blancos a un ritmo más alto que a los blancos.

Los resultados de Comparitech respaldan este hallazgo. De los 12 políticos que fueron identificados erróneamente en un umbral de confianza del 90 por ciento o más, seis no eran blancos (como se muestra en la imagen en la parte superior de este artículo). Eso significa que la mitad de las personas mal identificadas eran personas de color, a pesar de que los no blancos solo representan alrededor de una quinta parte del Congreso de los EE. UU. y una décima parte del parlamento del Reino Unido.

Metodología

Comparitech usó fotos disponibles públicamente de 430 representantes de EE. UU., 100 senadores de EE. UU., 632 miembros del Parlamento del Reino Unido y 797 miembros de la Cámara de los Lores.

Estos se compararon con cuatro conjuntos de 25,000 fotos de arrestos elegidas al azar de Jailbase.com usando Amazon Rekognition. El experimento se repitió una vez para cada conjunto y los resultados se promediaron juntos. Debido a que la ACLU no publicó sus datos de prueba, Comparitech no pudo usar exactamente la misma base de datos de fotos de arrestos.

En algunos casos, un solo político fue identificado erróneamente más de una vez contra múltiples fotografías policiales. Esto cuenta como un solo falso positivo.

Esta hoja de cálculo contiene todos los políticos que coincidieron con un 70 % de confianza o más, sus fotos y la confianza con la que Rekognition los igualó.

Por qué no debe confiar en las estadísticas de precisión del reconocimiento facial

Sea escéptico cada vez que una empresa invierta en reconocimiento facial venda métricas sobre qué tan bien funciona. Las estadísticas son a menudo opacas y, a veces, francamente engañosas.

Este es un ejemplo de cómo se pueden tergiversar las estadísticas sobre la precisión del reconocimiento facial. En el Reino Unido, la fuerza policial Met afirmó que su tecnología de reconocimiento facial solo comete un error en uno de cada 1000 casos. Llegaron a este número dividiendo el número de coincidencias incorrectas por el número total de personas cuyos rostros fueron escaneados. Esto infla la calificación de precisión al incluir verdaderos negativos, la gran mayoría de las imágenes que no coincidieron en absoluto.

Por el contrario, investigadores independientes de la Universidad de Essex encontraron que la tecnología tenía una tasa de error del 81 por ciento cuando dividieron la cantidad de coincidencias incorrectas por la cantidad total de coincidencias reportadas. El informe de la Universidad está mucho más en línea con la forma en que la mayoría de la gente juzgaría razonablemente la precisión, sin tener en cuenta los verdaderos negativos y centrándose en la tasa en la que las coincidencias informadas son correctas.

Un informe posterior encontró que la policía de Met utilizó el reconocimiento facial en vivo para escanear los rostros de 8.600 personas sin consentimiento en Londres. Los resultados coincidieron con los hallazgos de la Universidad de Essex: una coincidencia correcta que condujo a un arresto y siete falsos positivos.

falsos negativos

Aún menos informada es la tasa de falsos negativos: dos imágenes de la misma persona que deberían haber coincidido, pero no lo fueron. Como ejemplo hipotético de este error en la práctica, una cámara equipada con reconocimiento facial en un aeropuerto no activaría una alerta al ver a una persona que debería haber reconocido. Otra forma de falso positivo sería no reconocer que existe un rostro en una imagen.

Para medir la tasa de falsos negativos, Comparitech tendría que llenar la base de datos de fichas policiales con algunas fotos reales, pero no idénticas, de los políticos. Debido a que el objetivo era recrear la prueba de la ACLU, esto estaba más allá del alcance del experimento.

Casos de uso del mundo real

Consideremos también lo que estamos comparando: dos conjuntos de disparos a la cabeza. Uno contiene fotografías policiales y el otro retratos manipulados, pero ambos ofrecen vistas claras de la cara de cada persona a la altura de los ojos, frente a la cámara.

Los casos de uso del mundo real son muy diferentes. Tomemos, por ejemplo, la vigilancia por circuito cerrado de televisión. La policía quiere escanear rostros en una intersección y compararlos con una base de datos de fichas policiales. Estos son solo algunos factores que enturbian aún más las afirmaciones sobre qué tan bien funciona el reconocimiento facial en un entorno tan real:

  • ¿A qué distancia está la cámara del sujeto?
  • ¿Con qué ángulo apunta la cámara al sujeto?
  • ¿En qué dirección está mirando el sujeto?
  • ¿El sujeto está oscurecido por otros humanos, objetos o el clima?
  • ¿El sujeto lleva maquillaje, sombrero o gafas, o se ha afeitado recientemente?
  • ¿Qué tan buenos son la cámara y la lente? ¿Está limpio?
  • ¿A qué velocidad se mueve el sujeto? ¿Están borrosos?

Todos estos factores afectan la precisión y el rendimiento del reconocimiento facial. Incluso el software de reconocimiento facial más avanzado disponible no puede compensar la mala calidad o las imágenes oscurecidas.

Poner demasiada fe en el reconocimiento facial puede conducir a falsos arrestos. En abril de 2019, por ejemplo, un estudiante demandó a Apple después de que el software de reconocimiento facial de la empresa lo vinculara falsamente con robos en varias tiendas Apple, lo que llevó a su arresto.

El uso de un umbral superior al 80% sin duda mejora los resultados. Pero ya sea que esté de acuerdo con el uso policial del reconocimiento facial o no, una cosa es segura: no está listo para ser utilizado para la identificación sin supervisión humana.

Amazon afirma en su publicación de blog: “En escenarios de aplicación de la ley y seguridad pública del mundo real, Amazon Rekognition se usa casi exclusivamente para ayudar a reducir el campo y permitir que los humanos revisen y consideren opciones de manera expedita utilizando su criterio (y no para tomar decisiones completamente autónomas). ).”