Métodos probabilísticos y cumplimiento del RGPD

2 de Septiembre de 2024

Los métodos probabilísticos o estimativos han demostrado ser herramientas poderosas para procesar datos personales y se emplean en muchos servicios y aplicaciones digitales, pero plantean dilemas con relación al cumplimiento del principio de exactitud, debido a que su naturaleza implica eventuales casos de falsos negativos, falsos positivos o errores de predicción. Por tanto, ¿se pueden utilizar este tipo de operaciones para tratar datos personales y cumplir con el RGPD? Te respondemos en este post.

Imagen de www.fotogestoeber.de en iStock

El uso de métodos probabilísticos para tratar datos personales puede conducir al incumplimiento del RGPD, especialmente si se tienen en cuenta el principio de exactitud y el cumplimiento de los requisitos para superar con éxito una prueba de idoneidad. Esto no significa necesariamente que estos métodos no se puedan utilizar en absoluto: una operación probabilística podría ser una de las operaciones incluidas en un tratamiento de datos que cumpla los requisitos de exactitud e idoneidad. En estas situaciones, es fundamental que el tratamiento de datos personales ejecute las operaciones necesarias para detectar y gestionar las imprecisiones o errores producidos por las operaciones probabilísticas en casos concretos. No se debe confundir la exactitud de una operación dentro de un tratamiento de datos con la exactitud del tratamiento de datos en sí, que debe permitirle cumplir la finalidad explícita que se haya especificado para dicho tratamiento.

En los últimos años hemos sido testigos de una transformación sin precedentes en los campos de la estadística, el aprendizaje automático (machine learning, ML) y la inteligencia artificial (IA). Estos avances han sido impulsados principalmente por el desarrollo y la aplicación de métodos probabilísticos, que han demostrado ser herramientas poderosas para procesar grandes cantidades de datos. Estos métodos permiten que los modelos de ML e IA aprendan de los datos y mejoren con el tiempo, adaptándose a patrones complejos y a menudo cambiantes.

La capacidad de estos métodos para manejar la incertidumbre y hacer predicciones a partir de los datos disponibles ha llevado a su adopción generalizada en una gran variedad de dominios de aplicación. Los métodos probabilísticos son la base de muchos de los servicios y aplicaciones digitales actuales, desde los sistemas de recomendación que sugieren productos o contenidos relevantes hasta las soluciones de segmentación que agrupan a los usuarios en función de sus características o preferencias predichas.

A medida que avanza la tecnología, también lo hace la protección de datos. El artículo 5.1.d del RGPD establece que los datos personales serán "exactos y, si fuera necesario, actualizados; se adoptarán todas las medidas razonables para que se supriman o rectifiquen sin dilación los datos personales que sean inexactos con respecto a los fines para los que se tratan («exactitud»)". Además, el toolkit del Supervisor Europeo de Protección de Datos “Assessing the necessity of measures that limit the fundamental right to the protection of personal data” establece que, para superar la prueba de necesidad, el tratamiento de datos debe ser efectivo para su finalidad (idóneo) y menos intrusivo que otras opciones para lograr el mismo objetivo. Los datos personales deben ser exactos en todas las etapas del tratamiento; por lo tanto, las fuentes de datos personales deben ser confiables en términos de exactitud, pero también sus inferencias o resultados deben ser tan precisos como sea necesario para cumplir la finalidad explícita especificada para el tratamiento.

Dadas las limitaciones que presentan los métodos probabilísticos en términos de rendimiento (falsos negativos, falsos positivos, errores de predicción, etc.) que pueden afectar a los dos aspectos mencionados anteriormente, exactitud e idoneidad, puede surgir una pregunta: ¿Se pueden utilizar este tipo de métodos para el tratamiento de datos personales y cumplir con el RGPD?

Respondamos a esta pregunta con un ejemplo de tratamiento de datos personales, el que se produce en contextos de aseguramiento de la edad. El aseguramiento de la edad es el proceso por el que se establece el atributo de edad de una persona (edad concreta, por encima o por debajo de un umbral de edad o dentro de un rango de edad, por ejemplo), que a menudo se utiliza cuando se controla el acceso a contenidos, servicios, contratos o bienes específicos. Por ejemplo, cuando estos sólo son adecuados para adultos (mayores de 18 años). Diferentes marcos normativos, tanto dentro como fuera de Europa, obligan a diferentes tipos de proveedores a proteger a la infancia, pero, en muchos casos, no establecen el mecanismo específico que debe utilizarse.

La edad se puede asegurar de dos maneras diferentes. La primera, mediante la verificación, se basa en confirmar el atributo de edad de una persona física a partir de una fuente confiable o autorizada de información. Por ejemplo, la fecha de nacimiento se puede determinar utilizando una tarjeta de identidad proporcionada por el gobierno o de un pasaporte. La segunda, la estimación, se basa en la predicción de este atributo de edad a partir de características o comportamientos inherentes a una persona física. Por ejemplo, la cara, la voz o el uso del lenguaje en interacciones previas en redes sociales.

Diferentes agentes defienden los beneficios del segundo tipo de método basado en la estimación porque no necesitan ningún tipo de documento de identidad o fuente de información autorizada, y esto puede evitar la exclusión de las personas que no cuentan con este tipo de documento, temporal o permanentemente: por su edad, su nacionalidad, su condición de migrante o socioeconómica, etc. Sin embargo, los detractores de estos métodos aluden a su falta de exactitud e idoneidad. Por lo tanto, su uso podría implicar un incumplimiento del RGPD.

En mayo de 2024, el Instituto Nacional de Estándares y Tecnología (NIST, por sus siglas en inglés) publicó el primer informe “FATE Age Estimation and Verification (AEV)” como su Interagency Report 8525 . FATE AEV es una evaluación continua de software cuya función es analizar fotos y videos de una cara para producir una estimación de edad. Los resultados obtenidos con seis soluciones diferentes muestran cómo la exactitud y la efectividad están fuertemente influidas por el algoritmo, el género, la calidad de la imagen, la región de nacimiento, la edad y las interacciones entre todos estos factores, además de por otros aspectos como el uso de gafas por parte de la persona. No existe un algoritmo mejor para todos los escenarios, los diferentes algoritmos se comportan de manera diferente en cada uno de estos factores.

A la vista de estos resultados, ¿pueden basarse exclusivamente en la estimación de la edad las soluciones destinadas a proteger a la infancia de los posibles daños causados por determinados contenidos, servicios, contratos o bienes en Internet? Sería necesaria una evaluación caso por caso, pero la respuesta más probable sería no, dadas las limitaciones de exactitud e idoneidad ya mencionadas. ¿Pueden estas soluciones basarse parcialmente en la estimación de la edad y en los métodos probabilísticos? De nuevo, siempre sería necesaria una evaluación caso por caso, pero si se cumplen el resto de los principios y obligaciones recogidos en el RGPD, la respuesta más probable sería sí. ¿Cómo? Como una operación más en el marco de un tratamiento de datos que cumpla con la finalidad especificada de aseguramiento exacto y efectivo de la edad.

Imaginemos un escenario que requiere asegurar un umbral de edad de 18 años. Es posible que el responsable del tratamiento haya probado una solución de estimación de edad con un error estadísticamente insignificante para usuarios clasificados como mayores de 40 años. Esto significa que es casi imposible ser clasificado por encima de los 40 años si el sujeto es menor de 18 años. En este caso, el resultado de la operación que estima la edad cumple los requisitos de exactitud e idoneidad para la finalidad del tratamiento. Sin embargo, para los usuarios clasificados por debajo de los 40 años, concretamente aquellos con una determinada edad, región de nacimiento, gafas, etc., la estimación podrían tener un nivel de exactitud inaceptable. Esto podría llevar a que una persona menor de 18 años fuera clasificada como adulta.

Los responsables de tratamiento deben tener cuidado al considerar los umbrales de error para los métodos probabilísticos. Una operación de estimación con un error del 0,01% en una solución utilizada por 1000 personas adultas podría ser aceptable para algunas finalidades. Sin embargo, en una solución utilizada por todo tipo de usuarios en la UE (con 450 millones de habitantes), un error del 0,01% implica cometer errores con 45.000 personas. Un número importante de ellos, menores de 18 años que probablemente en algunos casos obtendrán estimaciones erróneas que los clasifiquen como adultos.

En el ejemplo anterior, el responsable del tratamiento no debería utilizar exclusivamente operaciones probabilísticas para usuarios cuya edad se estima por debajo de 40 años. En su lugar, debería usar métodos de verificación exactos e idóneos para tomar decisiones sobre los accesos en función de la edad. Al menos en la primera interacción con el usuario, por ejemplo, al crear la cuenta. Se debe optar por un diseño en el que ambos tipos de soluciones se complementen adecuadamente para realizar diferentes operaciones en diferentes escenarios, porque los métodos probabilísticos no les permiten garantizar el cumplimiento por sí mismos.

Esto no implica implementar sistemáticamente un enfoque aditivo, que se base siempre en utilizar operaciones probabilísticas y métodos adicionales, ya que esto implica, en la mayoría de los casos, recoger más datos y someter a los individuos a más operaciones de las estrictamente necesarias. El problema debe resolverse ofreciendo soluciones alternativas o complementarias para garantizar la exactitud y la idoneidad del tratamiento completo en casos específicos.
Este tipo de razonamiento podría aplicarse a otros tratamientos de datos personales en diferentes ámbitos de aplicación y al uso de métodos probabilísticos, no como base del tratamiento completo sino como una operación más que puede garantizar la inclusión u otros aspectos deseables como la usabilidad o la accesibilidad.

Este post está relacionado con otros materiales publicados por la División de Innovación y Tecnología de la AEPD, tales como:

Evaluación de la intervención humana en decisiones automatizadas [marzo 2024]
Sistema de IA: ¿solo un algoritmo o varios algoritmos? [noviembre 2023]

Métodos probabilísticos y cumplimiento del RGPD

Entradas relacionadas

Datos e información en Inteligencia Artificial

Campañas de phishing sobre el COVID-19