Datos sintéticos y protección de datos
Los datos sintéticos podrían usarse en el desarrollo, prueba y validación de servicios de aprendizaje automático, donde los datos reales no están disponibles en las cantidades necesarias o incluso no existen.
Imagen de Reto Scheiwiller en Pixabay.
Los datos sintéticos son datos generados artificialmente, a diferencia de los datos reales que se recopilan de la realidad. Un conjunto de datos no reales, que se etiquetará como datos sintéticos, debe preservar las características y propiedades de los datos reales para un caso de uso específico. Los datos sintéticos podrían usarse en el desarrollo, prueba y validación de servicios de aprendizaje automático, donde los datos reales no están disponibles en las cantidades necesarias, o incluso dichos datos reales no existen. También podrían utilizarse como una forma de permitir el acceso a datos de una empresa en el marco de Espacios de Datos sin filtrar secretos comerciales. Podría ser también una técnica de privacidad, cuando se utiliza para crear conjuntos de datos no personales con la misma utilidad que los personales.
Actualmente se necesita una gran cantidad de datos para desarrollar, probar y validar el aprendizaje automático y otros desarrollos basados en la ciencia de datos. En varios casos, la cantidad necesaria de datos para llevar a cabo estas actividades no está disponible, bien porque dichos datos no existen en las cantidades requeridas, o bien porque dichos datos deben representar situaciones que aún no han sucedido en el mundo real. En otros casos, se necesitan específicamente datos de prueba para la verificación y validación de sistemas que representan situaciones anómalas, escenarios límite, circunstancias de muy baja probabilidad o que no han sido registradas, o incluso para probar tipos de ataque con incluso datos manipulados.
Estrechamente relacionada con la situación anterior, el uso de datos sintéticos puede apoyar la economía basada en datos al permitir el acceso a información de entidades públicas y privadas, lo que se conoce como espacios de datos. Por supuesto, las organizaciones serán reacias a divulgar datos que podrían filtrar secretos comerciales, debilidades de la entidad, propiedad intelectual cuando no obtengan suficientes garantías sobre los fines (y limitación) del procesamiento de dichos datos o por el riesgo de impacto sobre sus intereses. La generación de datos sintéticos es una de las varias técnicas que pueden abordar estos problemas.
Los datos sintéticos han sido objeto de atención en los últimos años, ya que ayudan a desarrollar pruebas y validación en sistemas de comprensión del lenguaje natural, algoritmos de visión para sistemas de vehículos autónomos o modelos de detección de fraude para instituciones financieras.
No se trata de datos aleatorios. Cuando se sintetizan a partir de datos reales o se crean desde cero, deben reproducir las características y la estructura de los datos reales permitiendo sacar conclusiones similares en casos de uso específicos. Son datos generados artificialmente que tienen utilidad al menos para un propósito específico. La forma más básica de datos sintéticos, en el borde de dicha definición, podrían ser archivos dummy que simplemente se asemejan al formato de datos reales. Los datos sintéticos si no alcanzan un umbral mínimo de utilidad para un propósito, no podrían considerarse datos propiamente sintéticos en el marco de dicho propósito específico.
Los datos sintéticos podrían reemplazar a los datos reales en algunos casos de uso. Cada caso de uso específico tendrá diferentes requisitos de nivel de calidad y diferentes requisitos con respecto a los matices del proceso y el propósito final. Por ejemplo, para validar un sistema de reconocimiento facial podría necesitarse generar un conjunto de datos de rostros sintéticos para verificar los límites de dicho sistema. Sin embargo, ese conjunto de datos podría carecer de la calidad necesaria para verificar otro tipo de sistemas o para desarrollar nuevos sistemas de reconocimiento facial.
Los datos sintéticos, como muchas otras técnicas, también podrían funcionar como una Privacy Enhanced Technology (PET), ya que permite la aplicación de un enfoque de protección de datos desde el diseño cuando se trata de casos de uso que necesitan procesar datos personales. En tales casos, la generación de datos sintéticos permite minimizar o evitar el procesamiento de datos personales mientras se logran los objetivos con conclusiones tan buenas como las obtenidas del empleo de datos personales originales. En el marco del RGPD, los datos sintéticos no deberían contener información identificable, incluso cuando podrían generarse a partir de datos personales reales. Debido a que los datos sintéticos solo conservan las propiedades estadísticas o la distribución de los datos personales reales para un propósito específico, los datos sintéticos se pueden usar para evitar que se traten los datos personales.
La creación de datos sintéticos implica un proceso de generación o modelado ("síntesis") que tiene que conseguir la preservación del valor analítico para casos de uso específico y el cumplimiento de la normativa de protección de datos expresada en una serie de requisitos de privacidad. La preservación del valor analítico se refiere a la utilidad del método o modelo, cuán útil es el conjunto de datos para el propósito o caso de uso de los datos.
La creación de datos sintéticos a partir de datos personales reales sería en sí misma una actividad de procesamiento sometida al RGPD. Por lo tanto, es necesario considerar las disposiciones reglamentarias del RGPD y, en particular, el principio de responsabilidad proactiva y la evaluación de un posible riesgo de reidentificación a partir del conjunto de datos sintéticos creados.
Esta síntesis se puede realizar utilizando diferentes técnicas, como el modelado secuencial, los datos simulados, los árboles de decisión o los algoritmos de aprendizaje profundo. Este último generalmente utiliza redes generativas antagónicas (GAN) en las que dos redes neuronales competidoras se entrenan iterativamente: la red generadora intenta aprender la estructura subyacente de los datos originales y genera los puntos de datos sintéticos con la misma distribución estadística, y la red discriminadora intenta identificar los datos recibidos como originales o sintéticos.
Dependiendo del propósito para el que se vayan a utilizar los datos sintéticos, se puede considerar sintetizar todas las variables del conjunto de datos original (datos totalmente sintéticos) o solo sintetizar algunas de las variables, por ejemplo, las más sensibles (datos parcialmente sintéticos). En este último caso, el riesgo de divulgación de datos personales es mayor, ya que contienen datos originales junto con datos sintéticos.
Independientemente de la técnica elegida, se debe realizar una evaluación de la anonimidad para garantizar que el conjunto de datos sintéticos resultante no contenga información de personas identificadas o identificables. Para evitar la divulgación de información personal, se pueden aplicar otras técnicas de preservación de la privacidad sobre los datos sintéticos, como la privacidad diferencial.
De esta manera, los datos sintéticos representan una poderosa herramienta para implementar el enfoque de protección de datos desde el diseño, ya que los datos personales no están expuestos y pueden usarse en múltiples aplicaciones. Por ejemplo, los datos sintéticos pueden ayudar a superar la escasez de datos, mejorar la calidad de los datos (por ejemplo, mitigar el sesgo en los datos originales) y mejorar la diversidad de datos. Puede ser utilizado por las oficinas de estadística para divulgar datos útiles al público sin comprometer la privacidad de los encuestados, o por la comunidad educativa y de salud para desarrollar habilidades analíticas y descubrir patrones o ideas al tiempo que protege la identidad y la privacidad de las personas.
Los datos sintéticos son una tecnología dual que permite dar respuestas a la economía del dato y la preservación de la privacidad. Sin embargo, los datos sintéticos no siempre serán la opción más acertada, y su oportunidad debe evaluarse caso por caso. En algunos casos, los conjuntos de datos pueden ser demasiado complejos para obtener una comprensión correcta de su estructura para un caso específico (por ejemplo, correlaciones, colas de ponderación, etc.), o puede ser difícil imitar los valores atípicos de datos reales. Los datos sintéticos generados erróneamente también pueden dar lugar a malentendidos durante la fase de desarrollo, prueba y validación. Por último, la evaluación del riesgo de reidentificación podría dar un resultado negativo. En tales casos, deben utilizarse PET alternativos o complementarios.
Este post está relacionado con otros materiales realizados por la División de Innovación y Tecnología de la AEPD:
- Artículo: Espacios de Datos, soberanía y protección de datos desde el diseño
- Artículo: Inteligencia Artificial: principio de exactitud en los tratamientos
- Artículo: Federated Learning: Inteligencia Artificial sin comprometer la privacidad
- Artículo: Inteligencia Artificial: Sistema vs. tratamiento, medios vs. finalidad
- Artículo: Anonimización (III): el riesgo de la reidentificación
- Artículo: Anonimización y seudonimización (II): la privacidad diferencial
- 10 Malentendidos sobre el Machine Learning (Aprendizaje Automático)
- Requisitos para Auditorías de Tratamientos que incluyan IA
- Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial