Los datos sintéticos son una alternativa innovadora que replica las características de datos reales sin comprometer la información privada. Se generan mediante algoritmos y simulaciones de inteligencia artificial, manteniendo las propiedades matemáticas de los datos originales pero sin contener información sensible. Su creciente adopción responde a la necesidad de datos amplios y protegidos en campos como la investigación, el aprendizaje automático (ML) y la industria.
Según AWS, su principal ventaja es que se «Puede producir datos sintéticos a pedido y a una escala casi ilimitada. Las herramientas de generación de datos sintéticos son una forma rentable de obtener más datos. También pueden etiquetar previamente (categorizar o marcar) los datos que generan para los casos de uso de machine learning. Obtiene acceso a datos estructurados y etiquetados sin tener que pasar por el proceso de transformar los datos sin procesar desde cero. También puede agregar datos sintéticos al volumen total de datos que tiene, lo que permite obtener más datos de entrenamiento para el análisis.» (https://aws.amazon.com/es/what-is/synthetic-data/)
Datos sintéticos: ¿Qué son y para qué se usan’. Alejandro Alija es experto en Transformación Digital