K-anonimidad como medida de privacidad

La Agencia Española de Protección de Datos (“AEPD”) publicó, el pasado mes de junio, una nota, resumiendo una serie de recomendaciones para aquellos responsables y encargados de tratamiento que lleven a cabo procesos de anonimización sobre conjuntos de datos.

El Grupo de Trabajo del Artículo 29, actualmente sustituido por el Comité Europeo de Protección de Datos, ya publicó un Dictamen en abril de 2014, donde se analizaban distintos métodos o técnicas de llevar a cabo la anonimización de datos personales (entre ellos, la K-anonimización). Por su parte, la AEPD en 2016, también hizo públicas sus Orientaciones y garantías en los procedimientos de anonimización de datos personales, en las que se ponían de manifiesto todos los pasos a tomar previa, durante y con posterioridad a la anonimización de los datos.

Con la presente nota, la AEPD ha dejado constancia de la necesidad de implementar una serie de garantías para preservar la privacidad y la protección de datos, sobre todo como consecuencia del empleo cada vez más habitual de técnicas relacionadas con big data, inteligencia artificial o machine learning, desarrollando una de las posibles técnicas de anonimización para gestionar el riesgo de reidentificación conocida como k-anonimización.

En primer lugar, la AEPD categoriza las tipologías de datos personales en función del grado de asociación del dato con el sujeto:

Identificadores o atributos clave: datos que identifican de forma unívoca a cada sujeto, por ejemplo, su documento nacional de identidad.
Cuasi-identificadores o identificadores indirectos: datos que por sí mismos no identifican unívocamente a un individuo, pero que, en conjunto con otros de la misma categoría, podrían identificar de forma unívoca a los sujetos, por ejemplo, la edad en relación con la dirección.
Atributos sensibles: datos que podrían tener un mayor impacto en la privacidad de un individuo, como pueden ser categorías especiales de datos (por ejemplo, datos relacionados con la salud) y que no deben ser vinculados con el sujeto al que pertenecen.

Si bien existen distintas herramientas para llevar a cabo el proceso de anonimización, todas tratan de llegar a la misma consecuencia jurídica: disociar los identificadores, los cuasi-identificadores y los atributos sensibles, para evitar que un sujeto pueda ser reidentificado.

Dentro de este marco, hay ocasiones en las que los datos previamente anonimizados sufren el riesgo de la “desanonimización”, consistente en la reidentificación del individuo, incluso en relación con categorías especiales de datos gracias a la agrupación conveniente de los datos y su cruce con otras fuentes de información. Para reducir este riesgo, junto a otras técnicas, se prevé la K-anonimidad, definida por la AEPD de la siguiente forma:

“La K-anonimidad es una propiedad de los datos anonimizados que permite cuantificar hasta qué punto se preserva la anonimidad de los sujetos presentes en un conjunto de datos en el que se han eliminado los identificadores. Dicho de otro modo, es una medida del riesgo de que agentes externos puedan obtener información de carácter personal a partir de datos anonimizados”.
AEPD

Estaríamos ante un método que no afectaría (perturbaría) a los datos anonimizados, y ayudaría a cuantificar mediante un algoritmo el riesgo que existe de que terceros puedan llegar a “reidentificar” a los sujetos a través de los datos que inicialmente fueron anonimizados.

El algoritmo a aplicar, de forma aparentemente sencilla, sería K-1. Aplicando esta técnica, un individuo sería k-anónimo, cuando para cualquier combinación de atributos cuasi-identificadores asociados, existen al menos otros K-1 individuos que comparten los mismos valores para esos atributos. La K-anonimidad se centraría en los atributos cuasi-identificadores que permitirían la vinculación.Así, cuanto más alto es el valor de K, se entiende que el grado de anonimización aumenta de forma directamente proporcional, de forma que un valor de K alto podría llegar a reducir el riesgo de reidentificación.

Los métodos de K-anonimización más ampliamente utilizados son los dos siguientes:

K-Anonimización mediante generalización: consistiría en transformar o generalizar el valor de aquellos atributos cuasi-identificadores (ii) para que pierdan precisión (mediante creación de rangos en el caso de atributos numéricos o el establecimiento de jerarquías para atributos nominales). Por ejemplo, en lugar de establecer una edad concreta, se introduciría un rango de edad.
K-Anonimización mediante eliminación: consistiría en suprimir o eliminar atributos cuasi-identificadores (ii), para que no “contaminen” o afecten el conjunto de datos y distorsionen los resultados (principalmente respecto a los registros que se sitúen fuera del rango establecido mediante la generalización o sean registros con valores muy poco usuales).

Ambos métodos implican distinto grado de alteración o distorsión durante el proceso de anonimización de los datos y, no obstante, aún pueden fracasar en la protección de la privacidad de la información sensible o vinculación entre conjunto de datos. Por ello, existen adicionalmente también otras técnicas de privacidad (por ejemplo, K-anonimidad p-sensible, la l-diversidad, la t-proximidad y la δ-revelación). A pesar de la aplicación de estos métodos y técnicas, la AEPD recuerda que el deber de los responsables es velar por la privacidad de los interesados y, en la medida en que existan riesgos, entiende que la anonimización no puede limitarse a la aplicación rutinaria y pasiva de reglas, sino que deberán analizarse los riesgos en cada caso concreto, escogiendo adecuadamente el tipo de atributos cuasi-identificadores utilizados, de forma que se pueda reducir al máximo la probabilidad de cruce entre fuentes de datos externas que puedan suponer un riesgo, hallándonos así ante una verdadera anonimización y no una pseudonimización “encubierta”.

Alejandro Negro Sala, Adaya Esteban Ruíz y Raúl Pérez Terol