El Blog de Ricardo SB: Prevención de Pérdida de Datos (III). Identificación de la información sensible

La Prevención de Pérdida de Datos (Data Loss Prevention o DLP) da nombre a una solución o conjunto de soluciones que identifica, monitoriza y protege los datos de una organización, especialmente en lo relativo a su dimensión de confidencialidad.

En un post anterior vimos qué información se pierde y los beneficios de aplicar DLP. Otro post trató las características de la tecnología DLP. Ahora veremos las maneras en que se puede detectar la información que queremos proteger.

Las primeras tecnologías DLP estaban centradas en la protección de los datos estáticos, utilizando principalmente palabras clave, expresiones regulares y diccionarios preinstalados. Muchas veces bastaba utilizar formatos nuevos o encriptar datos para saltarse el control. Pronto esas tecnologías se complementaron con otras más complejas como las marcas de agua y huellas digitales, el análisis de contenido y el análisis del contexto.

Datos y Patrones

Los datos podemos clasificarlos en estructurados y no estructurados. Los datos estructurados se almacenan en campos acotados en ficheros (como una hoja de cálculo) o sistemas especializados (como bases de datos). Los no estructurados son datos de texto y formato libre (como documentos pdf). Aunque hay cada vez más tendencia a estructurar datos (formato XML en documentos, por ejemplo) se estima que aproximadamente el 80% de los datos son no estructurados.

Generalmente, los productos DLP en el mercado se venden con gran cantidad de patrones y formatos de datos predefinidos que pueden ajustarse a los requerimientos de seguridad de la organización, y deben también permitir añadir otros patrones necesarios.

Los métodos para descubrir patrones de información sensible en los datos se pueden categorizar en precisos e imprecisos.

Los métodos precisos son aquellos que prácticamente no devuelven falsos positivos en el análisis, porque los datos son perfectamente seleccionables y detectables.
Los métodos imprecisos son los que pueden devolver falsos positivos o dejar escapar datos, y clasifican o determinan una buena solución DLP que esté bien parametrizada en base a esa precisión. Estos métodos incluyen, entre otros, palabras clave, diccionarios, expresiones regulares, etiquetas de metadatos, análisis bayesiano, "Machine Learning" y otros análisis estadísticos propietarios de la solución DLP.

Para ajustar aún más la identificación de la información, algunas soluciones DLP permiten que los patrones se asocien a uno o varios contextos, de tal forma que dentro o fuera de esos contextos la información sea normal o genere alarma.

Por lo tanto, chequear la precisión de una implementación DLP es un aspecto crucial, dado que los falsos negativos eluden la solución y los falsos positivos pueden entorpecer la dinámica de la organización.

Análisis del Contexto y del Contenido.

El Análisis del Contenido se focaliza sobre todo en los datos en sí (evidentemente, de manera mucho más sencilla en los datos estructurados), mientras que el Análisis del Contexto busca en la envoltura (podemos decir que en los metadatos que acompañan a los datos, por ejemplo, quién o qué programa los generó o en qué momento se actualizaron).

Una versión más avanzada de estos conceptos se define en el “Análisis Contextual del Negocio” (business context analysis), que engloba el análisis en profundidad del contenido asociado al entorno en el momento del análisis y al uso que se le esté dando a esos datos en ese momento.

A una solución DLP le interesa proteger los datos (el contenido), sin olvidar su contexto (como se están usando esos datos, quien los usa y para qué).

En muchas ocasiones una solución DLP debe ocupar recursos en profundizar eficazmente en los datos para realizar su análisis, realizando “file cracking”. Muchas soluciones hoy día soportan alrededor de 300 tipos de ficheros, contenido embebido, múltiples idiomas (incluyendo los orientales), encriptación (si hay disponibles claves de recuperación) e incluso aportan soluciones para ficheros no reconocidos.

Dos de los principales motores de búsqueda en contenidos son Verity y Autonomy, que suelen estar embebidos en casi todas las soluciones DLP, aunque muchas de ellas añadan algo de código propietario.

Reglas basadas en expresiones regulares.

Es la técnica más común en herramientas y características DLP. Se basa en analizar el contenido en base a reglas predefinidas. Por ejemplo, números de identificación, tarjetas de crédito, direcciones email, nombres próximos a números de cuenta. Hay muchos predefinidos y siempre se pueden añadir.

Son unas reglas muy sencillas de implementar, pero que no protejen del todo datos no estructurados y pueden dar lugar a muchos falsos positivos.

Las expresiones regulares puedes consultarlas en:
http://www.regular-expressions.info/quickstart.html

Huella en ficheros o datos: Coincidencia completa.

Esta técnica genera un hash del fichero (que puede o no almacenar en el propio archivo) y compara siempre al acceder. Es muy interesante cuando no se puede acceder al contenido a comparar (por ejemplo, en ficheros multimedia o binarios), aunque se puede emplear en cualquier archivo. Sin embargo, es evidente que simplemente editando el archivo se evade. Hay variantes que impiden editar el archivo o actualizan una tabla de versiones de hash, pero sólo si se edita desde herramientas propias. En resumen, es buena para ficheros no editables.

Coincidencia parcial de datos o ficheros.

Esta técnica busca en el contenido por coincidencias parciales o exactas. Se suele usar una variante denominada “hash cíclico”, donde se tienen varios hash incrementales del contenido de un documento.

Esta técnica es empleada para proteger documentos sensibles como código fuente o similares. Permite proteger datos no estructurados que consideremos sensibles, pero hay que afinar en su configuración para no dar falsos positivos y para no comprometer el desempeño de los sistemas.

Análisis estadístico

Emplea herramientas estadísticas como análisis bayesiano, “machine learning” y otras técnicas estadísticas para analizar estructuras de contenido acorde a políticas. Un ejemplo de estas técnicas las tenemos en el análisis de emails spam.

Es efectivo donde el análisis de datos no estructurados de coincidencia parcial o total no funciona. Puede trabajar con datos ofuscados y reforzar otras políticas. Por el contrario, suele proponer falsos positivos y negativos, sobre todo al inicio, porque se basa en el aprendizaje estadístico.

Análisis léxico y conceptual.

Esta técnica usa una combinación de diccionarios, reglas y otras técnicas para proteger contenido correspondiente a una “idea”. Por ejemplo, emplear una cuenta de trabajo para asuntos privados. Es una buena técnica para proteger datos heterogéneos pero con una idea común. Sin embargo, es muy complejo de configurar, y suele requerir de una consultoría del proveedor de la solución DLP.

Además, según el caso suelen derivarse falsos positivos y/o falsos negativos, por lo que suele requerir que esa consultoría sea evolutiva.

Reglas de Categorías.

Se basa en configuraciones pre-establecidas basadas en formatos de datos conocidos, o estándares o regulaciones que hay que cumplir.

Son muy sencillas de configurar y en muchos sitios son la primera y principal tipo de regla implementada. Sin embargo, sólo funcionan bien si no hay excepciones.

En conclusión...

Todas estas maneras y alguna otra se emplean en conjunto para configurar las reglas que rigen el trabajo de las soluciones DLP de alto nivel. A un nivel inferior se emplean una o varias de estas formas bien en trabajos individuales, bien en conjunto. Los sistemas DLP suelen traer unas reglas comunes ya predefinidas, aunque realmente protegen poco de entrada, y es el continuo ajuste de la solución DLP adoptada en la organización el que ofrece valor real, al ir aprendiendo específicamente cómo se gestionan los datos que deben ser protegidos.

En una próxima entrada veremos los pasos para implantar una solución DLP en una organización.

Páginas

Prevención de Pérdida de Datos (III). Identificación de la información sensible