Tesis:
An Automated Framework for Cybersecurity Attribution and Artifact Relationship Identification
- Autor: SEBASTIÁN GONZÁLEZ, Silvia
- Título: An Automated Framework for Cybersecurity Attribution and Artifact Relationship Identification
- Fecha: 2023
- Materia:
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE
- Acceso electrónico: https://oa.upm.es/77152/
- Director/a 1º: CABALLERO BAYERRI, Juan
- Resumen: Attribution is the process of identifying the entity responsible for an event. In essence, the goal of attribution is to answer the question “Who did it?”. The first example that comes to mind is police work, i.e., identifying the perpetrators when a crime is committed. In cybersecurity, attribution refers to the process of finding the entity responsible for cyberattacks and malicious activity. Nowadays, most cyberattacks go unattributed due to the challenging nature of the attribution process. One challenge is that information tends to be anonymized: users choosing nicknames in social networks, proxies that mask source IP addresses, and domain registration services that anonymize WHOIS records. Another challenge is that attribution is currently a largely manual repetitive process that can take from days to months, as it requires exploring all leads since the analyst cannot predict which lead may provide essential evidence. Furthermore, attribution is carried out by specialized analysts and thus it entails a high cost.
In this thesis, we propose a novel automated approach for attribution. Our approach is centered around the generation of an attribution graph where nodes correspond to either digital artifacts (e.g., IP addresses and domains) or identities (e.g., person names, usernames, and organization names), and edges capture which indicator identified another indicator. The attribution graph makes the attribution transparent since it captures the chain of steps leading from some seed artifacts known to belong to the attacker to the attacker’s identity. Automating the construction of the attribution graph reduces the cost of the attribution process and allows the analyst to focus on other tasks such as acquiring data sources, designing new attribution techniques, and performing more creative inferences.
We have instantiated our approach in two tools that perform attribution in different scenarios. The first one is Retriever, which identifies developer accounts in mobile application markets that belong to the same entity. We have evaluated Retriever on 17 operations reported by security vendors. In 94% of them, Retriever discovers previously unknown developer accounts. The second is WhoseDomain, which identifies the owner of domains and websites. WhoseDomain goes beyond the use of the WHOIS protocol (whose records are often anonymized) by analyzing additional data sources such as TLS certificates, passive DNS, and website content. In our evaluation, WhoseDomain attributes domains with an F1 score of 0.94 compared with 0.54 of WHOIS.
We also present AVClass2, a tool that extracts tags from the AV labels of malware samples. The produced tags capture characteristics such as malware class, family, behavior, and file properties. The tags can be used to index malware samples allowing analysts to perform rich searches in malware datasets. We apply AVClass2 on 42M samples from 11 datasets showing that it can extract a wealth of tags and that it achieves high accuracy in malware family labeling.
RESUMEN
Atribución es el proceso de identificar la entidad responsable de un evento. En definitiva, el objetivo de la atribución es responder a la pregunta “¿Quién lo hizo?”. La atribución es una parte fundamental del trabajo policial, utilizándose para identificar a los autores de un delito. En ciberseguridad, atribución se refiere al proceso de encontrar la identidad responsable de ciberataques y actividades maliciosas. Actualmente, la mayoría de los ciberataques no llegan a atribuirse debido a la complejidad inherente al proceso de atribución. Uno de los problemas que debe enfrentar la atribución es que la información tiende a estar anonimizada: usuarios que eligen apodos en las redes sociales, proxies que enmascaran las direcciones IP, y proveedores de dominios que anonimizan los registros WHOIS. Otro problema de la atribución es que actualmente se trata de un proceso fundamentalmente manual y repetitivo que puede conllevar días o meses de trabajo porque requiere explorar todas las pistas, ya que no se puede predecir cuál de ellas aportará pruebas cruciales. Además, la atribución la llevan a cabo analistas especializados lo que conlleva un coste elevado.
En esta tesis, proponemos un método novedoso y automatizado para la atribución. Nuestro método se basa en la generación de un grafo de atribución. Los nodos son indicadores que identifican artefactos digitales (como direcciones IP y dominios) o identidades (como personas, cuentas de usuario y organizaciones). Las aristas capturan qué indicador permite descubrir otro indicador. El grafo de atribución hace que el proceso de atribución sea transparente, ya que captura qué cadena de deducciones conecta el conjunto inicial de indicadores (de los que ya se conoce que pertenecen a un atacante) con la identidad del atacante. Automatizar el proceso de atribución reduce su coste y permite al analista centrarse en otras tareas como adquirir fuentes de datos, diseñar nuevas técnicas de atribución y realizar inferencias más creativas.
La tesis presenta dos herramientas de atribución que instancian el método de atribución propuesto para dos aplicaciones específicas. La primera herramienta es Retriever que se centra en la identificación de cuentas de desarrolladores en mercados de aplicaciones móviles que pertenecen al mismo propietario. Hemos evaluado Retriever en 17 operaciones que aparecen en informes de proveedores de ciberseguridad. En el 94% de ellas, Retriever descubre cuentas de desarrollador previamente desconocidas. La segunda herramienta es WhoseDomain, que identifica la entidad responsable de dominios y sitios web. WhoseDomain va más allá del uso del protocolo WHOIS (cuyos registros están anonimizados en gran medida) analizando fuentes de datos adicionales como certificados TLS, DNS pasivo y contenido web. La evaluación de WhoseDomain para la atribución muestra que logra una puntuación F1 de 0,94 frente al 0,54 de WHOIS.
También presentamos AVClass2, una herramienta que asigna etiquetas a las muestras de malware a partir de los nombres asignados por diferentes herramientas de seguridad.comprobando los AVLabels. Las etiquetas producidas capturan características como la clase de malware, familia, comportamiento, y propiedades del fichero. Las etiquetas permiten a los analistas realizar búsquedas elaboradas sobre grandes cantidades de malware. Hemos aplicado AVClass2 a 42 millones de muestras de 11 conjuntos de datos demostrando que extrae una gran variedad de etiquetas y que consigue una alta precisión en el etiquetado de familias.