Investigadores de Microsoft e Intel han encontrado una manera de combinar la inteligencia artificial y el análisis de imágenes para crear una forma eficiente de combatir las infecciones de malware.
Los investigadores llaman a su método «STAMINA» (malware estático o análisis de red de imágenes) y dicen que ha demostrado ser muy eficaz para detectar malware con una baja tasa de falsos positivos.
Lo que hace STAMINA es convertir archivos binarios en imágenes que el software de inteligencia artificial puede analizar mediante «aprendizaje profundo».
«STAMINA es una forma fascinante de clasificar el malware», dijo Mark Nunnikhoven, vicepresidente de Cloud Research. Tendencia Microun proveedor de soluciones de ciberseguridad con sede en Tokio.
«Este enfoque es como dibujar una gran tabla de datos», dijo a TechNewsWorld. «Es más fácil detectar patrones en gráficos que analizar datos sin procesar».
Mediante el uso de métodos comunes de aprendizaje automático para el análisis de imágenes, los equipos pudieron agrupar muestras de malware y diferenciar entre el software deseado y el malware, dijo Nunnikhoven.
«No es el único enfoque de aprendizaje automático, pero es un enfoque nuevo e interesante con mucho potencial», agregó.
Nunnikhoven señaló que la mayor desventaja de este enfoque tiene que ver con el tamaño del malware. «Debido a que la tecnología convierte el malware en imágenes, consume rápidamente una gran cantidad de recursos. Si alguna vez ha intentado abrir una foto muy grande en una computadora vieja, ha experimentado estos desafíos de primera mano».
Tabla de Contenidos
99% de precisión
«A medida que las variantes de malware continúan creciendo, las técnicas tradicionales de coincidencia de firmas no pueden seguir el ritmo», explicaron los investigadores de Intel Li Chen y Ravi Sahita y los investigadores de Microsoft Jugal Parikh y Marc Marino en un informe técnico.
«Esperamos aplicar técnicas de aprendizaje profundo para evitar la costosa ingeniería de funciones y utilizar técnicas de aprendizaje automático para aprender y crear sistemas de clasificación que puedan identificar de manera efectiva los archivos binarios de los programas de malware», escribieron.
«Exploramos una nueva técnica basada en imágenes en binarios de programas x86», continuaron, «que dio como resultado una tasa de precisión del 99,07 por ciento y una tasa de falsos positivos del 2,58 por ciento».
Los métodos clásicos de detección de malware implican la extracción de firmas binarias o huellas dactilares de malware. Sin embargo, el crecimiento exponencial de las firmas hace que la coincidencia de firmas sea ineficiente, explicaron los investigadores.
El malware también se puede identificar analizando el código de un archivo. Esto generalmente se hace a través de análisis estático o dinámico, o ambos. El análisis estático puede desensamblar el código, pero su rendimiento puede verse afectado por la ofuscación del código. Señalan que el análisis dinámico, si bien es capaz de descomprimir el código, puede llevar mucho tiempo.
«Si bien el análisis estático a menudo se asocia con los métodos de detección tradicionales, sigue siendo un componente esencial de la detección de malware impulsada por IA», escribieron Parikh y Marino de Microsoft en otro artículo de STAMINA.
«Es especialmente útil para los motores de detección previa a la ejecución: el análisis estático puede desensamblar el código sin ejecutar la aplicación o monitorear el comportamiento del tiempo de ejecución», señalaron.
«Encontrar formas de realizar análisis estáticos a escala de manera eficiente es beneficioso para un enfoque general de detección de malware», señalaron Parikh y Marino.
«Con este fin, esta investigación se basa en el conocimiento del campo de la visión por computadora para construir un marco mejorado de detección de malware estático que aprovecha el aprendizaje de transferencia profunda directamente en binarios Portable Executable (PE) representados como entrenamiento de imágenes», explicaron.
Mejor escalado, procesamiento más rápido
«La efectividad de las técnicas tradicionales de análisis de malware ha disminuido durante mucho tiempo», dijo Chris Rothe, director de productos.canario rojoun proveedor de servicios de seguridad basados en la nube con sede en Denver.
«El análisis estático y dinámico es efectivo, pero puede ser difícil de escalar», dijo a TechNewsWorld. «Un beneficio de este enfoque es que puede aprovechar tecnologías de otras áreas que tienen la capacidad de operar a escala».
«Esto es necesario debido a la proliferación de muestras binarias creadas por atacantes que mutan malware para evitar la detección», continuó Rothe. «Por lo tanto, si esta técnica funciona, podría hacer que el análisis binario sea un método viable de detección de amenazas».
El enfoque de Microsoft-Intel también reduce el tamaño de entrada del sistema de análisis, lo que se traduce en un procesamiento más rápido.
«Si está convirtiendo un archivo binario a píxeles, el tamaño de la entrada se reduce en consecuencia», dijo Malek Ben Salem, jefe de investigación y desarrollo de seguridad para las Américas en Accenture, una firma de servicios profesionales con sede en Dublín.
«Con STAMINA, van aún más lejos. Convierten el binario en píxeles y luego reducen el tamaño de la imagen», dijo a TechNewsWorld.
«Puede reducir el tamaño de entrada y enviarlo a una red de aprendizaje profundo, lo que significa que puede procesar más información», dice Ben Salem. «Puedes ver más instancias de malware, lo que acelerará mucho las cosas».
fácil para el ojo humano
Si bien los investigadores creen que su método se está utilizando en un entorno totalmente automatizado, las imágenes también son valiosas para los tipos de seguridad humana.
«Si una máquina no está segura de si un archivo es benigno y necesita ser revisado por un humano, a un humano le resultará más fácil correlacionarlo con la imagen que con el código hexadecimal», señaló Ben Salem.
Agregar aprendizaje profundo al proceso de detección también brinda ventajas sobre las técnicas existentes.
«Con modelos de aprendizaje profundo, puede procesar datos complejos», dice Ben Salem. «Esto significa que los pequeños cambios en el malware son más fáciles de detectar que los métodos clásicos de aprendizaje automático que hemos usado hasta ahora».
Los investigadores reconocen las limitaciones de su enfoque.
«Nuestro estudio muestra las ventajas y desventajas entre los enfoques basados en muestras y metadatos», escribieron en el informe técnico.
«La principal ventaja es que podemos profundizar en la muestra y extraer información de la textura, por lo que todas las características del archivo de malware se pueden capturar durante el entrenamiento», explicaron los investigadores.
«Sin embargo, para aplicaciones de mayor tamaño, STAMINA se vuelve menos efectivo porque el software no puede convertir miles de millones de píxeles en imágenes JPEG y luego cambiar su tamaño», continuaron. «En este caso, el enfoque basado en metadatos mostró ventajas sobre el modelo basado en muestras».
En el futuro, el equipo espera evaluar el modelo híbrido utilizando la representación intermedia del binario y la información extraída del binario mediante métodos de aprendizaje profundo. Se espera que estos conjuntos de datos sean más grandes, pero pueden proporcionar una mayor precisión.
Los investigadores planean continuar explorando la optimización acelerada por plataforma de sus modelos de aprendizaje profundo para que puedan implementar tales técnicas de detección con un impacto mínimo en el consumo de energía y el rendimiento del usuario final.