3wthx 发表于 2020-5-11 17:11:57

微软和英特尔的项目将恶意软件转换为图像再进行分析

本帖最后由 whvirus 于 2020-5-11 19:37 编辑

https://cdn.u1.huluxia.com/g4/M03/20/A3/rBAAdl65EfeAYSO3AABIvr2I3yo277.png
微软和英特尔最近合作开展了一个新的研究项目,探索了一种新的检测和分类恶意软件的方法。

该项目被称为STAMINA(STAtic Malware-as-Image Network Analysis),该项目依靠一种新技术将恶意软件样本转换为灰度图像,然后对图像进行扫描,以获取恶意软件样本特有的纹理和结构模式。

STAMINA实际是如何工作的

英特尔-微软的研究团队表示,整个过程遵循了几个简单的步骤。首先是取一个输入文件并将其二进制形式转换为原始像素数据流。

然后,研究人员把这个一维(1D)像素流转成二维照片,让正常的图像分析算法对其进行分析。

根据输入文件的大小选择了图像的宽度,使用下表中的表格。高度是动态的,是将原始像素流除以所选的宽度值后的结果。

https://cdn.u1.huluxia.com/g4/M02/20/A5/rBAAdl65EmiAPxsXAAAX1Feba5k700.png

在将原始像素流组装成一张看起来很正常的二维图像后,研究人员随后将生成的照片进行了调整,将其大小调整到一个较小的维度。

英特尔和微软的团队表示,调整原始图像的大小并没有 "对分类结果产生负面影响",这是一个必要的步骤,这样计算资源就不用再去处理由数十亿像素组成的图像了,这很可能会减慢处理速度。

然后将残留图像送入预训练的深度神经网络(DNN),该网络扫描图像(恶意软件菌株的二维表示),并将其分类为干净或感染。

微软表示,它提供了220万个受感染的PE(Portable Executable)文件哈希值样本作为研究的基础。

研究人员利用已知恶意软件样本中的60%用于训练原始DNN算法,20%的文件用于验证DNN,另外20%用于实际测试过程。

研究团队表示,STAMINA在识别和分类恶意软件样本的准确率达到了99.07%,假阳性率为2.58%。

"这一结果无疑鼓励了深度学习在恶意软件分类中的应用,"代表微软威胁防护智能团队参与研究的两位微软研究人员Jugal Parikh和Marc Marino表示。

微软在机器学习方面的投资

这项研究是微软近期利用机器学习技术改进恶意软件检测的一部分。

STAMINA使用了一种叫做深度学习的技术。深度学习是机器学习(ML)的一个子集,它是人工智能(AI)的一个分支,指的是智能计算机网络,能够从以非结构化或非标签化格式存储的输入数据中自主学习 -- 在本例中,是随机的恶意软件二进制文件。

微软表示,虽然STAMINA在处理较小的文件时准确、快速,但在处理较大的文件时就会出现问题。

"对于较大尺寸的应用程序,STAMINA在将数十亿像素转换为JPEG图像,然后重新调整大小的限制,使得STAMINA变得不那么有效,"微软在上周的一篇博客文章中说。

不过,这很可能并不重要,因为该项目只适用于小文件,效果非常好。

在本月早些时候接受ZDNet的采访时,微软威胁防护部安全研究总监Tanmay Ganacharya表示,微软现在严重依赖机器学习来检测新出现的威胁,而这个系统使用的机器学习模块与客户系统或微软服务器上部署的机器学习模块不同。

Ganacharya表示,微软现在使用了客户端机器学习模型引擎、云端机器学习模型引擎、捕捉行为序列或捕捉文件本身内容的机器学习模块。

根据报告的结果,STAMINA很可能是那些ML模块中的一个,我们可能很快就会看到微软实现的ML模块作为一种发现恶意软件的方法。

目前,微软能够让这种方法比其他公司更有效,主要是因为它从数以亿计的Windows Defender安装中掌握了大量的数据。

"任何人都可以建立一个模型,但标签化的数据以及这些数据的数量和质量,确实有助于适当地训练机器学习模型,从而定义了它们的有效性。"Ganacharya说。

"而在微软,我们有这个优势,因为我们确实有传感器,通过电子邮件、通过身份识别、通过终端给我们带来了很多有趣的信号,并且能够将它们结合起来。"




页: [1]
查看完整版本: 微软和英特尔的项目将恶意软件转换为图像再进行分析