加密流量分类任务的深度学习方法（一般框架总结）

时间：2023-07-03 16:37:00 流量变送器类型

深度学习具有优异的自动学习能力（DL）成为加密流量分类任务中非常理想的方法。以下是大多数相关工作中加密流量分类任务的一般框架。总体结构图如下：
在这里插入图片描述

A 定义分类任务

显式定义分类任务是设计流量分类器之前的首要步骤。分类任务主要由目标、粒度和性能要求三部分组成。

A1 分类目标

一般来说，流量分类的目标总是包括在内网络管理、安全和个性化推荐三部分。网络管理相关场景中有网络资源调度、QoS 提供和基于内容的计费。入侵检测、恶意软件检测和僵尸网络检测是典型的网络安全场景。此外，网络服务提供商或内容提供商可以通过细粒度流量分类，如互联网用户行为分析，根据订阅者的喜好推荐自己。

A2 分类粒度

二类(如正常或异常、明文或加密，VPN或非VPN），主要用于入侵检测、恶意软件检测和僵尸网络检测。
协议（如TCP、UDP、HTTP或SMTP），主要用于网络资源的调度、规划和分配。
同上服务组(如流式传输、浏览或下载)。
应用程序(例如 Facebook、Youtube 或 Skype），同上。
主要用于基于互联网用户偏好分析的网站(如搜索引擎、电子购物或社交网站)。
用户在应用程序中的特定行为(例如，添加商品 Amazon.com 购物车，在 Twitter 发布图片或在上面 Skype 语音通话)与上述相同。
例如，智能设备 iPhone、iPad、TV Box），ISP 可根据不同的智能设备提供特定的设备 QoS。
应用身份(如手机号码，Facebook账要用于安全审计和信息取证。

A3 分类性能要求

对于分类的性能要求，考虑两个因素很重要。

实时能力。从实时分类的角度来看，分类器可分为在线和离线两类。在线分类器总是用于实时场景，如网络资源调度和入侵检测。相比之下，离线分类器通常用于基于应用程序或内容的用户行为分析和收费。
轻量级能力。有些分类器应该是轻量级的，特别是在一些简单的硬件中，如家庭网关或边缘路由器。显然，随着雾计算的快速发展，轻量级分类器的出现越来越受到学术研究和网络运行的关注。

B 数据准备

为了获得大型、平衡和有代表性的数据集，培养深度学习模型至关重要。准备数据有三种方法，包括选择现有数据集、收集原始数据和生成合成样本。

在下表中，总结了最近现有工作中使用的数据集。显然，大多数工作都选择了 ISCX2012 和 Moore 等待公共数据集。此外，还有一些工作 ISP 网络或研究实验室收集原始数据，创建自己的数据集，如 USTC-TFC2016 和 IMTD17。从样本数量来看，我们可以看到大多数工作选择 70K-1500K 大部分工作包括加密流量样本。而且大部分工作选择 5-17 作为他们的分类任务，应用程序或协议。此外，值得注意的是，现有工作中使用的一些数据集是不平衡的，这对分类任务的性能有一定的影响。

总之，由于以下原因，没有公开接受的数据集进行研究：

由于流量类型多，应用程序更新频繁，所有类型的应用程序流量都没有数据集。
覆盖宽带和无线接入，PC与移动设备接入等所有网络场景都非常困难、耗时、昂贵。

B2 收集原始数据

一些数据包捕获工具(如 Tcpdump）此外，一些工作还使用流量工具收集流量记录，如 NetFlow 。

B3 数据增强

面对流量分类，类不平衡是一个非常重要的问题。数据增强作为处理类平衡的有用方法，通常是指生成合成样本或过采样、欠采样，以保持主次类的样本平衡。

C 数据预处理

一般来说，数据集中的流量数据可分为三种类型：原始数据包数据、PCAP 文件和统计特征。
前两有三：

一些不相关的包总是包含在原始包数据中，比如ARP、DHCP、ICMP。
由于一些意想不到的网络条件，包级特征分布可能会失真，如重传包、乱序包等。
PCAP 文件包含一些不必要的信息，如 PCAP 文件头。

因此，需要一些数据预处理措施，如数据包过滤和标头去除。在大多数原始数据包数据集中，需要零填充和截断固定长度，因为深度神经网络 (DNN) 数据集数据包的帧长总是提供固定大小的输入 54 到 1514 变化很大(以 TCP 例)。数据归一化对于深度学习的性能至关重要，它总是将数据集的流量数据归一为 [?1, 1] 或 [0,1] 范围内的值。这有助于分类任务在模型训练中更快地收敛。

D 模型输入设计

作为一个重要的组成部分，深度学习模型的输入对模型在训练和测试过程中的性能有很大的影响。一般来说，基于深度学习的流量分类模型的输入可以分为三种类型：原始数据包数据、流量特征以及原始数据与特征的组合。

原始数据包数据。大多数工作选择原始数据包数据作为模型输入。此时，通常需要零填充和截断，零和截断长度的范围通常是 700 到 1500字节之间。
流量特征。流量特征一般可分为三类：数据包级特征(如数据包的长度和数据包的间隔)流级特征(如流持续时间、流中总数据包)和统计特征(如平均数据包长度和每秒发送或接收的平均字节数)。
结合原始数据和特征。

E 预训练设计

众所周知，深度学习在训练过程中需要大量的标记数据，但大型数据集的收集和标记非常耗时和昂贵。流量数据集无一例外，尤其是加密流量，因为目前 DPI 等流量标注工具无法处理加密流量。相反，未标记的交通数据丰富且易于获取。因此，一些研究人员开始探索如何将容易获得的未标记交通数据与少量标记交通数据结合起来进行准确的交通分类。实际上，这是一种典型的半监督学习，通过它可以使用大量未标记的交通数据预训练模型，然后将其转移到新架构并使用重新训练模型。此外，预训练还可以用来降低维度，使模型变得轻量级，这在某些场景中非常重要。此外，大型数据集会还消耗了大量的计算和内存资源。

F 模型结构设计

模型架构是流量分类最关键的因素，目前常用的深度学习模型有：

参考文献

Wang P, Chen X, Ye F, et al. A survey of techniques for mobile service encrypted traffic classification using deep learning[J]. IEEE Access, 2019, 7: 54024-54033.

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

加密流量分类任务的深度学习方法（一般框架总结）

相关文章