CIC-IDS2017数据集特征介绍

蓝亚之舟
蓝亚之舟
蓝亚之舟
57
文章
17
评论
2021年4月17日13:56:25229,4012 2905字阅读9分41秒

1、简介

通信安全机构(CSE)与加拿大网络安全研究所(CIC)合作项目,该项目对自 1998 年以来现有的 11 个数据集的评估表明,大多数数据集(比如经典的 KDDCUP99,NSLKDD 等)已经过时且不可靠。其中一些数据集缺乏流量多样性和容量,一些数据集没有涵盖各种已知的攻击,而另一些数据集将数据包有效载荷数据匿名化,这不能反映当前的趋势。有些还缺少特征集和元数据。

CIC-IDS-2017 数据集包含良性和最新的常见攻击,类似真实世界数据(PCAPs)。

它的数据采集截至 2017 年 7 月 7 日(星期五)下午 5 时,共计 5 天。星期一是正常的一天,只包括正常的流量。实现的攻击包括暴力 FTP、暴力 SSH、DoS、Heartbleed、Web 攻击、渗透、僵尸网络和 DDoS。他们分别于周二、周三、周四和周五上午和下午被执行。

其官方网站为:https://www.unb.ca/cic/datasets/ids-2017.html

关于该数据集的介绍,其有一篇论文,感兴趣的可以去看看:

CIC-IDS2017数据集特征介绍

论文链接:https://www.scitepress.org/Papers/2018/66398/66398.pdf

论文对比自 1998 年以来现有的 11 个数据集的优劣、CIC-IDS2017 数据集如何形成(网络部署、攻防步骤等)、使用机器学习算法对该数据集进行测试(有测试结果)以及多个数据集的优劣对比等。

2、下载

直接前往官网,最底部有下载按钮:

CIC-IDS2017数据集特征介绍

点击按钮,需要填写注册信息,随意填写就可以,填写完成,就可以看到下载目录:

CIC-IDS2017数据集特征介绍

如上图所示,在目录中,有三类文件,其中 GeneratedLabelledFlows 是完整提取文件,而 MachineLearningCSV 则是在前者基础上进行修剪后的版本,剔除了 IP 和时间戳等不适合机器学习的属性列,如果只是单纯进行机器学习训练,只需要下载后者即可。

除了上面两类文件,还有 Pcaps 文件,这个是纯粹的数据流文件,上面两个文件都在通过该 pcap 文件提取出来的。

3、数据特征

下载完成,其目录格式如下:

CIC-IDS2017数据集特征介绍

(1)fl_dur

流持续时间

(2)tot_fw_pk(流出方向?)

在正向上包的数量

(3)tot_bw_pk

在反向上包的数量

(4)tot_l_fw_pkt

正向数据包的总大小

(5)fw_pkt_l_max

包在正向上的最大大小

(6)fw_pkt_l_min

包在正向上的最小大小

(7)fw_pkt_l_avg

数据包在正向的平均大小

(8)fw_pkt_l_std

数据包正向标准偏差大小

(9)Bw_pkt_l_max

包在反向上的最大大小

(10)Bw_pkt_l_min

包在反向上的最小大小

(11)Bw_pkt_l_avg

数据包在反向的平均大小

(12)Bw_pkt_l_std

数据包反向标准偏差大小

(13)fl_byt_s

流字节率,即每秒传输的数据包字节数

(14)fl_pkt_s

流包率,即每秒传输的数据包数

(15)fl_iat_avg

两个流之间的平均时间

(16)fl_iat_std

两个流之间标准差

(17)fl_iat_max

两个流之间的最大时间

(18)fl_iat_min

两个流之间的最小时间

(19)fw_iat_tot

在正向发送的两个包之间的总时间

(20)fw_iat_avg

在正向发送的两个包之间的平均时间

(21)fw_iat_std

在正向发送的两个数据包之间的标准偏差时间

(22)fw_iat_max

在正向发送的两个包之间的最大时间

(23)fw_iat_min

在正向发送的两个包之间的最小时间

(24)bw_iat_tot

反向发送的两个包之间的总时间

(25)bw_iat_avg

反向发送的两个数据包之间的平均时间

(26)bw_iat_std

反向发送的两个数据包之间的标准偏差时间

(27)bw_iat_max

反向发送的两个包之间的最大时间

(28)bw_iat_min

反向发送的两个包之间的最小时间

(29)fw_psh_flag

在正向传输的数据包中设置 PSH 标志的次数(UDP 为 0)

(30)bw_psh_flag

在反向传输的数据包中设置 PSH 标志的次数(UDP 为 0)

(31)fw_urg_flag

在正向传输的数据包中设置 URG 标志的次数(UDP 为 0)

(32)bw_urg_flag

反方向数据包中设置 URG 标志的次数(UDP 为 0)

(33)fw_hdr_len

用于前向方向上的包头的总字节数

(34)bw_hdr_len

用于后向方向上的包头的总字节数

(35)fw_pkt_s

每秒前向包的数量

(36)bw_pkt_s

每秒后向包的数量

(37)pkt_len_min

流的最小长度

(38)pkt_len_max

流的最大长度

(39)pkt_len_avg

流的平均长度

(40)pkt_len_std

流长度的方差

(41)pkt_len_va

最小包到达间隔时间

(42)fin_cnt

带有 FIN 的包数量

(43)syn_cnt

带有 SYN 的包数量

(44)rst_cnt

带有 RST 的包数量

(45)pst_cnt

带有 PUSH 的包数量

(46)ack_cnt

带有 ACK 的包数量

(47)urg_cnt

带有 URG 的包数量

(48)cwe_cnt

带有 CWE 的包数量

(49)ECE

带有 ECE 的包数量

(50)down_up_ratio

下载和上传的比例

(51)pkt_size_avg

数据包的平均大小

(52)fw_seg_avg

观察到的前向方向上数据包的平均大小

(53)bw_seg_avg

观察到的后向方向上数据包的平均大小

(54)fw_byt_blk_avg

在正向上的平均字节数块速率

(55)fw_pkt_blk_avg

在正向方向上数据包的平均数量

(56)fw_blk_rate_avg

在正向方向上平均 bulk 速率

(57)bw_byt_blk_avg

在反向上的平均字节数块速率

(58)bw_pkt_blk_avg

在反向方向上数据包的平均数量

(59)bw_blk_rate_avg

在反向方向上平均 bulk 速率

(60)subfl_fw_pk

在正向子流中包的平均数量

(61)subfl_fw_byt

子流在正向中的平均字节数

(62)subfl_bw_pkt

反向子流中数据包的平均数量

(63)subfl_bw_byt

子流在反向中的平均字节数

(64)fw_win_byt

在正向的初始窗口中发送的字节数

(65)bw_win_byt

在反向的初始窗口中发送的字节数

(66)Fw_act_pkt

在正向方向上具有至少 1 字节 TCP 数据有效负载的包

(67)fw_seg_min

在正方向观察到的最小 segment 尺寸

(68)atv_avg

流在空闲之前处于活动状态的平均时间

(69)atv_std

流在空闲之前处于活动状态的标准偏差时间

(70)atv_max

流在空闲之前处于活动状态的最大时间

(71)atv_min

流空闲前激活的最小时间

(72)idl_avg

流在激活之前空闲的平均时间

(73)idl_std

流量在激活前处于空闲状态的标准偏差时间

(74)idl_max

流在激活之前空闲的最大时间

(75)idl_min

流在激活之前空闲的最小时间

继续阅读
蓝亚之舟