kdd99数据集特征介绍

蓝亚之舟
蓝亚之舟
蓝亚之舟
57
文章
17
评论
2021年4月19日20:02:051 12,359 5433字阅读18分6秒

一、数据集介绍和来源

KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。竞赛主页在这里

“KDD CUP 99 dataset”就是KDD竞赛在1999年举行时采用的数据集。从这里下载KDD99数据集。

1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的TCPdump()网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些TCPdump采集的原始数据被分为两个部分:7周时间的训练数据(**)大概包含5,000,000多个网络连接记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。

一个网络连接定义为:

    在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。

4种异常类型分别是:

  • DOS:denial-of-service. 拒绝服务攻击,例如ping-of-death, syn flood, smurf等;
  • R2L: unauthorized access from a remote machine to a local machine. 来自远程主机的未授权访问,例如guessing password;
  • U2R: unauthorized access to local superuser privileges by a local unpivileged user. 未授权的本地超级用户特权访问,例如buffer overflow attacks;
  • PROBING:surveillance and probing, 端口监视或扫描,例如port-scan, ping-sweep等。

随后来自哥伦比亚大学的Sal Stolfo教授和来自北卡罗莱纳州立大学的 Wenke Lee 教授采用数据挖掘等技术对以上的数据集进行特征分析和数据预处理,形成了一个新的数据集。该数据集用于1999年举行的KDD CUP竞赛中,成为著名的KDD99数据集。虽然年代有些久远,但KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础。

二、数据集特征描述

1、特征与标签值

kdd99数据集特征介绍

如上图所示,上面是kdd99中的一条数据集,一共42项,前41项用蓝色框出来的是特征值,最后一项用红色框出来的是标签值

2、四类特征值

kdd99数据集特征介绍

如上图所示,前面41项特征中,总体上看,共分为4大类(上图用四个框标出),下面分类进行介绍。

(1)TCP连接基本特征(共9种,1~9)

kdd99数据集特征介绍

基本连接特征包含了一些连接的基本属性,如连续时间,协议类型,传送的字节数等:

  • (1)duration:连接持续时间,以秒为单位,连续类型。范围是 [0, 58329] 。它的定义是从TCP连接以3次握手建立算起,到FIN/ACK连接结束为止的时间;若为UDP协议类型,则将每个UDP数据包作为一条连接。数据集中出现大量的duration = 0 的情况,是因为该条连接的持续时间不足1秒。
  • (2)protocol_type:协议类型,离散类型,共有3种:TCP, UDP, ICMP。
  • (3)service:目标主机的网络服务类型,离散类型,共有70种。’aol’, ‘auth’, ‘bgp’, ‘courier’, ‘csnet_ns’, ‘ctf’, ‘daytime’, ‘discard’, ‘domain’, ‘domain_u’, ‘echo’, ‘eco_i’, ‘ecr_i’, ‘efs’, ‘exec’, ‘finger’, ‘ftp’, ‘ftp_data’, ‘gopher’, ‘harvest’, ‘hostnames’, ‘http’, ‘http_2784′, ‘http_443′, ‘http_8001′, ‘imap4′, ‘IRC’, ‘iso_tsap’, ‘klogin’, ‘kshell’, ‘ldap’, ‘link’, ‘login’, ‘mtp’, ‘name’, ‘netbios_dgm’, ‘netbios_ns’, ‘netbios_ssn’, ‘netstat’, ‘nnsp’, ‘nntp’, ‘ntp_u’, ‘other’, ‘pm_dump’, ‘pop_2′, ‘pop_3′, ‘printer’, ‘private’, ‘red_i’, ‘remote_job’, ‘rje’, ‘shell’, ‘smtp’, ‘sql_net’, ‘ssh’, ‘sunrpc’, ‘supdup’, ‘systat’, ‘telnet’, ‘tftp_u’, ‘tim_i’, ‘time’, ‘urh_i’, ‘urp_i’, ‘uucp’, ‘uucp_path’, ‘vmnet’, ‘whois’, ‘X11′, ‘Z39_50′。
  • (4)flag:连接正常或错误的状态,离散类型,共11种。’OTH’, ‘REJ’, ‘RSTO’, ‘RSTOS0′, ‘RSTR’, ‘S0′, ‘S1′, ‘S2′, ‘S3′, ‘SF’, ‘SH’。它表示该连接是否按照协议要求开始或完成。例如SF表示连接正常建立并终止;S0表示只接到了SYN请求数据包,而没有后面的SYN/ACK。其中SF表示正常,其他10种都是error。
  • (5)src_bytes:从源主机到目标主机的数据的字节数,连续类型,范围是 [0, 1379963888]。
  • (6)dst_bytes:从目标主机到源主机的数据的字节数,连续类型,范围是 [0. 1309937401]。
  • (7)land:若连接来自/送达同一个主机/端口则为1,否则为0,离散类型,0或1。
  • (8)wrong_fragment:错误分段的数量,连续类型,范围是 [0, 3]。
  • (9)urgent:加急包的个数,连续类型,范围是[0, 14]。

(2)TCP连接的内容特征(共13种,10~22)

kdd99数据集特征介绍

对于U2R和R2L之类的攻击,由于它们不像DoS攻击那样在数据记录中具有频繁序列模式,而一般都是嵌入在数据包的数据负载里面,单一的数据包和正常连接没有什么区别。为了检测这类攻击,Wenke Lee等从数据内容里面抽取了部分可能反映入侵行为的内容特征,如登录失败的次数等。

  • (10)hot:访问系统敏感文件和目录的次数,连续,范围是 [0, 101]。例如访问系统目录,建立或执行程序等。
  • (11)num_failed_logins:登录尝试失败的次数。连续,[0, 5]。
  • (12)logged_in:成功登录则为1,否则为0,离散,0或1。
  • (13)num_compromised:compromised条件(**)出现的次数,连续,[0, 7479]。
  • (14)root_shell:若获得root shell 则为1,否则为0,离散,0或1。root_shell是指获得超级用户权限。
  • (15)su_attempted:若出现”su root” 命令则为1,否则为0,离散,0或1。
  • (16)num_root:root用户访问次数,连续,[0, 7468]。
  • (17)num_file_creations:文件创建操作的次数,连续,[0, 100]。
  • (18)num_shells:使用shell命令的次数,连续,[0, 5]。
  • (19)num_access_files:访问控制文件的次数,连续,[0, 9]。例如对 /etc/passwd 或 .rhosts 文件的访问。
  • (20)num_outbound_cmds:一个FTP会话中出站连接的次数,连续,0。数据集中这一特征出现次数为0。
  • (21)is_hot_login:登录是否属于“hot”列表(***),是为1,否则为0,离散,0或1。例如超级用户或管理员登录。
  • (22)is_guest_login:若是guest 登录则为1,否则为0,离散,0或1。

(3)基于时间的网络流量统计特征 (共9种,23~31)

kdd99数据集特征介绍

由于网络攻击事件在时间上有很强的关联性,因此统计出当前连接记录与之前一段时间内的连接记录之间存在的某些联系,可以更好的反映连接之间的关系。这类特征又分为两种集合:

  1. 一个是 “same host”特征,只观察在过去两秒内与当前连接有相同目标主机的连接,例如相同的连接数,在这些相同连接与当前连接有相同的服务的连接等等;
  2. 另一个是 “same service”特征,只观察过去两秒内与当前连接有相同服务的连接,例如这样的连接有多少个,其中有多少出现SYN错误或者REJ错误。

下面介绍9项特征:

  • (23)count:过去两秒内,与当前连接具有相同的目标主机的连接数,连续,[0, 511]。
  • (24)srv_count:过去两秒内,与当前连接具有相同服务的连接数,连续,[0, 511]。
  • (25)serror_rate:过去两秒内,在与当前连接具有相同目标主机的连接中,出现“SYN” 错误的连接的百分比,连续,[0.00, 1.00]。
  • (26)srv_serror_rate:过去两秒内,在与当前连接具有相同服务的连接中,出现“SYN” 错误的连接的百分比,连续,[0.00, 1.00]。
  • (27)rerror_rate:过去两秒内,在与当前连接具有相同目标主机的连接中,出现“REJ” 错误的连接的百分比,连续,[0.00, 1.00]。
  • (28)srv_rerror_rate:过去两秒内,在与当前连接具有相同服务的连接中,出现“REJ” 错误的连接的百分比,连续,[0.00, 1.00]。
  • (29)same_srv_rate:过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的连接的百分比,连续,[0.00, 1.00]。
  • (30)diff_srv_rate:过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百分比,连续,[0.00, 1.00]。
  • (31)srv_diff_host_rate:过去两秒内,在与当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接的百分比,连续,[0.00, 1.00]。

注:这一大类特征中,23、25、27、29、30这5个特征是 “same host” 特征,前提都是与当前连接具有相同目标主机的连接;24、26、28、31这4个特征是 “same service”特征,前提都是与当前连接具有相同服务的连接。

(4)基于主机的网络流量统计特征 (共10种,32~41)

kdd99数据集特征介绍

基于时间的流量统计只是在过去两秒的范围内统计与当前连接之间的关系,而在实际入侵中,有些 Probing攻击使用慢速攻击模式来扫描主机或端口,当它们扫描的频率大于2秒的时候,基于时间的统计方法就无法从数据中找到关联。所以Wenke Lee等按照目标主机进行分类,使用一个具有100个连接的时间窗,统计当前连接之前100个连接记录中与当前连接具有相同目标主机的统计信息。

  • (32)dst_host_count:前100个连接中,与当前连接具有相同目标主机的连接数,连续,[0, 255]。
  • (33)dst_host_srv_count:前100个连接中,与当前连接具有相同目标主机相同服务的连接数,连续,[0, 255]。
  • (34)dst_host_same_srv_rate:前100个连接中,与当前连接具有相同目标主机相同服务的连接所占的百分比,连续,[0.00, 1.00]。
  • (35)dst_host_diff_srv_rate:前100个连接中,与当前连接具有相同目标主机不同服务的连接所占的百分比,连续,[0.00, 1.00]。
  • (36)dst_host_same_src_port_rate:前100个连接中,与当前连接具有相同目标主机相同源端口的连接所占的百分比,连续,[0.00, 1.00]。
  • (37)dst_host_srv_diff_host_rate:前100个连接中,与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主机的连接所占的百分比,连续,[0.00, 1.00]。
  • (38)dst_host_serror_rate:前100个连接中,与当前连接具有相同目标主机的连接中,出现SYN错误的连接所占的百分比,连续,[0.00, 1.00]。
  • (39)dst_host_srv_serror_rate:前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现SYN错误的连接所占的百分比,连续,[0.00, 1.00]。
  • (40)dst_host_rerror_rate:前100个连接中,与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比,连续,[0.00, 1.00]。
  • (41)dst_host_srv_rerror_rate:前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现REJ错误的连接所占的百分比,连续,[0.00, 1.00]。
继续阅读
蓝亚之舟
网络安全数据集

CIC-IDS2017数据集训练和测试

1、数据集预处理 1.1 整合数据并剔除脏数据 如上图所示,整个数据集是分开的,想要训练,必须要整合在一起,同时在数据集中存在 Nan 和 Infiniti 脏数据(只有第 15 列和第 16 列存在...
网络安全数据集

CIC-IDS2017数据集特征介绍

1、简介 通信安全机构(CSE)与加拿大网络安全研究所(CIC)合作项目,该项目对自 1998 年以来现有的 11 个数据集的评估表明,大多数数据集(比如经典的 KDDCUP99,NSLKDD 等)已...

发表评论

评论:1   其中:访客  1   博主  0
    • 随便看看 随便看看 0

      加油!!