李宏毅机器学习2020课程导学
机器学习2020与以往不同的地方在于增加了很多作业,具体的作业如下如所示。下图中的每一个符号都代表一个作业。
继续数据预处理工作,在缓慢的批流工作进行了将近三天之后,完成了三个原始数据样本(不到2G)的数据的批流,进行完批流得到的是一个flow一个pcap文件,接下来需要做的工作就是通过python的Scapy库逐个读取flow,统计所需的统计属性
最近阅读完论文《Classifying IoT Devices in Smart Environments Using Network Traffic Characteristics》,在复现的过程中出现了很多问题,现对于自己的复现过程和一下思考进行一下记录
最近由于需要在Linux中处理大量的网路数据,没有可视化的wireshark可用,转而时候命令行版本的tshark,但是用于在命令行中运行,当数据量巨大的时候操作繁杂,所以写了一个小脚本自动化运行,记录一下自己从零开始学shell编程的过程
物联网被誉为社会的下一个发展浪潮,智能家居、企业和城市装备着大量的物联网设备,然而这些智能环境的控制者并没有充分意识到这些物联网设备的价值,更不用说能否让这些设备抵御网络攻击了。在这片论文中,我们通过使用在网络级获得的流量特性开发用于物联网设备的强大的(robust)框架来应对(address)这个挑战。我们的工作主要分为四个部分。首先,我们搭建了一个拥有28个不同IoT设备的的智能环境,这些IoT设备包括监控摄像头、灯、插座、传感器以及健康监控传感器,我们从这些基础环境中收集并整合长达6个月的网络流量,这些流量的一个子集将会被公开用于开源社区研究;第二,我们使用统计属性对底层网络流量特性提供了一些见解,这些统计属性包括活动周期、端口号、信号模式和加密模式;第三,我们开发了一个基于分类算法的多级机器学习模型(multi-stage machine)并且演示(demonstrate )它在区分具体的IoT设备的能力,基于他们的网络活动准确率超过99%;最后我们讨论了成本、速度之间的权衡(trade-offs)和应用于真实网络的表现。我们的研究推动了智能环境管理者监控他的IoT设备的表现、功能和网络安全性的方式,而不需要任何特殊设备和协议。