麻省理工学院使用超级计算机系统开发模型分析整个互联网流量

  • 时间:
  • 浏览:0

10月28日消息,麻省理工学院的研究人员使用超级计算机系统开发了有有另4个模型,该模型可不前要捕获特定日期世界范围内的网络流量,可不前要用作互联网研究和很多其它应用守护进程的度量工具。研究人员说,只能 大规模地了解网络流量模式,对于制定互联网政策,识别和防止断网,防御网络攻击以及设计更高效的计算基础架构很有用。研究人员在最近召开的电气和电子工程师学好高性能极限计算会议上发表这份研究报告。

研究人员派发了最大的可公开访问的互联网流量数据集,其中包括在过去几年中在全球不同位置交换的1150亿个数据包。

我们 通过有有另4个新的“神经网络”通道运行数据,该管道在麻省理工学院的“超级云”的111500个防止器上运行,该系统结合了林肯实验室和研究所的计算资源。该神经网络自动训练了有有另4个模型,该模型捕获了数据集中所有链接的关系,从常见的ping到谷歌和脸书类事的巨头,再到罕见的仅短暂连接但似乎对网络流量有影响的链接。

此模型可不前要获取任何庞大的网络数据集,并生成很多有关网络中所有连接咋样相互影响的统计度量。这可用于揭示有关对等文件共享,恶意IP地址和垃圾邮件行为,关键部门中的攻击分布以及流量瓶颈的见解,以更好地分配计算资源并保持数据流。

从概念上讲,这项工作类事于测量宇宙微波背景,即围绕宇宙传播的几乎均匀的无线电波,这是研究外层空间现象报告 的重要信息来源。麻省理工学院林肯实验室超级计算中心的研究员,天文学家杰里米·开普纳说:“我们 建立了有有另4个精确的模型来测量互联网的虚拟世界背景。因为要检测任何方差或异常,则前要具有良好的背景模型。”

在互联网研究中,研究网络流量异常因为发现网络威胁。为此,前要首先了解正常流量的清况 。只是捕获有有哪些仍然具有挑战性。传统的“流量分析”模型只能分析受位置限制的源与目的地之间交换的数据包的小样本。这降低了模型的准确性。

研究人员并只能 不得劲想防止很多流量分析现象报告 。只是我们 经常在开发新技术,以防止少许的网络矩阵。

网络通常以地图的形式进行研究,参与者以节点表示,链接表示节点之间的连接。随着互联网流量的增加,节点的大小和位置详细都是所不同。大型超节点是流行的枢纽,类事谷歌或脸书。叶节点从该超节点展开,只是彼此之间以及与该超节点具有多个连接。隔离节点和链接位于超级节点和叶节点的“核心”之外,它们之间很少连接。

捕获有有哪些地图的详细范围对于传统模型是不可行的。开普纳说:“因为只能 超级计算机,就无法触摸有有哪些数据。”

麻省理工学院的研究人员与日本大学建立的广泛集成分布式环境(WIDE)项目以及位于加利福尼亚的应用互联网数据分析中心(CAIDA)合作者,捕获了全球最大的互联网流量数据包捕获数据集。匿名数据集可追溯到2015年,在日本和美国的不同地点,随机日期内,消费者与各种应用和服务之间含高近1150亿个唯一的源和目标数据点。

在可不前要根据该数据训练任何模型只是,我们 前要进行很多广泛的预防止。为此,我们 利用了先前创建的称为动态分布式维度数据模式(D4M)的软件,该软件使用很多平均技术来有效地计算和分类“超稀疏数据”,该数据含高比数据点更多的空白空间。研究人员将数据分解为约1115000个数据包的单位。这产生了源与目的地之间数十亿行和列的交互的扎住凑矩阵。

只是此稀疏数据集中的绝大多数单元仍然为空。为了防止矩阵,研究团队在相同的111500个防止器核上运行了神经网络,从而创建了潜在准确模型的概率分布。

只是,它使用改进的纠错技术进一步细化每个模型的参数,以捕获尽因为多的数据。传统上,机器学习中的纠错技术将尝试降低任何偏远数据的重要性,以使模型适合正态概率分布,从而使模型总体上更加准确。只是研究人员使用了很多数学土法律土办法来确保模型仍然看过所有外围数据(类事,隔离的链接),这对整体测量而言详细都是重要的。

最后,神经网络本质上生成了有有另4个仅包含高高另4个参数的简单模型,该模型描述了互联网流量数据集,从真正流行的节点到孤立的节点,以及介于两者之间的所有信息的详细频谱。

现在,研究人员正在与同行联系,以寻找该模型的下有有另4个应用守护进程。类事,专家可不前要检查研究人员在实验中发现的孤立链接的重要性,很多链接很少,但似乎会影响核心节点中的网络流量。

除了互联网之外,神经网络通道还可用于分析任何超稀疏网络,类事生物和社会网络。开普纳说:“对于愿意建立更强大的网络或检测网络异常的我们 来说,我们 现在为我们 提供了有有另4个了不起的工具。有有哪些异常因为只要用户行为的正常行为,也因为是我们 在其它不正常的事情。”

进入“通信”首页,浏览更多精彩内容 >>