基于半监督聚类的局域网拓扑测量任务选择方法

时间:2019-04-12 06:16:59 来源:通许农业网 作者:匿名

基于半监督聚类的局域网拓扑测量任务选择方法 作者:未知 介绍 ?W网络拓扑测量是发现网络结构的重要途径。 Traceroute是拓扑测量中最常用的技术方法。 Pansiot等。 [1]首先使用traceroute发现路由器级网络拓扑。 在20世纪末,南加州大学开启了SCAN项目[2]并发现了150,000个网络节点。 自2007年以来,CAIDA(应用互联网数据分析中心)的Ark平台一直在全球范围内进行分布式拓扑测量。 近年来,网络测量相关研究变得更加深入。 2015年,Reza等人。总结了近十年来发展起来的网络测量技术,并将拓扑粒度细化为接口级,路由器级,POP级和AS级。 。 同时,详细讨论了各级相关测量技术,分析了存在的问题和局限性[3]; Holterbach等。 [4]于2015年通过基于RIPE Atlas的开放式测量平台的实验发现。多用户并发测量会影响测量精度,并提出了设计测量平台时需要注意的各种因素。奥古斯丁等人。 [5]通过组合多方拓扑测量数据,综合分析IXP之间的连接关系。 因特网由大量本地网络(AS自治域,国家)组成。分析本地网络如何连接到外部网络是了解网络拓扑的关键步骤。 本地网络外部连接受业务关系和地理位置等因素的影响。直接从运营商和IXP获取大量本地网络外部连接信息是不可能的。因此,从traceroute测量结果中分析拓扑数据是获取相关信息的主要方式。 在现有的网络测量工作中,在本地网络上进行长期大规模测量,最后从测量结果中获取本地网络外部连接IP地址。对历史测量数据的分析发现,大量的traceroute路径通过同一个本地网络连接到IP地址,因此推测这种现象与traceroute的测量点和目的节点有关。 本文将使用此作为测量任务的半监督聚类的起点,使用traceroute [6-8]中的测量点和目标节点的属性,旨在用少量已知测量数据预测traceroute测量结果,并选择最多的测量。有意义的测量任务,以减少不必要的测量,并找到大量的本地网络从外部连接到IP地址。 最后,该算法用于选择多个本地网络的拓扑测量任务。发现只能找到本地网络测量任务集的3.5%,并且可以找到超过90%的本地网络外部连接IP地址,并且利用了聚类方法的评估标准。 [9]评估算法。结果表明,该算法具有良好的类聚合能力,在实际测量工作中具有良好的应用前景。 1本地网络拓扑测量方法 1.1本地网络测量任务集生成 Traceroute任务由测量点和目标节点组成。 为了获得本地网络的良好拓扑数据,有必要找到以发散方式分布的大量测量点。 您可以使用第三方网站(例如traceroute.org)和搜索引擎(使用Google搜索关键字Looking Glass)来收集全球的Looking Glass服务器。这些服务器以Web界面的形式提供免费的traceroute测量服务,这些服务目前已被收集。稳定的1000服务器可以执行跟踪路由测量,并且还调用高并发测量系统来调用测量点接口,并且所有接口可以同时执行测量任务。 为了更好地分析测量点属性以安排测量点,使用数据包捕获工具获取测量点的源IP地址,并分析源IP地址,以发现这些traceroute服务器分布在56个不同的国家和地区满足广泛的需求。 。 在测量本地网络时,选择一个测量点来连接本地网络外部每个接口的测量点集(某些接口上有多个测量点);目的IP地址集需要满足本地网络中的代表和目的IP地址。对于拓扑结构相距较远的要求,本地网络的IP地址段通过地理定位数据库(ip2Location)获取,IP地址段根据设计的目的IP地址集大小和所有IP地址进行分段。细分市场分为相同。从每个IP地址段(使用ping测试连接)中随机选择IP地址的大小以加入目标IP地址集。测量点集和目的地IP地址集被记录为设置为测量任务集的笛卡尔积,如图4所示。 1,因此测量任务集中的每个任务元素都是traceroute。 1.2本地网络外部连接IP地址定义 测量任务集中的每个任务可以在执行测量后获得定向跟踪路径路径。不同接口的traceroute参数有些不同。因此,原始traceroute测量结果处理如下:从每个TTL中选择第一个IP地址作为有效。 IP地址,保留第一时间延迟信息(其他信息被丢弃),最后生成格式化路径。 这个演绎过程如图2所示。 由于Ren Zhao中的测量点位于本地网络之外,因此目标IP地址位于本地网络中。如果traceroute路径有效(traceroute路径中至少有一个IP地址位于本地网络中),则可以确定traceroute路径。本地网络中出现的第一个IP地址是本地网络外部连接IP地址。 在这方面,可用的研究和分析如图3所示。 在图3中,序列号是traceroute中的TTL值,白点是位于本地网络外部的IP地址,灰点是位于本地网络中的IP地址。 traceroute路径中TTL为6的IP地址是它发现的本地网络外部连接IP地址。 1.3分析本地网络的外部网络IP地址 外部网络连接IP地址是外部网络进入本地网络的第一步。本地网络外部连接IP地址可以为本地网络中的大量IP地址提供外部连接服务。因此,外部连接IP地址的数量相对于整体。本地网络的IP地址大小非常小。 为了验证该讨论,统计处理本地网络的外部网络IP地址的频率,并且测量本地网络(阿富汗)的拓扑数据作为分析的示例。统计结果见表1。 在表1中,外部连接IP地址频率范围表示通过本地网络进入本地网络以连接IP地址的traceroute的数量;外部连接IP地址的数量和比例表示满足频率范围的本地网络的外部网络IP地址数和所有本地网络外部连接IP地址的比例。从统计结果可以看出,本地网络中大多数外部连接的IP地址经常出现在测量结果中,并且大量的traceroute路径通过相同的IP地址进入本地网络。 因此,如果在执行测量任务之前可以预测测量任务的测量结果,则是否通过相同的IP地址进入本地网络可以减少测量次数并提高测量效率。 此外,如果需要进一步了解本地网络的外部网络IP地址的详细连接结构(例如,分析通过IP地址的外部网络IP地址的数量),还可以生成测量任务根据预测结果以有针对性的方式执行而不执行大的操作。比例测量。 2测量任务集选择算法 2.1选择测量任务集的过程设计 测量任务集的任务元素由测量点的IP地址和目标IP地址组成。 IP地址的一些属性,例如地理位置(国家,城市),BGP信息(AS号,IP前缀)等,可以通过地理定位数据库获得。 。 对于这些属性,可以建立直观的认知,即,如果不同任务元素的属性相似,则通过traceroute过程的路径应该是相似的,并且本地网络连接IP地址可以是相同的。 因此,如果可以将具有相似属性的任务元素聚合在一起,则可以选择具有不同任务元素属性差异的测量任务以添加到要测试的任务集中,但是如果使用传统的无监督聚类来聚合任务元素,集群性能有限。 因此,在聚类过程中,测量系统可用于检测少量测量任务类别,加快聚类速度,提高聚类性能。 在本文中,测量任务选择算法的核心思想是:使用本地网络的外部网络IP地址作为类别标签,使用由任务属性和类别确定的少量测量任务进行半监督聚类所有测量任务,并从所有测量任务中选择测量任务,以加入要知道类别中心距离较远的任务中要测试的任务集。 该算法的设计流程如图4所示。 实施步骤的分析可以看作如下。 步骤1:尝试选择少量测量任务(测量任务之间属性差异很大)作为要测试的初始任务集,执行测量,标记任务元素的类别,将其记录为标记样本,并记录剩余任务元素作为未标记的样本。步骤2:使用标记样本的属性计算每个类别的质心向量,以预测未标记的样本类别。 计算每个未标记样本到所有质心的距离。如果从未标记的样本到最近的质心的距离小于某个阈值,则将样本标记为质心的类别。 步骤3:从未标记的样本中选择无法聚合到已知类别的测量任务(未标记的样本远离所有已知的质心距离),并将测量任务添加到要测试的任务集以执行测量。 步骤4:如果在新测量结果中未找到新类别,则算法结束。否则,新的测量结果用于生成标记样本并转到步骤2。 2.2初始任务集生成 以M个测量点和N个目的IP地址为例,生成总共M * N个测量任务,并标记这些测量任务的属性。 在研究中,属性选择中的设计内容是: 因为它是从外部网络到本地网络,测量点IP地址属性选择粒度可以是粗略的,并且目的地IP地址属性选择粒度很好,所以测量点IP地址的国家属性,目的地IP地址country,city,AS数字和IP地址前缀共有5个属性作为测量任务元素的属性集。 在每个任务元素的测量结果中找到的本地网络外部连接IP地址(未标记为无)用作任务的类别标签。 要测量的初始任务集需要满足以下特征:在不同测量点执行的任务数量大致相同(可以同时执行,负载在测量点平衡);测量任务之间的属性差异很大(在初始测量结果中可以找到多种类型)。类别)。 总之,我们可以看到本文提出了一种启发式任务选择方案,根据矩阵的对角线下降选择N个任务元素作为初始测量任务,如图5所示(灰色表示所选任务元素)。 )。 根据该方案选择的N个任务元素可以通过M个接口的测量点同时测量,测量系统只需要进行NM轮测量,实现待测试初始任务集的类别标记。 2.3基于半监督聚类的任务聚合算法 分析了初始测量任务集得到的测量结果,将测量数据分类为初始半监督聚类集,并根据同一类别的初始测量数据生成类别质心向量,并进行研究。并且开发方法解释如下。计算每个属性中不同属性值的出现次数。每个属性的总权重为1,并根据属性值划分权重。 例如,一个类别中有4个数据。对于测量点的IP地址的国家的属性,中国出现3次,而在美国出现一次,属性量化为[CN:0.75,US:0.25]。 量化和组合所有属性以形成初始类别的质心向量。 设ti={di} 5i=1作为每个任务的属性向量集,并且S={tini=1被记录为在要测试的初始任务集中找到的类别集,然后是质心向量形式类别描述如下:uj=1SjΣt∈Sjt(1)根据相同类别的任务元素之间的距离相对接近的想法,在获得初始类别的质心后,所有未标记的测量任务都是依次遍历,并计算任务元素到每个类别中心的欧几里德距离。 如果任务从最近的类别中心小于某个阈值,则该任务被标记为类别,否则该任务被认为不属于任何已知类别,未被聚合,然后用于生成下一组要测试的任务。 此时,可以从所有测量任务集中删除已标记的任务(包括聚合任务),然后从剩余的未预测测量任务集中随机选择任务,以添加到要测试的任务集中并且进行测量,并分析测量结果。 如果没有出现新类别,则算法结束,否则新测量结果用于生成新的类别中心,然后根据上述方案重新选择要测试的任务集。 在算法中,令T为没有结果标签的任务集,S={S1,S2,...,Sk}是具有标签的任务集,标签由K个类别组成。 算法1的设计代码细节可以看作如下。 在算法结束之后,S是聚类结果(所有标记的样本),并且从未标记的任务集中随机选择一定比例的任务以加入要测试的任务集。如果新测量结果中没有出现新类别,则认为已找到所有类别。类别,否则更新初始S和T,继续生成要测试的任务集。 该算法最多有n个类别,因此算法复杂度最差O(n2)。 3实验结果与分析 本文的第2部分提出了一种半监督聚类方案,该方案选择少量测量任务来发现本地网络中的关键拓扑。为了验证该方案的可行性,选择任务用于设计和部署多个局域网测量数据的测量任务选择实验。 本地网络的测量任务集是根据本文第一部分中描述的方案生成的集合。目的是发现本地网络的外部连接IP地址,即至少在三个不同目标IP地址的traceroute路径中。它被视为有效的本地网络外部连接IP地址。 3.1距离阈值参数 本文算法中用于确定样本是否聚合到最近质心类别的距离阈值控制算法收敛的速度。 如果最小距离阈值太大,则算法快速收敛,但聚类精度较低,并且无法找到预期的类别。如果最小距离阈值太小,则满足聚类条件的任务元素较少,收敛速度较慢,并且最终收敛是用于聚合的任务元素太少。 为了选择合适的距离阈值,设置不同的距离阈值以观察收敛速度并获得聚合的任务元素大小。该算法以伊朗局域网为例,选择总测量任务集的0.25%作为待测任务。设定,实验结果见表2。 在表2中,聚合??任务元素的比率表示根据距离预测类别可以预测的测量任务的数量与总测量任务集的比例。准确率表示当要聚合的任务数为N时,具有相同质心类别的测量任务数为K.准确率为K/N. 比较不同的距离阈值,发现当距离阈值为1时,找到的类别数量很大,聚合的任务元素规模大,精度高,收敛速度快,所以最后选定的距离阈值为1。 3.2每轮选择的任务集的大小 每轮选择的测量任务规模不同,对算法收敛速度的影响也不同。直观的理解是,选择的测量任务越多,找到的类别就越多,类别聚合的准确性就越高。 但是,如果所选数量的测量任务对聚类效果影响不大,则不必增加每轮测量任务的数量。通过将要测试的任务集设置为不同比例来执行对照实验。距离阈值为1,实验结果见表3。 从表3中的实验结果可以看出,每轮总测量任务集的0.25%可以更好地实现类别聚合和类别发现的研究目的。3.3实验结果 对所有测量任务执行测量,并使用算法选择部分测量任务并模拟已知测量结果的测量。实验分析结果见表4。 在表4中,测量任务集代表所有测量任务;要测试的任务集,比率表示算法选择的测量任务的数量及其与所有测量任务集的比例;所有外部连接IP地址表示测量任务集发现的外部连接。 IP地址数量;发现的外部连接IP地址的数量和比例表示要测试的任务集发现的外部连接IP地址的数量以及它们与所有外部连接的IP地址的比例。 从实验结果中可以看出,当选择任务集中大约3%的任务时,算法停止,并且可以找到本地网络中90%的外部连接的IP地址。 实验结果表明,大多数外部连接IP地址可以用较少的测量任务找到。 该研究是可行的,外部连接IP地址数量的趋势如图6所示。 横坐标是所选任务的比例,纵坐标是发现的外部连接IP地址的比率。 在分析图6之后,可以指出每轮选择0.25%的测量任务。随着轮数的增加,粒度变得越来越小,并且由于这些IP地址的属性,难以发现少量外部连接的IP地址。不再为要测试的任务集选择更接近已发现的类别属性并标记为已知类别的标签。 通过分析实验数据见解,已知以下现象:当未发现的IP地址A被分类为发现的IP地址B的类别时,这两者通常位于相同的/24网段中,并且B处于实验中数据。总发生次数远远高于A. 从这些现象可以推断出IP地址A和IP地址B位于相同或近物理通信设备上,因此半监督聚类算法将被标记为相同类别。 3.4半监督聚类性能分析 测量任务选择算法旨在发现外部连接的IP地址的数量。 在实际测量工作中,不仅基于发现找到的IP地址的数量,而且还有可以详细分析外部连接的IP地址的设计拓扑。因此,如果算法的聚类性能良好,则可以将相同外部连接的IP地址的测量任务聚合在一起,这将提高测量效率。 群集评估中常用的外部指标包括Jaccard系数,Flowlkes和Mallows指数以及Rand指数。 其中,Jaccard系数主要用于评估两个数据集之间的相似性。当知道样本的真实类别(根据本文中的数据)时,FM索引可以用作群集性能度量的良好指标。兰德系数不仅表明聚类精度还测量每个类别的类内纯度。 从该研究得出的计算可表示如下:Jaccard=AA B C(6) 4。结论 本文提出了一种基于半监督聚类的测量任务选择算法,用于发现局域网的外部连接IP地址。首先,讨论了测量任务集的生成和局域网外部连接IP地址的定义,并对半监督进行了分析。聚类选择测量任务的可行性。 IP地址的部分属性用作测量任务属性集,测量系统可以实时进行测量并获得测量结果,从而执行半监督聚类算法作为监督信息。 对照实验用于设计合适的聚类参数并提供实验结果的评估。 对于本地网络的外部网络IP地址测量,本文算法提高了传统大规模拓扑测量的测量效率。 使用3.5%的本地网络测量任务,可以发现超过90%的本地网络连接到IP地址,并且在群集性能的评估索引中对它们进行了很好的评估。对所有局部网络的Jaccard系数,FM指数和Rand指数进行了评估。接近0.9。 在随后对局域网外部连接方式的研究工作中,具有良好的应用前景。 引用 [1] PANSIOT J J,GRAD D.关于Internet中的路由和组播树[J]。 ACM SIGCOMM计算机通信评论,1998,28(1):41-50。[2]赵永刚,GOVINDAN R,ESTRIN D.用于监测传感器网络的剩余能量扫描[C] //2002 IEEE无线通信与网络会议。美国佛罗里达州奥兰多市:IEEE,2002:356-362。 [3] MOTAMEDI R,REJAIE R,WILLINGER W.互联网拓扑发现技术综述[J]。 IEEE通信调查

http://www.grupmetal.net/dfcjnz/akmyskh.html 京东多媒体网

Copyright ?2018-2019 #首页标题#(www.newconte.com All Rights Reserved.