RFC 8735: Scenarios and Simulation Results of PCE in a Native IP Network

RFC 8735	CCDR Scenario and Simulation Results	February 2020
Wang, et al.	Informational	[Page]

摘要

服务提供商网络中不断出现提供端到端 (E2E) 性能保证的要求。尽管有多种技术解决方案，但没有单一的解决方案可以满足本地 IP 网络的这些要求。尤其需要一种能够覆盖域内和域间场景的通用端到端解决方案。¶

一种可行的端到端流量工程解决方案是在本地 IP 网络中添加中央控制。本文档描述了在本机 IP 网络中应用路径计算元素 (PCE) 时的各种复杂场景和模拟结果。该解决方案称为集中控制动态路由 (CCDR)，集成了使用分布式协议的优势和集中控制技术的强大功能，以同样适用于域内和域间的方式为本机 IP 网络提供流量工程。场景。¶

1. 简介

服务提供商网络由数千个运行分布式协议来交换可达性信息的路由器组成。目的网络的路径主要由分布式协议计算和控制。这些分布式协议足够强大，可以支持大多数应用程序；然而，它们在支持流量工程应用所需的复杂性方面存在一些困难，例如端到端性能保证或最大化 IP 网络内的链路利用率。¶

使用流量工程 (TE) 技术的多协议标签交换 (MPLS) (MPLS-TE)[RFC3209] 是 TE 网络的一种解决方案，但它引入了 MPLS 网络与相关技术，这将是IP网络的覆盖。 MPLS-TE 技术通常用于标签交换路径 (LSP) 保护以及在域内建立复杂路径。尚未广泛部署以满足IP网络端到端（尤其是域间）动态性能保障需求。¶

分段路由[RFC8402]是另一种解决方案，它集成了使用分布式协议和中央控制技术的一些优点，但它需要底层网络，特别是提供商边缘路由器来执行深入的标签推送和弹出操作，同时在与非分段路由网络共存时增加复杂性。此外，它只能通过不同的机制操纵 MPLS 和 IPv6 流量的 E2E 路径。¶

确定性网络 (DetNet) [RFC8578] 是另一种可能的解决方案。它主要专注于为流提供有限的延迟，并对域边缘路由器提出了额外的要求。目前的 DetNet 范围仅限于一个域内。本文档中定义的用例不需要确定性属性的额外复杂性，因此与 DetNet 用例不同。¶

本文档描述了本机 IP 网络的几种场景，其中集中控制动态路由 (CCDR) 框架可以在效率上产生质的改进，而无需更改路由器上的数据平面行为。利用路由器通告的边界网关协议 (BGP) 会话特定前缀、网络拓扑和来自网络管理系统的近实时链路利用率信息，中央 PCE 能够计算最佳路径并给出底层路由器用于到达 BGP 下一跳的目标地址，以便分布式路由协议将通过传统的递归查找过程使用计算出的路径。还给出了一些路径优化模拟结果，具体说明了 CCDR 相对于传统分布式路由协议的显着改进的各种场景。¶

本文档是以下两个文档的基础文档：通用解决方案文档，适用于域内和域间TE场景，参见[PCE-NATIVE-IP ]；相关协议扩展内容参见[PCEP-NATIVE-IP-EXT]。¶

3. CCDR 场景

以下部分描述了各种部署场景，在这些场景中，应用 CCDR 框架直观地预计会根据框架和场景的宏观属性产生改进。¶

3.1. 基于混合云的应用程序的 QoS 保证

随着云计算技术的出现，企业将越来越多的服务放在面向公有的云环境上，同时将核心业务保留在私有云中。私有云站点和公共云站点之间的通信跨越 WAN。它们之间的带宽要求是可变的，并且这两个站点之间的后台流量随着时间的推移而变化。企业应用需要按需保证可变带宽业务的端到端QoS性能。¶

CCDR融合了分布式协议的优点和集中控制的力量，非常适合这种场景。可能的解决方案框架如下图所示：¶

                         +------------------------+
                         | Cloud-Based Application|
                         +------------------------+
                                     |
                               +-----------+
                               |    PCE    |
                               +-----------+
                                     |
                                     |
                            //--------------\\
                       /////                  \\\\\
  Private Cloud Site ||       Distributed          |Public Cloud Site
                      |       Control Network      |
                       \\\\\                  /////
                            \\--------------//

图 1:混合云通信场景

如图图1所示，“云应用”流量的来源和目的地分别位于“私有云站点”和“公有云站点”。¶

默认情况下，私有云站点和公共云站点之间的流量路径由分布式控制网络决定。当应用需要端到端的QoS保证时，可以将这些需求发送给PCE，让PCE根据底层网络拓扑和真实流量信息计算出一条端到端的路径，以满足应用的QoS需求。本文档的第 4.4 节描述了该用例的模拟结果。¶

3.2. 链接利用率最大化

城域网 (MAN) 内的网络拓扑一般采用星形模式，如图 2 所示，不同的设备连接到不同的客户类型。这些客户的流量往往呈潮汐式，核心路由器（CR）/宽带远程接入服务器（BRAS）和CR/业务路由器（SR）之间的链路由于BRAS下的用户经常使用宽带网络而在不同时期出现拥塞。夜间网络和SR下的专线用户经常在白天使用网络。 BRAS/SR和CR之间的链路必须分别满足它们之间的最大流量，这导致这些链路经常得不到充分利用。¶

                         +--------+
                         |   CR   |
                         +----|---+
                              |
                  |-------|--------|-------|
                  |       |        |       |
               +--|-+   +-|+    +--|-+   +-|+
               |BRAS|   |SR|    |BRAS|   |SR|
               +----+   +--+    +----+   +--+

图2:城域网星型网络拓扑

如果我们考虑将BRAS/SR与本地链路环路连接（通常成本较低）并使用CCDR框架控制整个城域网拓扑，我们可以利用BRAS/CR和SR/CR链路之间的潮汐现象，最大化利用这些中央干线链路（通常比本地环路的成本更高）。¶

                                  +-------+
                              -----  PCE  |
                              |   +-------+
                         +----|---+
                         |   CR   |
                         +----|---+
                              |
                  |-------|--------|-------|
                  |       |        |       |
               +--|-+   +-|+    +--|-+   +-|+
               |BRAS-----SR|    |BRAS-----SR|
               +----+   +--+    +----+   +--+

图 3:通过 CCDR 实现链路利用率最大化

3.3. 多域流量工程

如图 4 所示，服务提供商网络通常由不同的域组成，这些域相互连接，形成非常复杂的拓扑结构。由于进出 MAN 和 IDC 的流量模式，它们之间的链路利用率通常是不对称的。通过分布式协议来平衡这些链路的使用几乎是不可能的，但是可以利用 CCDR 框架来克服这种不平衡。¶

               +---+                +---+
               |MAN|----------------|IDC|
               +---+       |        +---+
                 |     ----------     |
                 |-----|Backbone|-----|
                 |     ----|-----     |
                 |         |          |
               +---+       |        +---+
               |IDC|----------------|MAN|
               +---+                +---+

图4:复杂多域拓扑的流量工程

此场景的解决方案需要收集 NetFlow 信息、分析源/目标自治系统 (AS)，并确定拥塞链路的主要原因是什么。此后，运营商可以根据 CCDR 框架中描述的解决方案，使用外部边界网关协议 (eBGP) 会话来调度不同域之间的流量。¶

3.4. 网络临时拥塞消除

在更一般的情况下，服务提供商的网络内经常存在临时拥塞，例如，由于每日或每周的周期性突发或提前安排好的大型事件。这种拥塞现象经常出现，如果服务提供商有办法缓解这种拥塞现象，必将提高其网络运营能力并提高客户的满意度。 CCDR 也适用于此类场景，因为控制器可以调度拥塞链路中的流量，从而降低这些时间段的利用率。第4.5节描述了该场景的模拟结果。¶

4. CCDR模拟

以下部分描述了一个具体的案例研究，以说明 CCDR 算法与具体路径/度量的工作原理，以及生成拓扑和流量矩阵的过程以及应用 CCDR 实现 E2E QoS（保证路径和拥塞消除）的模拟结果在生成的拓扑和流量矩阵上。在所有检查的案例中，CCDR 算法在质量上比参考 (OSPF) 算法有了显着的改进，这表明 CCDR 将具有广泛的适用性。¶

模拟拓扑的结构和规模与真实网络相似。生成多个不同的流量矩阵来模拟网络中不同的拥塞状况。由于其他结果相似，因此仅说明其中之一。¶

4.1. CCDR算法案例分析

在本节中，我们考虑一个特定的网络拓扑进行案例研究：检查 OSPF 和 CCDR 选择的路径并评估路径的不同方式和原因。图 5 描述了本例中的网络拓扑。网络中有八台转发设备。原来的成本和利用率都标注在上面了，如图所示。例如，链路(1, 2)的原始成本和利用率分别为3%和50%。有两个流：f1 和 f2。这两个流都是从节点1到节点8。为了简单起见，假设网络中链路的带宽为10 Mb/s。 f1的流量为1Mb/s，f2的流量为2Mb/s。链路拥塞阈值为90%。¶

如果网络中应用采用Dijkstra算法的OSPF协议（IS-IS也类似，因为也采用Dijkstra算法），则从节点1到节点8的两条流只能使用OSPF路径（p1:1-> 2->3->8)。这是因为Dijkstra算法主要考虑的是链路的原始成本。由于CCDR同时考虑成本和利用率，因此由于链路拥塞严重，不会选择与OSPF相同的路径（2、3）。在这种情况下，f1 将选择路径 (p2: 1->5->6->7->8)，因为该路径的新成本优于 OSPF 路径的新成本。此外，对于流f1，路径p2也优于路径(p3：1->2->4->7->8)。然而，f2 不会选择相同的路径，因为这会导致链路 (6, 7) 中出现新的拥塞。结果，f2 将选择路径 (p3: 1->2->4->7->8)。¶

      +----+      f1                +-------> +-----+ ----> +-----+
      |Edge|-----------+            |+--------|  3  |-------|  8  |
      |Node|---------+ |            ||+-----> +-----+ ----> +-----+
      +----+         | |       4/95%|||              6/50%     |
                     | |            |||                   5/60%|
                     | v            |||                        |
      +----+       +-----+ -----> +-----+      +-----+      +-----+
      |Edge|-------|  1  |--------|  2  |------|  4  |------|  7  |
      |Node|-----> +-----+ -----> +-----+7/60% +-----+5/45% +-----+
      +----+  f2      |     3/50%                              |
                      |                                        |
                      |   3/60%   +-----+ 5/55%+-----+   3/75% |
                      +-----------|  5  |------|  6  |---------+
                                  +-----+      +-----+
                (a) Dijkstra's Algorithm (OSPF/IS-IS)


      +----+      f1                          +-----+ ----> +-----+
      |Edge|-----------+             +--------|  3  |-------|  8  |
      |Node|---------+ |             |        +-----+ ----> +-----+
      +----+         | |       4/95% |               6/50%    ^|^
                     | |             |                   5/60%|||
                     | v             |                        |||
      +----+       +-----+ -----> +-----+ ---> +-----+ ---> +-----+
      |Edge|-------|  1  |--------|  2  |------|  4  |------|  7  |
      |Node|-----> +-----+        +-----+7/60% +-----+5/45% +-----+
      +----+  f2     ||     3/50%                              |^
                     ||                                        ||
                     ||   3/60%   +-----+5/55% +-----+   3/75% ||
                     |+-----------|  5  |------|  6  |---------+|
                     +----------> +-----+ ---> +-----+ ---------+
                   (b) CCDR Algorithm

图5:CCDR算法案例分析

4.2. 拓扑模拟

从具体的案例研究开始，我们现在考虑一类更能代表实际部署的网络，其具有完全链接的核心网络，用于连接边缘节点，而边缘节点本身仅连接到核心的一个子集。图 6 显示了此类拓扑的示例，其中包含 4 个核心节点和 5 个边缘节点。本工作中提出的 CCDR 模拟使用涉及 100 个核心节点和 400 个边缘节点的拓扑。虽然生成的图表不适合此页面，但这种网络规模与生产环境中部署的网络规模类似。¶

                                +----+
                               /|Edge|\
                              | +----+ |
                              |        |
                              |        |
                +----+    +----+     +----+
                |Edge|----|Core|-----|Core|---------+
                +----+    +----+     +----+         |
                        /  |    \   /   |           |
                  +----+   |     \ /    |           |
                  |Edge|   |      X     |           |
                  +----+   |     / \    |           |
                        \  |    /   \   |           |
                +----+    +----+     +----+         |
                |Edge|----|Core|-----|Core|         |
                +----+    +----+     +----+         |
                            |          |            |
                            |          +------\   +----+
                            |                  ---|Edge|
                            +-----------------/   +----+

图6:仿真拓扑

为了进行模拟，将一个边缘节点连接到一组核心节点的链路数量在 2 到 30 之间随机选择，并且链路总数超过 20,000。每条链路都有一个拥塞阈值，可以任意设置，例如设置为链路标称容量的90%，不会影响仿真结果。¶

4.3. 流量矩阵模拟

对于每个拓扑，根据该拓扑的链路容量生成流量矩阵。可能会导致拥塞、轻度拥塞、不拥塞等多种情况。¶

CCDR模拟中，流量矩阵的维度为500*500（100个核心节点+400个边缘节点）。网络中使用开放最短路径优先（OSPF）协议时，大约有20%的链路出现过载。¶

4.4. CCDR端到端路径优化

CCDR E2E路径优化需要找到度量值最低的最佳路径，并且路径中每条链路的利用率远低于拥塞阈值。 CCDR框架内的PCE基于网络的当前状态，将最短路径算法与经典优化和图论的惩罚理论相结合。¶

给定一个未调度的背景流量矩阵，当一组新流进入网络时，端到端路径优化会找到它们的最佳路径。所选路径给网络带来的拥塞程度最小。¶

新流量加入网络后的链路利用率增量度 (UID) 如图 7 所示。图7中第一张图是使用OSPF的UID，第二张图是使用CCDR E2E路径优化的UID。第一张图的平均UID超过30%。路径优化后，平均UID小于5%。结果表明，CCDR E2E路径优化相对于基于OSPF选择的路径，UID明显下降。¶

虽然现实世界的结果总是与模拟不同（例如，现实世界的拓扑可能会表现出边缘节点到核心的附着模式的相关性，但这些结果并未反映在这些结果中），UID 改进的巨大本质选择模拟拓扑来模拟现实世界的条件表明，现实世界的部署也将在 UID 结果方面得到显着改善。¶

       +-----------------------------------------------------------+
       |                *                               *    *    *|
     60|                *                             * * *  *    *|
       |*      *       **     * *         *   *   *  ** * *  * * **|
       |*   * ** *   * **   *** **  *   * **  * * *  ** * *  *** **|
       |* * * ** *  ** **   *** *** **  **** ** ***  **** ** *** **|
     40|* * * ***** ** ***  *** *** **  **** ** *** ***** ****** **|
 UID(%)|* * ******* ** ***  *** ******* **** ** *** ***** *********|
       |*** ******* ** **** *********** *********** ***************|
       |******************* *********** *********** ***************|
     20|******************* ***************************************|
       |******************* ***************************************|
       |***********************************************************|
       |***********************************************************|
      0+-----------------------------------------------------------+
      0    100   200   300   400   500   600   700   800   900  1000
       +-----------------------------------------------------------+
       |                                                           |
     60|                                                           |
       |                                                           |
       |                                                           |
       |                                                           |
     40|                                                           |
 UID(%)|                                                           |
       |                                                           |
       |                                                           |
     20|                                                           |
       |                                                          *|
       |                                     *                    *|
       |        *         *  *    *       *  **                 * *|
      0+-----------------------------------------------------------+
      0    100   200   300   400   500   600   700   800   900  1000
                            Flow Number

图 7:消除拥塞的仿真结果

4.5. 网络临时拥塞消除

在模拟过程中，考虑了不同程度的网络拥塞。为了检查 CCDR 对链路拥塞的影响，我们考虑链路的拥塞度 (CD)，定义为超出其阈值的链路利用率。¶

CCDR 的拥塞消除性能如图 8 所示。第一张图是拥塞消除过程之前的CD分布。所有拥塞链路的平均CD约为20%。图8所示的第二张图是使用拥塞消除过程后的CD分布。结果显示，2万个环节中只有12个环节超过了阈值，所有CD值均小于3%。这样，将流量调度远离拥塞路径后，网络拥塞程度大大消除，网络利用率达到平衡。¶

            Before congestion elimination
        +-----------------------------------------------------------+
        |                *                            ** *   ** ** *|
      20|                *                     *      **** * ** ** *|
        |*      *       **     * **       **  **** * ***** *********|
        |*   *  * *   * **** ****** *  ** *** **********************|
      15|* * * ** *  ** **** ********* *****************************|
        |* * ******  ******* ********* *****************************|
  CD(%) |* ********* ******* ***************************************|
      10|* ********* ***********************************************|
        |*********** ***********************************************|
        |***********************************************************|
       5|***********************************************************|
        |***********************************************************|
        |***********************************************************|
       0+-----------------------------------------------------------+
           0            0.5            1            1.5            2

                     After congestion elimination
       +-----------------------------------------------------------+
       |                                                           |
     20|                                                           |
       |                                                           |
       |                                                           |
     15|                                                           |
       |                                                           |
 CD(%) |                                                           |
     10|                                                           |
       |                                                           |
       |                                                           |
     5 |                                                           |
       |                                                           |
       |        *        **  * *  *  **   *  **                 *  |
     0 +-----------------------------------------------------------+
        0            0.5            1            1.5            2
                         Link Number(*10000)

图8:消除拥塞的仿真结果

显然，通过使用能够考虑观察到的链路流量/拥塞的主动路径计算机制，可以大大减少拥塞事件的发生。只有当网络中的优势链路接近其拥塞阈值时，中央控制器才无法找到一条畅通的路径，这与使用基于静态度量的过程不同，一旦单个瓶颈接近其容量，就会产生拥塞路径。有关该算法的更多详细信息可以在[PTCS]中找到。¶

8. 参考文献

8.1. 规范性参考文献

[RFC5440]: 瓦瑟，JP.，编者。和JL。勒鲁，埃德。、“路径计算元件 (PCE) 通信协议 (PCEP)”、RFC 5440、DOI 10.17487/RFC5440、2009 年 3 月,<https://www.rfc-editor.org/info/rfc5440>。
[RFC7752]: 格雷德勒，H.，埃德。，梅德韦德，J.，普雷维迪，S.，法雷尔，A. 和 S. Ray、“使用 BGP 进行链路状态和流量工程 (TE) 信息的北向分发”、RFC 7752、 DOI 10.17487/RFC7752,2016 年 3 月,<https://www.rfc-editor.org/info/rfc7752>.
[RFC8253]: 洛佩兹，D.，冈萨雷斯·德迪奥斯，O., 吴, Q. 和 D. Dhody、“PCEPS：使用 TLS 为路径计算元素通信协议 (PCEP) 提供安全传输”、RFC 8253、DOI 10.17487/RFC8253、2017 年 10 月、<https://www.rfc-editor.org/info/rfc8253>。

8.2. 信息参考

[PCE-本机-IP]: 王，A., 赵, Q.，哈萨诺夫，B. 和 H. Chen、“本地 IP 网络中的 PCE”、正在进行的工作、Internet-Draft、draft-ietf- teas-pce-native-ip-05,2020 年 1 月 9 日,<https://tools.ietf.org/html/draft-ietf-teas- pce-native-ip-05>。
[PCEP-NATIVE-IP-EXT]: 王，A.，哈萨诺夫，B.，方S. 和 C. Zhu、“原生 IP 网络的 PCEP 扩展”、正在进行中、Internet-Draft、draft-ietf -pce-pcep-extension-native-ip-05,2020 年 2 月 17 日,<https://tools.ietf.org/html/draft-ietf -pce-pcep-extension-native-ip-05>。
[PTCS]: 张，P., 谢 K.，寇，C., 黄X.，王A.，和Q。太阳、“一种基于PCE架构的负载均衡实用流量控制方案”、DOI 10.1109/ACCESS.2019.2902610、IEEE Access 18526773、2019 年 3 月,<https://ieeexplore.ieee.org/document/8657733>。
[RFC3209]: 奥杜什，D.，伯杰，L.，甘，D., 李, T.，斯里尼瓦桑，V. 和 G. Swallow、“RSVP-TE：LSP 隧道 RSVP 扩展”、RFC 3209、DOI 10.17487/RFC3209 、2001 年 12 月、<https://www.rfc-editor.org/info/rfc3209>。
[RFC8402]: 菲尔斯菲尔斯，C.，埃德。，普雷维迪，S.，埃德。，金斯伯格，L.，德克莱恩，B.，利特科夫斯基，S. 和 R. Shakir、“分段路由架构”、RFC 8402、DOI 10.17487/RFC8402、2018 年 7 月,<https://www.rfc-editor.org/info/rfc8402>。
[RFC8578]: 格罗斯曼，E.，埃德。、“确定性网络用例”、RFC 8578、DOI 10.17487/RFC8578、2019 年 5 月、 <https://www.rfc-editor.org/info/rfc8578>。

RFC 8735

Native IP网络中PCE的场景和仿真结果

摘要

本备忘录的状态

版权声明

目录