高性能网络中 TCP/IP 性能分析





第一部分:高性能网络中 TCP 性能导论





1.1 前提:TCP 设计与现代网络环境的失配



传输控制协议(TCP)的稳健性和可扩展性已通过其在互联网中的主导地位得到证明,其拥塞控制算法为这个全球网络的稳定性做出了贡献 1。然而,许多严重的性能塌陷现象源于一个根本性的失配:TCP 的原始设计假设与现代网络环境的特性之间存在巨大鸿沟 2TCP 最初被设计用于广域网(WAN),其核心假设包括:网络拥塞是丢包的主要原因;往返时间(RTT)相对较长且变化较大;流量在统计上是多路复用的。当这些基本假设被违反时,TCP 的控制机制可能不再是优雅地降级,而是表现出病理行为。

现代网络环境,特别是数据中心网络(DCN),其特性与 TCP 的设计初衷截然不同。这些环境以极低的延迟(RTT 可能小于 250µs)、极高的带宽(10Gbps 或更高)以及特定且往往是同步的流量模式为特征 1。例如,MapReduce 等应用中常见的“分区/聚合”模式会产生大规模的“多对一”同步通信,这在广域网中是罕见的 6。在这样的环境中,TCP 的拥塞控制算法,无论是基于丢包的(如 New Reno, CUBIC)还是基于延迟的,都可能做出不恰当的反应。基于丢包的算法在遇到为最小化延迟而设计的浅缓冲交换机时,会因突发流量而经历大规模丢包,触发严厉的窗口缩减 5。而基于延迟的算法则可能将 DCN 中正常的队列累积误判为严重拥塞,从而过度保守地降低速率 2

因此,“性能塌陷”这一概念,描述的是当系统的反馈和控制机制被推入不稳定状态时,发生的非线性、通常是灾难性的吞吐量下降或延迟飙升 8。本文所分析的一系列病理现象,并非 TCP 协议中孤立的“缺陷”,而是当协议的控制回路与其运行环境基本失调时,复杂系统涌现出的特性。TCP 的感知和响应机制(即其控制回路)在其环境假设被颠覆时会发生故障。例如,TCP 依赖丢包作为拥塞信号,但 TCP-over-TCP 隧道和 Bufferbloat 现象会“隐藏”或阻止这一信号;TCP 的重传超时(RTO)时间尺度是为高延迟的广域网设计的,但在微秒级延迟的数据中心网络中,这一时间尺度显得极其不协调,并直接导致了 TCP Incast 现象。这种系统性的失配表明,对于这些特定环境,仅仅对 TCP 进行增量修复可能是不够的,可能需要对传输协议的设计范式进行重新审视。



1.2 分析框架



本报告将对五种独特但相互关联的性能病理学进行分析:TCP MeltdownTCP IncastBufferbloat、队头阻塞(Head-of-Line Blocking)和广播风暴。每种现象都将被解构为其根本原因、塌陷机制、加剧其影响的环境因素,以及基于证据的缓解策略。分析将着重强调这些现象背后的共同主题:失效的信令、时间尺度的失配,以及网络架构选择所带来的意外后果。通过这种结构化的分析,旨在为网络架构师、工程师和研究人员提供一个清晰的框架,以理解、诊断和应对这些在现代高性能网络中日益普遍的挑战。



第二部分:隧道环境中的 TCP Meltdown 现象 (TCP-over-TCP)



在隧道协议中,将一种网络协议封装在另一种协议之内是常见的做法,例如在构建虚拟专用网络(VPN)时 10。然而,一个显著的例外是 TCP-over-TCP,即在一个 TCP 连接(外层或隧道 TCP)内部封装另一个 TCP 连接(内层或端到端 TCP)。这种配置因其导致的严重性能下降而臭名昭著,这种现象被称为“TCP Meltdown” 10。其本质并非简单的性能降低,而是一种由两个独立的、有状态的拥塞控制器在信息不完整和失真的情况下,试图控制同一个物理系统而引发的根本性“控制系统冲突”。



2.1 嵌套拥塞控制的机制:信号遮蔽



TCP-over-TCP 的根本问题在于,外层(隧道)TCP 连接创建了一个抽象层,这个抽象层向内层(端到端)TCP 连接遮蔽了真实的底层网络状态 10。外层 TCP 的可靠性和按序交付机制,虽然为其自身提供了稳定性,但却成为了内层 TCP 的信息障碍。

当内层 TCP 发送的一个数据包在物理网络中丢失时,外层 TCP 会检测到这个损失(通过超时或重复 ACK)。作为响应,外层 TCP 会负责重传这个丢失的数据包,并最终将其成功交付给内层 TCP 的接收端。从内层 TCP 的视角来看,它从未“看到”任何丢包事件。它所经历的只是该数据包的往返时间(RTT)显著增加 11。由于像 TCP New Reno 这样的主流拥塞控制算法主要依赖丢包作为网络拥塞的主要信号,这种信号的遮蔽使得内层 TCP 无法及时、准确地调整其拥塞窗口(cwnd)以应对真实的链路拥塞 12。它错误地将网络拥塞解读为单纯的路径延迟增加,从而继续以可能不安全的速率发送数据,直到更严重的问题发生。



2.2 重传定时器冲突与放大的退避效应



Meltdown”的灾难性时刻发生在当外层 TCP 的重传过程所引入的延迟足够长,以至于触发了内层 TCP 自身的重传超时(RTO)定时器 11。这个过程形成了一个恶性循环,导致吞吐量的急剧且持续的崩溃。

其机制可以分解如下:

  1. 初始丢包:一个来自内层连接、被外层连接封装的数据包在网络中丢失。

  2. 双重计时:外层 TCP 的发送方由于未收到该数据包的 ACK,其 RTO 定时器启动。同时,内层 TCP 的发送方也因未收到对应逻辑数据的 ACK,其 RTO 定时器也开始计时。

  3. 外层退避:通常情况下,外层 TCP RTO 会首先超时。它会重传丢失的数据包,并执行标准的拥塞控制响应:进入拥塞避免阶段,通常将其拥塞窗口减半 13

  4. 内层级联超时:外层 TCP 的重传和窗口缩减所造成的额外延迟,几乎保证了内层 TCP RTO 也会超时。因此,内层 TCP 也认为数据包丢失,同样执行重传并将其拥塞窗口减半。

这一系列事件导致了所谓的“同时撤退”或“双重退避”(double back-off)。对于网络中发生的单次丢包事件,两个独立的 TCP 控制器都做出了最坏情况的反应,即大幅削减其发送速率 13。外层 TCP 缩小的窗口会“饿死”内层 TCP,使其可用带宽急剧减少;而内层 TCP 缩小的窗口意味着它甚至无法利用外层隧道提供的有限带宽。这种双重打击导致了吞吐量的灾难性崩溃,并且由于两个拥塞窗口都需要通过各自的慢启动或拥塞避免过程缓慢恢复,这种低吞-吐量状态会持续很长时间 11



2.3 影响因素与性能调节器



TCP Meltdown 的严重程度并非一成不变,而是受到多个关键因素的显著影响。通过网络仿真研究,可以确定这些因素如何调节嵌套拥塞控制的相互作用 10



2.3.1 隧道缓冲区大小



TCP 隧道入口处的传输缓冲区大小是一个至关重要的性能决定因素。如果缓冲区过小,它会成为整个连接的瓶颈。当内层 TCP 的发送速率超过外层隧道的处理能力时,数据包会在这个缓冲区被丢弃。这不仅直接限制了吞-吐量,还可能触发外层 TCP 的重传,进一步加剧延迟。相反,一个足够大的缓冲区可以吸收内层 TCP 的突发流量,平滑数据流。然而,过大的缓冲区也并非没有代价,它会增加整体的排队延迟。研究表明,缓冲区的理想大小应与网络带宽成比例。一项仿真研究建议,为了保持理想的“有效吞-吐量”(goodput),当平均带宽翻倍时,缓冲区大小也应相应翻倍,例如,从 10 Mbps 连接的 512 KB 缓冲区开始 10



2.3.2 拥塞控制算法的相互作用



内层和外层连接所采用的 TCP 拥塞控制算法的组合,对系统性能有着深刻且非对称的影响。算法之间的相互作用揭示了 Meltdown 现象的控制系统冲突本质。

下表总结了不同拥塞控制算法组合在 TCP-over-TCP 隧道中的性能表现及其背后的主导机制。

1TCP-over-TCP 隧道中不同 TCP 拥塞控制算法组合的性能

内层 TCP 算法

外层 TCP 算法

相对有效吞吐量性能

主导机制

New Reno

New Reno

最佳

两个控制器对丢包信号的反应一致且可预测,尽管存在双重退避效应。

Vegas

New Reno

良好

外层 New Reno 在无丢包时提供高带宽管道,允许内层 Vegas 有效地进行基于 RTT 的速率控制。

Vegas

Vegas

良好

外层 Vegas 隧道优化自身 RTT,可能为内层连接提供更优的传输路径。

New Reno

Vegas

最差

外层 Vegas 隧道将内层 New Reno 的正常突发流量(导致排队)误判为网络拥塞,从而过早地进行节流,严重抑制内层连接的性能。



第三部分:TCP Incast:多对一的吞吐量崩溃



TCP Incast 是一种主要在数据中心网络(DCN)中观察到的吞吐量崩溃现象,它发生在高度同步的“多对一”通信模式中 6。这种模式在现代分布式应用中非常普遍,例如 MapReduce 的聚合阶段、分布式文件系统的数据读取以及搜索引擎的查询响应。Incast 的破坏性在于,它能使千兆甚至万兆级别的网络链路的有效利用率骤降至接近于零,从而严重影响应用性能。



3.1 Incast 崩溃的机制:同步微突发



Incast 的核心机制始于应用层的同步行为。当一个聚合器节点向多个工作节点请求数据时,这些工作节点通常会在几乎相同的时间完成计算并开始向聚合器回传数据 18。这种行为在网络层面产生了一个“微突发”(microburst):大量 TCP 流在极短的时间窗口内,同时涌向网络交换机上的同一个出端口(egress port16

数据中心网络为了追求极致的低延迟,其交换机(特别是机架顶端交换机,Top-of-Rack switch)通常被设计为拥有非常浅的(即小容量的)数据包缓冲区 5。一个典型的 ToR 交换机端口可能只有几十 KB 的缓冲空间。当来自 N 个发送方的同步数据流汇聚于此,其总速率瞬间便会超过出端口的链路带宽。这个浅缓冲区在几个 RTT 内就会被迅速填满并溢出,导致来自多个不同 TCP 流的数据包在同一时刻被大量丢弃 16



3.2 TCP 的时间尺度失配角色



如果说同步微突发是 Incast 的诱因,那么标准 TCP 的行为则是将这一问题升级为灾难性崩溃的直接原因。TCP 的设计,特别是其时间尺度参数,与 DCN 的环境特性存在根本性的冲突。

从系统控制论的角度看,TCP Incast 揭示了在特定网络拓扑下,TCP 的拥塞控制机制会变得“顺周期”(pro-cyclical),即它不仅不能缓解拥塞,反而会主动地促成和放大拥塞。应用的同步性为系统崩溃埋下了伏笔,而 TCP 自身的同步、激进的启动(慢启动)以及随后的同步、漫长的暂停(大规模 RTO),共同创造了一个共振频率,彻底摧毁了网络的有效吞吐量。TCP 在这种场景下,不再是流量的平滑器,而是极端振荡的制造者。



第四部分:Bufferbloat:过度缓冲的悖论



Bufferbloat 是一种由于网络设备(如路由器、交换机)中存在过大缓冲区而导致的高延迟和延迟抖动现象 21。这种现象会严重降低交互式应用的性能,如网络电话(VoIP)、在线游戏和网页浏览,甚至可能导致连接超时和 DNS 查询失败 23。它是一个典型的例子,说明了局部优化(避免丢包)如何导致全局性能的恶化。



4.1 延迟膨胀的恶性循环



Bufferbloat 的根源在于 TCP 拥塞信号机制的失效。像 New Reno CUBIC 这样基于丢包的 TCP 拥塞控制算法,其基本工作原理是:不断增加发送速率,直到探测到网络路径上的瓶颈并发生丢包,然后将丢包事件解读为拥塞信号,从而降低发送速率 21。这个反馈回路是维持互联网稳定的基石。

然而,当网络路径上的设备配置了过大的缓冲区时,这个反馈回路就被打破了。当链路发生拥塞时,数据包不会立即被丢弃,而是被存入这个“臃肿”的缓冲区中排队等待 22。从 TCP 发送方的角度来看,它没有收到任何丢包信号,因此错误地认为网络中没有拥塞。于是,它继续按照其算法增加发送速率,将更多的数据包塞入网络,进一步填满这个已经 bloated 的缓冲区 22

这个过程最终会形成一个“持续性满队列”(persistently full buffer),给每一个穿过它的数据包都增加了巨大的排队延迟,这个延迟可能高达数秒 21TCP 对这种由排队引起的巨大延迟增长是“盲目”的,它只会在缓冲区最终被完全填满、新来的数据包开始被丢弃(即“尾丢弃”,tail-drop)时,才会做出反应。而到那时,为时已晚,大量的延迟已经产生。



4.2 TCP 全局同步与链路利用率不足



当臃肿的缓冲区最终溢出时,它往往会同时丢弃来自多个 TCP 流的数据包。这会触发一个被称为“TCP 全局同步”(TCP Global Synchronization)的现象:所有受影响的 TCP 流几乎在同一时间检测到丢包,并因此同时将其拥塞窗口减半,进入拥塞避免状态 23

这种同步的退避行为导致网络总发送速率突然急剧下降,使得瓶颈链路在短时间内处于未被充分利用的状态。随后,这些 TCP 流又会几乎同步地开始增加其发送速率,再次竞争带宽,直到重新填满缓冲区,引发下一轮的全局丢包和同步退避。这个“满-空”的循环不仅导致了极高的平均延迟和延迟抖动,也使得链路带宽的利用效率低下。

Bufferbloat 现象的普遍存在,实际上反映了市场和工程上的一个失败,其驱动力源于一个有缺陷的局部优化理念:不惜一切代价避免丢包。在廉价内存和避免丢包的错误观念驱动下,设备制造商在产品中部署了越来越大的缓冲区,以此作为一种简单的营销卖点,却未充分理解丢包在 TCP 的分布式控制系统中所扮演的关键的、甚至是有意设计的角色 22Bufferbloat 正是在局部层面(设备)禁用这一至关重要的反馈信号(丢包)所导致的系统级(网络)病理后果。它深刻地揭示了硬件设计激励(追求本地性能指标)与网络协议现实(依赖系统级稳定性)之间的脱节。



第五部分:传输层的队头阻塞 (HOL Blocking)



队头阻塞(Head-of-Line Blocking, HOL Blocking)是一种性能限制现象,当一个序列中的第一个数据包被延迟或丢失时,会导致整个序列的后续数据包都被阻塞 24。虽然这个概念可以应用于网络交换的多个层面,但在传输层,它与 TCP 协议的内在设计密切相关。



5.1 按序交付的约束



TCP 作为一个提供可靠、按序字节流服务的协议,其设计本身就使其容易受到 HOL 阻塞的影响。TCP 的核心承诺之一是,应用层接收到的数据将与发送方发送的数据在字节上完全一致且顺序相同。为了实现这一点,如果 TCP 报文段 N 在传输中丢失,即使接收方已经成功收到了后续的报文段 N+1N+2 N+3,接收方的操作系统协议栈也不能将这些后续报文段的数据交付给应用程序。它必须将这些“乱序”的数据缓存起来,等待发送方重传并成功接收到丢失的报文段 N 25

在这个等待期间,整个数据流实际上是停滞的。所有已经到达的数据都因为等待序列“头部”那个丢失的数据包的恢复而被阻塞。对于应用程序而言,就好像网络连接完全中断了一样,直到丢失的数据被成功恢复。



5.2 HTTP/2 的相互作用:放大底层问题



HOL 阻塞的一个关键且常常被误解的方面,体现在它与现代应用层协议(如 HTTP/2)的相互作用上。

然而,这个在应用层的架构改进,却无意中在传输层制造了一个更大的问题。现在,几十个逻辑上独立的应用程序流(例如网页中的图片、CSS 文件、JavaScript 脚本、API 调用)都被捆绑在一个单一的、整体的 TCP 字节流上。这意味着,如果这个 TCP 流中的任何一个报文段丢失,它将阻塞所有这些应用程序流的数据交付,即使其他流的数据已经包含在后续成功接收的报文段中 26

结果是,HTTP/2 在消除应用层阻塞的同时,极大地放大了 TCP HOL 阻塞的影响。单次丢包的“爆炸半径”变得更大:过去可能只影响一个资源的加载,现在则可能冻结整个页面的所有资源加载。

这一现象揭示了传输层提供的抽象与现代应用需求之间的根本性矛盾。TCP 提供的“可靠、有序的单一字节流”这一抽象模型,虽然简单而强大,但正是 HOL 阻塞的直接原因。对于那些使用多路复用、独立信息流的现代应用来说,这种整体式的抽象模型服务效果不佳。问题不在于 TCP 的具体实现,而在于其语义模型本身。当一个数据包丢失时,TCP 的抽象就“泄漏”了:应用程序知道它的各个流是独立的,但却被迫等待,因为底层的传输协议强制执行了一个严格的、但在这种情况下毫无必要的顺序依赖。这表明,为现代应用设计的传输协议应该将多个独立的流作为一等公民来对待,这正是 QUIC 协议的核心设计理念之一。因此,QUIC 不仅仅是 TCP 的增量改进,更是传输层抽象的必要演进。



第六部分:广播风暴:局域网的基础故障模式



广播风暴是一种网络状况,其中大量的广播或多播数据包淹没局域网(LAN),耗尽所有可用带宽和网络设备上的 CPU 资源,导致网络瘫痪 27。与其他主要涉及传输层控制平面故障的现象不同,广播风暴是网络数据平面的一种原始、机械的故障模式。



6.1 环路放大效应



广播风暴最常见的起因是第二层(Layer 2)的转发环路。这种环路通常是由于无意中将同一台交换机的两个端口连接在一起,或者在没有启用环路预防协议的情况下在交换机之间创建了冗余的物理路径而形成的 27

其机制如下:

  1. 网络中的一台设备发送一个广播帧(例如,一个 ARP 请求)。

  2. 交换机收到该广播帧后,根据其基本工作原理,会将其从除接收端口外的所有其他端口转发出去。

  3. 由于网络中存在环路,这个广播帧会被另一台交换机(或者同一台交换机的另一个端口)再次接收,并被再次泛洪(flooded)到所有端口。

  4. 这个过程不断重复。每一次通过环路,广播帧的副本数量都会增加,导致流量呈指数级增长,迅速耗尽网络链路的全部带宽 27



6.2 全系统影响与拒绝服务



广播风暴的直接后果是对受影响的网段造成完全的拒绝服务(Denial of Service, DoS)。由于链路被 100% 的广播流量占用,正常的单播通信完全无法进行 27

更严重的是,网络中的所有设备,包括交换机、路由器以及终端主机(如个人电脑、PLC 控制器等),都必须处理这个数据包的洪流。每个设备都需要消耗 CPU 资源来检查每个广播帧的头部,以确定是否需要进一步处理。当广播流量达到风暴级别时,这些设备的 CPU 会被迅速耗尽,导致设备变得无响应,甚至崩溃 27。最终,整个网络变得完全无法使用 28

广播风暴的简单性具有欺骗性;它揭示了在没有基础性的第二层拓扑稳定性的情况下,任何关于更高层性能的讨论都毫无意义。它与其他性能病理学的区别至关重要:TCP MeltdownIncast Bufferbloat 是关于“智能”协议在意外条件下行为不佳的复杂问题,涉及拥塞控制算法、定时器和反馈回路。而广播风暴是关于一个“愚蠢”的协议(以太网交换的基本转发逻辑)在损坏的拓扑中完全按照其设计行事所导致的灾难。这为网络稳定性建立了一个层次结构:在优化 TCP(第四层)之前,必须有一个稳定的 IP 网络(第三层),而这又需要一个稳定的、无环路的以太网(第二层)。广播风暴是局域网最基础层面上的故障模式。



第七部分:缓解架构与先进协议



针对前述的各种性能病理学,学术界和工业界已经开发出了一系列缓解策略和先进协议。这些解决方案从根本上解决了导致性能崩溃的机制,涵盖了从第二层拓扑管理到全新传输协议的各个层面。



7.1 针对 TCP Meltdown:解耦拥塞控制器



缓解 TCP Meltdown 的核心思想是避免嵌套的 TCP 拥塞控制器。



7.2 针对 TCP Incast:主动和精细化的拥塞信令



缓解 TCP Incast 的关键在于提供比丢包更早、更精细的拥塞信号,并使 TCP 能够以更适合数据中心环境的时间尺度做出反应。



7.3 针对 Bufferbloat:主动队列管理 (AQM)



解决 Bufferbloat 的方法不是简单地减小缓冲区,而是使用“智能”缓冲区,即主动队列管理(AQM)。AQM 算法在缓冲区变得持续性满之前,主动地管理队列长度,并向 TCP 发送方发送拥塞信号 40



7.4 针对 HOL 阻塞:演进传输层抽象



解决 TCP HOL 阻塞问题的根本方法是替换 TCP,采用一个在传输层原生支持多路流的协议。



7.5 针对广播风暴:第二层弹性与控制



广播风暴的缓解策略侧重于在第二层建立一个无环且受控的拓扑。



第八部分:综合分析与架构建议



TCP/IP 性能病理学的分析揭示了现代网络中一系列深刻的挑战,这些挑战源于协议设计、硬件实现和应用行为之间的复杂相互作用。理解这些现象的独立机制固然重要,但更有价值的是认识到它们之间的相互关联性,并基于此为网络架构师提供一个清晰的决策框架。



8.1 性能崩溃的相互关联性



所讨论的五种性能病理学并非孤立存在,它们之间存在着复杂的因果和影响关系,形成了一个相互关联的问题网络。

下表对本报告分析的五种性能崩溃现象进行了高层次的总结和对比,为快速理解和区分这些问题提供了一个参考框架。

2TCP/IP 性能崩溃现象总结

现象

主要层面

根本原因

关键症状

易发环境

主要缓解策略

TCP Meltdown

传输层 (L4)

嵌套的 TCP 拥塞控制循环和信号遮蔽

隧道吞吐量灾难性、持续性下降

TCP-over-TCP 隧道 (VPN)

UDP/QUIC 隧道, 分割连接 PEP

TCP Incast

传输层 (L4)

TCP 时间尺度与 DCN 环境失配

多对一通信中吞吐量周期性崩溃至零

数据中心网络 (DCN)

DCTCP, ECN

Bufferbloat

网络/传输层

网络设备中过大的、无管理的缓冲区

极高的网络延迟和延迟抖动

广域网/局域网边缘 (特别是消费级网络)

主动队列管理 (AQM), CoDel, PIE

HOL 阻塞

传输层 (L4)

TCP 严格的按序交付字节流模型

单个丢包阻塞整个多路复用流的数据交付

使用 HTTP/2 等多路复用协议的网络

QUIC, MPTCP

广播风暴

数据链路层 (L2)

第二层网络中的转发环路

网络带宽 100% 耗尽,设备 CPU 过载

任何配置不当的以太网 LAN

生成树协议 (STP/RSTP), 风暴控制



8.2 网络架构师的决策框架



基于对这些病理学及其缓解措施的深入分析,可以为不同网络环境下的架构设计和协议选择提供以下基于证据的建议:

Works cited

  1. (PDF) Performance Evaluation of TCP Congestion Control Algorithms in Data Center Networks - ResearchGate, accessed on August 29, 2025, https://www.researchgate.net/publication/303907413_Performance_Evaluation_of_TCP_Congestion_Control_Algorithms_in_Data_Center_Networks

  2. On the Future of Congestion Control for the Public Internet - Microsoft, accessed on August 29, 2025, https://www.microsoft.com/en-us/research/wp-content/uploads/2020/09/hotnet094-brownA.pdf

  3. Time-division TCP for reconfigurable data center networks - Shawn Shuoshuo Chen, accessed on August 29, 2025, https://shuoshuc.github.io/assets/papers/tdtcp-sigcomm22.pdf

  4. Attaining the Promise and Avoiding the Pitfalls of TCP in the Datacenter - USENIX, accessed on August 29, 2025, https://www.usenix.org/system/files/conference/nsdi15/nsdi15-paper-judd.pdf

  5. Data Center TCP (DCTCP) - Microsoft, accessed on August 29, 2025, https://www.microsoft.com/en-us/research/wp-content/uploads/2017/01/dctcp-sigcomm2010.pdf

  6. SDN-based TCP Congestion Control in Data Center Networks, accessed on August 29, 2025, https://www.ipccc.org/ipccc2015/Proceedings/data/polopoly_fs/1.2779343.1448299639!/fileserver/file/572418/filename/Session04_02.pdf

  7. Microsoft's Datacenter TCP (DCTCP): TCP Congestion Control for Datacenters, accessed on August 29, 2025, https://potaroo.net/ietf/all-ids/draft-bensley-tcpm-dctcp-05.html

  8. Understanding TCP Incast and Its Implications for Big Data Workloads - USENIX, accessed on August 29, 2025, https://www.usenix.org/system/files/login/articles/chen12-06.pdf

  9. Trevi: Watering Down Storage Hotspots with Cool Fountain Codes - acm sigcomm, accessed on August 29, 2025, https://conferences.sigcomm.org/hotnets/2013/papers/hotnets-final48.pdf

  10. (PDF) Effects of TCP Transfer Buffers and Congestion Avoidance ..., accessed on August 29, 2025, https://www.researchgate.net/publication/333313300_Effects_of_TCP_Transfer_Buffers_and_Congestion_Avoidance_Algorithms_on_the_End-to-End_Throughput_of_TCP-over-TCP_Tunnels

  11. Understanding TCP over TCP: Effects of TCP Tunneling on End-to ..., accessed on August 29, 2025, https://lsnl.jp/~ohsaki/papers/Honda05_ITCom.pdf

  12. An Investigation of the TCP Meltdown Problem and ... - ResearchGate, accessed on August 29, 2025, https://www.researchgate.net/publication/330024051_An_Investigation_of_the_TCP_Meltdown_Problem_and_Proposing_Raptor_Codes_as_a_Novel_to_Decrease_TCP_Retransmissions_in_VPN_Systems_Proceedings_of_Fifth_International_Conference_INDIA_2018_Volume_1

  13. Throughput Modeling and Analysis for TCP over TCP Satellite Communications - ResearchGate, accessed on August 29, 2025, https://www.researchgate.net/profile/Erik-Blasch/publication/340854074_Throughput_modeling_and_analysis_for_TCP_over_TCP_satellite_communications/links/655e4726b1398a779da9252d/Throughput-modeling-and-analysis-for-TCP-over-TCP-satellite-communications.pdf?origin=scientificContributions

  14. Understanding TCP over TCP: effects of TCP tunneling on end-to-end throughput and latency | Request PDF - ResearchGate, accessed on August 29, 2025, https://www.researchgate.net/publication/238445492_Understanding_TCP_over_TCP_effects_of_TCP_tunneling_on_end-to-end_throughput_and_latency

  15. How (not) to Build a Transport Layer for Anonymity Overlays - The Free Haven Project, accessed on August 29, 2025, https://www.freehaven.net/anonbib/cache/tschorsch:translayeranon.pdf

  16. Gentle Slow Start to Alleviate TCP Incast in Data Center Networks - MDPI, accessed on August 29, 2025, https://www.mdpi.com/2073-8994/11/2/138

  17. Controlling TCP Incast Congestion in Data Centre Networks - White Rose Research Online, accessed on August 29, 2025, https://eprints.whiterose.ac.uk/id/eprint/89457/1/M21TCPA.pdf

  18. Congestion Control Mechanism for TCP in Data Centered Networks Using Multithreading, accessed on August 29, 2025, https://www.ijsr.net/archive/v5i1/NOV153105.pdf

  19. NDP: Rethinking Datacenter Networks and Stacks Two Years After - Computer Communication Review - acm sigcomm, accessed on August 29, 2025, https://ccronline.sigcomm.org/wp-content/uploads/2019/10/acmdl19-343.pdf

  20. IDTCP: An effective approach to mitigating the TCP incast problem in data center networks, accessed on August 29, 2025, https://www.researchgate.net/publication/261960000_IDTCP_An_effective_approach_to_mitigating_the_TCP_incast_problem_in_data_center_networks

  21. Bufferbloat - Wikipedia, accessed on August 29, 2025, https://en.wikipedia.org/wiki/Bufferbloat

  22. Bufferbloat – Communications of the ACM, accessed on August 29, 2025, https://cacm.acm.org/practice/bufferbloat/

  23. Bufferbloat - ijariie, accessed on August 29, 2025, http://ijariie.com/AdminUploadPdf/Bufferbloat_ijariie2600.pdf

  24. An Optimal Solution to Head-of-Line Blocking - Microsoft, accessed on August 29, 2025, https://www.microsoft.com/en-us/research/wp-content/uploads/2020/02/paper.pdf

  25. Head-of-line blocking - Wikipedia, accessed on August 29, 2025, https://en.wikipedia.org/wiki/Head-of-line_blocking

  26. The Full Picture on HTTP/2 and HOL Blocking - Salesforce ..., accessed on August 29, 2025, https://engineering.salesforce.com/the-full-picture-on-http-2-and-hol-blocking-7f964b34d205/

  27. NETWORK STORM TESTING, accessed on August 29, 2025, https://mydnvglcdntqfjwwhej46g2.blob.core.windows.net/cdn/content/marketplace/docs/Network%20Storm%20Testing.pdf

  28. Understanding Linux Internetworking | ActualTech Media, accessed on August 29, 2025, https://www.actualtechmedia.com/wp-content/uploads/2018/01/CUMULUS-Understanding-Linux-Internetworking.pdf

  29. The Broadcast Storm Problem in a Mobile ad hoc Network. - ResearchGate, accessed on August 29, 2025, https://www.researchgate.net/publication/220926567_The_Broadcast_Storm_Problem_in_a_Mobile_ad_hoc_Network

  30. How to reduce LAN Congestion | Cybrary, accessed on August 29, 2025, https://www.cybrary.it/blog/how-to-reduce-lan-congestion

  31. What is TCP Meltdown? - OpenVPN, accessed on August 29, 2025, https://openvpn.net/as-docs/faq-tcp-meltdown.html

  32. Implementation and Performance Evaluation of TCP over ... - arXiv, accessed on August 29, 2025, https://arxiv.org/pdf/2504.10054

  33. PEP-DNA: a Performance Enhancing Proxy for ... - DUO - UiO, accessed on August 29, 2025, https://www.duo.uio.no/bitstream/handle/10852/89270/ciko_welzl_teymoori-pepdna.pdf?sequence=1

  34. TCP Performance Enhancement Proxy - ResearchGate, accessed on August 29, 2025, https://www.researchgate.net/publication/302283799_TCP_Performance_Enhancement_Proxy

  35. RFC 3135 - Performance Enhancing Proxies Intended to Mitigate Link-Related Degradations - IETF Datatracker, accessed on August 29, 2025, https://datatracker.ietf.org/doc/rfc3135/

  36. Sidecar: In-Network Performance Enhancements in the Age of Paranoid Transport Protocols - acm sigcomm, accessed on August 29, 2025, https://conferences.sigcomm.org/hotnets/2022/papers/hotnets22_yuan.pdf

  37. Tuning ECN for Data Center Networks, accessed on August 29, 2025, https://conferences.sigcomm.org/co-next/2012/eproceedings/conext/p25.pdf

  38. Enhancement of Data Center Transmission Control Protocol Performance in Network Cloud Environments - Semantic Scholar, accessed on August 29, 2025, https://pdfs.semanticscholar.org/0099/2b4b52772753ce6c4c39bb6dd7b03edfe6cf.pdf

  39. draft-ietf-tcpm-dctcp-10 - Data Center TCP (DCTCP): TCP Congestion Control for Data Centers - IETF Datatracker, accessed on August 29, 2025, https://datatracker.ietf.org/doc/draft-ietf-tcpm-dctcp/10/

  40. (PDF) PAQMAN: A Principled Approach to Active Queue Management, accessed on August 29, 2025, https://www.researchgate.net/publication/358762058_PAQMAN_A_Principled_Approach_to_Active_Queue_Management

  41. Controlled Delay Active Queue Management - SciSpace, accessed on August 29, 2025, https://scispace.com/pdf/controlled-delay-active-queue-management-4vgca1zatt.pdf

  42. RFC 8289 - Controlled Delay Active Queue Management, accessed on August 29, 2025, https://datatracker.ietf.org/doc/html/rfc8289

  43. Controlling Queuing Delays for Real-Time Communication: The Interplay of E2E and AQM Algorithms, accessed on August 29, 2025, https://ccronline.sigcomm.org/wp-content/uploads/2016/07/sigcomm-ccr-paper15.pdf

  44. Controlling Queue Delay, accessed on August 29, 2025, https://queue.acm.org/detail.cfm?id=2209336

  45. Flow Queue PIE: A Hybrid Packet Scheduler and Active Queue Management Algorithm, accessed on August 29, 2025, https://www.ietf.org/archive/id/draft-tahiliani-tsvwg-fq-pie-01.html

  46. (PDF) PIE: A lightweight control scheme to address the bufferbloat ..., accessed on August 29, 2025, https://www.researchgate.net/publication/261134127_PIE_A_lightweight_control_scheme_to_address_the_bufferbloat_problem

  47. draft-ietf-aqm-pie-10, accessed on August 29, 2025, https://datatracker.ietf.org/doc/html/draft-ietf-aqm-pie-10

  48. Performance Impact of Nested Congestion Control on Transport-Layer Multipath Tunneling, accessed on August 29, 2025, https://www.mdpi.com/1999-5903/16/7/233