AI 网络 · 深度排查

AI 长连接(SSE/WebSocket)频繁断流?延迟与丢包的根因排查与优化

用 ChatGPT/Claude/Gemini 时输出到一半突然停住、过几秒又蹦出一段、或者干脆报 network error——这不是 AI 故障,是你的网络环境没针对长连接做适配。

关键词:SSE 断流、AI 长连接优化、Claude 网络中断、WebSocket 延迟、MTU TCP 排查

底层知识:所有主流 AI 的流式输出——ChatGPT、Claude、Gemini、Copilot、Cursor——底层都是 SSE(Server-Sent Events)WebSocket 长连接。和普通网页浏览(几十个独立 HTTP 短请求)不同,长连接是一个持续打开几十秒甚至几分钟的 TCP 连接。这中间任何一个环节的微小波动——NAT 忘记你、MTU 分片被丢、中转路由器抖动——都会导致输出中断。下面从五层拆解。

第一层:出口 IP —— 地基不牢一切白搭

出口 IP 的"身份"是 AI 长连接的第一道关:

第一层不是让你"翻墙",是让你的出口在 AI 服务的判断里看起来像一个正常的、合法的个人用户

第二层:DNS 解析 —— 延迟的第一责任人

DNS 是对延迟影响最大、却最容易被忽略的一层。

核心矛盾:如果你的代理客户端的 DNS 设置是"本地解析"(Local DNS),系统会用你大陆运营商的 DNS 去解析 api.anthropic.com / api.openai.com。这些域名的 CDN/Anycast 会根据 DNS 来源返回离中国大陆最近的节点——但这个节点往往不在你代理出口的同一地区。结果:出口 IP 在美国,但 DNS 把域名解析到新加坡或日本的 IP——延迟凭空多了几十毫秒,且地区不一致是附加风控信号。

解法:把代理客户端的 DNS 策略从"本地解析"改为"远程解析"(Remote DNS / DNS over Proxy)。出口在哪里,DNS 就在哪里解析——做到 IP 和 DNS 在同一地区。

验证方法:

第三层:中转链路 —— 长连接的隐形杀手

从中国大陆无法直连到美国的 AI 服务(GFW 会发 TCP Reset 掐断)。所有请求必须经过中转。中转链路的质量用三个指标衡量:

链路选择建议:

第四层:MTU 与 TCP MSS —— 最隐蔽的坑

MTU(Maximum Transmission Unit,最大传输单元)决定了每个 IP 包的上限。如果你的网络环境和 AI 服务端之间的 MTU 不匹配,大的 TCP 包会被中间路由器静默丢弃——不报错、不通知、就像什么都没发生。TCP 会尝试重传,但同样大小的包还是被丢,结果就是连接卡住不动

为什么加密隧道会让情况更糟:

排查方法:

  1. ping -M do -s 1472 -c 3 api.anthropic.com 发大包测试,如果有分片告警,MTU 有问题。
  2. 从 1400 开始逐渐加大,找到刚好能过不需要分片的最大值。
  3. 在代理客户端或 VPN 配置里设这个值。

建议值:用 WireGuard 的设 MTU=1380;用 VLESS/Vision 的设全局 MTU 1300-1400;用 Clash/Stash 的检查 tun.mtu 设置。

第五层:Keepalive 与超时 —— "思考"时间的长连接

AI 从收到你的问题到开始输出 token 的"思考"阶段,可能持续 5-30 秒(复杂的推理任务甚至更长)。这段时间长连接是打开的但没有数据在传输

如果中间有 NAT 设备或防火墙,它的"空闲连接超时"默认可能在 60-120 秒——超过这个时间没数据就自动切断。对于网页浏览来说这个时间完全够(一个请求 < 2 秒),但对 AI 的长时间思考就不够。

解法:

五层检查清单(照着做)

遇到 AI 长连接断流/卡住,按这个顺序排查,每一步都有明确的验证方法:

  1. ☐ IP 类型:curl ipinfo.io/json → org 不是云服务商 → 住宅 IP ✅
  2. ☐ DNS 远程解析:代理客户端 DNS 策略 = Remote → 同地区 ✅
  3. ☐ TLS 基准:curl -v API → TLS 握手 ≤800ms → 正常 ✅
  4. ☐ 链路跳数:mtr API → 跳数 ≤18 跳 → 正常 ✅
  5. ☐ 丢包率:ping -c 50 API → 丢包 ≤3% → 正常 ✅
  6. ☐ MTU:ping -M do 大包检查 → 无分片告警 → 正常 ✅
  7. ☐ Keepalive:代理客户端连接保持 ≥ 300s → 正常 ✅

前 3 项是前提,修好前 3 项 80% 的断流都解决。后 4 项属于深度优化,每多修一项,稳定性再提一档。