Cloudflare 全球性「數位斷電」:官方報導揭露 11 月 18 日故障詳情

Elponcho
分享
Cloudflare 全球性「數位斷電」:官方報導揭露 11 月 18 日故障詳情

全球數百萬個網站與服務於 2025 年 11 月 18 日 UTC 時間上午 06:58 出現連線異常,主因來自網路基礎設施供應商 Cloudflare 的內部錯誤。該公司於當天稍晚發佈完整事故說明,針對這起技術性故障如何發生、如何處理及未來的預防措施,做出透明交代。

問題爆發:全球多地服務癱瘓

Cloudflare 在 11 月 18 日的故障發生於 UTC 時間早上 06:58(台灣時間約下午 2 點),許多使用 Cloudflare CDN 與 DNS 服務的網站,包括大型商業平台、新聞媒體與 Web 應用,無法正常訪問。這場中斷持續了將近 40 分鐘,造成部分地區的網站完全無法載入,使用者也無法順利透過 API 與後端伺服器互動。

公司指出,此次事件屬於網路層級的中斷,影響涵蓋其全球服務基礎設施,而非單一資料中心或地區問題。

廣告 - 內文未完請往下捲動

問題根源:BGP 組態錯誤釀禍

Cloudflare 進一步解釋,本次中斷起因於 Border Gateway Protocol(BGP)設定變更錯誤。BGP 是控制網際網路流量的核心協定之一,用來讓全球網路知道如何路由到某個目的地。

原始目的是為了更新內部的路由廣播政策,提升基礎架構效率,卻因手動推送錯誤設定,使得某些 Cloudflare IP 前綴無法再由其他 ISP 透過 BGP 存取,等於在網際網路上「消失」了這些服務的路由路徑。

這項錯誤在內部自動化部署工具中並未被即時偵測,因此在影響浮現前已廣泛推送到多個地區。

啟動緊急回復:快速撤銷錯誤設定

Cloudflare 工程團隊於事件發生後數分鐘內偵測異常,並緊急啟動回復程序。他們於 UTC 07:15 左右開始撤回錯誤的 BGP 政策設定,並在 UTC 07:28 完成恢復,大部分服務也於當時恢復正常運作。

總體而言,此次中斷持續了約 30 至 40 分鐘,根據 Cloudflare 提供的時間軸,服務在 UTC 07:28 完全恢復。

為何自動化與保護機制未能阻止問題?

Cloudflare 坦言,此次錯誤揭示其內部部署流程尚有改進空間。原先的自動化流程設有「安全機制」,能阻止錯誤的 BGP 廣播,但此次更新是在較底層的系統設定中推行,未納入該保護範圍。

此外,這項變更原應僅作用於特定實驗性網段,卻意外影響到主要的生產環境範圍。他們已經著手修正部署系統的範圍定義,並強化對錯誤政策的自動偵測能力。

Cloudflare 承諾未來改進

Cloudflare 表示,將採取以下措施避免類似事故再次發生:

  • 加強對 BGP 相關設定的驗證機制,避免非預期路由廣播;

  • 明確區分測試與生產環境設定權限;

  • 增加自動化警示系統,能於秒級反應異常網路流量;

  • 強化內部變更審核與手動操作流程的監控。

公司也強調,他們會持續提升透明度,未來若有任何故障,也會迅速公開相關資訊,維持用戶信任。

網路巨頭的責任與挑戰

Cloudflare 作為全球規模最大的網路基礎設施供應商之一,服務範圍涵蓋 CDN、DNS、網路安全與 DDoS 防護等關鍵網路元件。一次 BGP 設定錯誤,即可能造成全球性的「數位斷電」。這次事件雖迅速處理,仍凸顯網際網路基礎建設高度集中化帶來的風險與挑戰。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。