OpenAI发布12月11日ChatGPT宕机报告:集群出现死循环把工程师挡在门外
12 月 11 日 OpenAI ChatGPT 和 Sora 等服务出现长达 4 小时 10 分钟的宕机,此次宕机只是个小更改导致的,而且这个小更改仅在部署 3 分钟后就被发现出现问题。
但工程师需要连接集群才能回滚,然而集群挂了导致工程师无法连接,于是形成了死循环。
最终,工程师通过缩小集群规模降低负载、阻止 K8S API 访问、扩大 K8S API 服务器等逐渐恢复控制权。
Telegram 评论区
0 条回复,可以前往 Telegram 继续讨论。