谷歌云公布删除客户全部数据的事故报告 原始工具存在BUG引起删账户

早前谷歌旗下云平台 Google Cloud 将其澳大利亚客户 UniSuper 的账户删除,这导致 UniSuper 所有数据包括在谷歌云的异地备份数据都全部被删除。

UniSuper 即澳洲大学退休基金,该基金管理着超过 1250 亿美元的资产,在事故发生后 UniSuper 的客户无法查看账户里的任何投资数据。

所幸该基金并没有完全信任或依赖谷歌云,他们在另一家云平台还有冗余备份,所以花费了几天从备份数据里恢复了服务,整个服务几乎没有受到特别大的影响。

谷歌云公布删除客户全部数据的事故报告 原始工具存在BUG引起删账户

事故调查:

发生此事后对谷歌来说自然是个重大的负面消息,不过谷歌也按惯例发布完整的事故调查保持公有云平台的透明度。

调查显示此次故障属于谷歌开发的某个原始配置工具存在 BUG,这个工具用来帮助客户私有部署 Google Cloud VMware Engine (GCVE)。

谷歌工程师在使用该工具配置私有云时,有个参数是留空的,该参数用来为 GCVE 设置有效期,正常情况下留空那就是不设置有效期,但这个工具的这个参数留空后会自动指定为 1 年的有效期 (为什么会自动设置 1 年谷歌当时也不清楚)。

因此在到期后 GCVE 直接删除了客户的账号,由于不是客户自己操作的,所以也没有收到任何电子邮件通知。

另外谷歌强调现在配置 GCVE 已经全部自动化不需要人工干预,在 2023Q4 这个原始配置工具也已经被弃用,不会再出现类似的情况。

谷歌的补救措施:

为了彻底解决这类问题谷歌已经弃用可能会触发该类问题的内部工具并且将其完全自动化,同时用户可以通过控制台界面进行操作,不需要谷歌工程师再人工干预。

其次谷歌检查了数据库以及所有 GCVE 私有云部署,确保其他 GCVE 私有云不会受到该问题的影响。

最后谷歌还针对此类工作流自动设置删除客户私有云的问题进行了清理,即之后即便存在到期问题至少也不会再自动删除了。

谷歌也夸赞客户采用强大而有弹性的架构来降低故障风险,即 UniSuper 采取了多种备份方法,这使得即便谷歌上的数据被删除也能快速恢复。


这是一个从 https://www.landiannews.com/archives/104124.html 下的原始话题分离的讨论话题