博客
回到博客文章
2013 年 4 月 6 日
今日部分故障事后分析
作者:Sam Kottler
在昨天深夜(4 月 5 日)美国东部时间到今天早上大约 10:45,Rubygems.org 发生了一次持续约 12 小时的部分故障。由于一些未轮换的日志,应用程序服务器上的根磁盘已完全填满。这导致了无法进行新帐户注册、密码重置和宝石推送。我对此事深感抱歉,并将亲自确保采取措施,在发生此类故障之前提前向 Rubygems.org 运营团队发出警报。
目前,运行 Rubygems.org 的服务器还没有部署系统监控,这使得在不访问远程机器并手动发现问题的情况下调试问题变得非常困难。在此事件发生之前,我们甚至计划在今晚将 Datadog 代理部署到实例上。Datadog 与 Pagerduty 并用,将允许我们为有权访问基础设施的贡献者设置值班计划。我们还将研究 logrotate 配置并进行适当调整,以防止磁盘在未来填满。
对于宝石维护人员无法有效使用该服务,我深感抱歉。