Backblaze 2023Q3 硬盘统计报告

date
Nov 14, 2023
slug
backblaze-drive-stats-for-q3-2023
status
Published
tags
文章
存储
硬件
summary
Backblaze 的 2023 年第三季度(机械)硬盘统计报告于 11 月 14 日正式发布, 首次披露按数据中心细分的硬盘故障率. 本文是该报告的中文译文版.
type
Post

notion image
截至 2023 年第三季度末, Backblaze 在全球数据中心监控着 263992 块机械硬盘(HDD)和固态硬盘(SSD). 其中有 4459 块是启动盘, 这些硬盘中又有 3242 块是固态硬盘, 1217 块是机械硬盘. 固态硬盘的故障率在《固态硬盘版: 2023 年硬盘统计回顾》中进行了分析.
因此, 本次报告将重点关注这里的 259533 块机械硬盘。我们将回顾截至 2023 年第三季度末数据硬盘的季度故障率和生命周期故障率. 同时, 我们还将分享我们对所提供数据的观察和见解, 并首次披露按数据中心细分的硬盘故障率.

2023 年第三季度硬盘故障率

截至 2023 年第三季度末, 我们托管着用于存储数据的硬盘有 259533 块. 在数据审查过程中, 我们剔除了 449 块硬盘, 因为这部分硬盘仅用于测试, 或该型号的数量低于 60 块. 到此, 我们就有 32 种不同型号总计 259084 块硬盘.
下表回顾了 2023 年第三季度期间这些硬盘型号的年化故障率(AFR).
notion image

统计数据的说明和观察结果

  • 22TB 硬盘? 在这里: 列表底部, 您会看到 WDC 22TB 硬盘(WUH722222ALE6L4). 由 1200 块硬盘(加 4 块)组成的 Backblaze Vault 现在已投入使用. 这 1200 块硬盘于 9 月 29 日安装, 因此在本报告中, 虽然每块硬盘只服役了一天, 但迄今为止故障率依旧为零.
  • 越老越大胆: 在服务时间图表里的另一端是 6TB 希捷硬盘(ST6000DX000), 平均运行时间为 101 个月. 在 2023 年第 3 季度, 该组零故障的有 883 块, 生命周期 AFR 为 0.88%.
  • 零故障: 在第三季度中有六种不同型号的硬盘达成了零故障. 但只有上述 6TB 的希捷硬盘的硬盘使用时间超过了 50000 天, 这是我们确保有足量数据达成 AFR 可信的最低标准.
  • 一次故障: 第三季度有四个硬盘型号出现了一次故障. 在采用 50000 天作为硬盘日衡量标准后, 有两个硬盘型号脱颖而出:
      1. WDC 16TB (WUH721816ALE6L0), AFR 为 0.15%.
      1. Toshiba 14TB (MG07ACA14TEY), AFR 为 0.63%.

季度 AFR 下降

2023 年第三季度, 所有硬盘的季度平均故障率为 1.47%. 低于第二季度的 2.2%, 也低于一年前的 1.65%. 季度 AFR 仅基于该季度的数据, 因此每个季度之间经常会有波动.
在 2023 年第二季度报告中, 我们怀疑本季度 2.2% 的增长是由于硬盘集群的整体老化, 尤其是我们将矛头指向了特定的 8TB, 10TB 和 12TB 型号, 认为它们是导致增长的潜在罪魁祸首. 但这一预测在第三季度落空了, 因为近三分之二的硬盘型号的 AFR 比第二季度有所下降, 而所有型号的 AFR 增长几乎都很微小. 其中包括我们怀疑的 8TB, 10TB 和 12TB 硬盘型号.

硬盘和炎热的夏季

在我们的业务中, Backblaze 会持续监控我们的系统和硬盘. 因此, 当美国国家航空航天局(NASA)确认 2023 年夏天是地球上有记录以来最热的夏天时, 我们并不感到惊讶. 这个破纪录夏天的影响以硬盘温度警报的形式呈现在我们的监控系统中. 存储服务器中特定硬盘发热的原因有很多: 硬盘故障, 存储服务器中的风扇故障, 其他组件产生额外热量, 气流受到某种限制等等. 再加上数据中心内的环境温度在夏季往往会升高, 因此您可能会收到更多的温度警报.
在查看第三季度硬盘的温度数据时, 我们注意到少数硬盘至少有一天超过了制造商规定的最高温度. 大多数硬盘的最高工作温度为 60°C, 只有 12TB, 4TB 和 16TB 东芝硬盘的额定最高工作温度为 55°C. 在第三季度运行的 259533 块硬盘中, 有 354 块硬盘(0.0013%)超过了制造商规定的最高工作温度. 其中只有两块硬盘发生故障, 剩下 352 台硬盘在第三季度结束时仍在运行.
虽然温度波动是数据中心运行的一部分, 像这样的温度警报也不是没有发生过, 但我们的数据中心团队正在研究其根本原因, 以确保我们为未来不可避免的越来越热的夏天做好准备.

温度警报会影响硬盘数据吗?

在第三季度超过最高温度并发生故障的两块硬盘已从第三季度 AFR 计算中删除. 这两块硬盘均为 4TB 希捷硬盘(ST4000DM000). 鉴于其余 352 台超过最高温度的硬盘在第三季度没有发生故障, 我们将它们保留在第三季度的 "硬盘统计" 计算中, 因为它们没有增加计算出的故障率.
从第四季度开始, 我们将从常规的 Drive Stats AFR 计算中移除 了352 块硬盘, 并创建一个单独的硬盘组进行跟踪, 我们将其命名为 "热硬盘". 这将使我们能够跟踪超过最高温度的硬盘, 并将其故障率与在制造商规格范围内运行的硬盘进行比较. 虽然 "热硬盘" 组中的硬盘数量有限, 但它可以让我们深入了解暴露在高温下的驱动器是否会导致驱动器更频繁地发生故障. 提高监控水平将发现硬盘故障的增加, 以便及时发现和处理.

第三季度新增硬盘统计数据字段

2023 年第二季度, 我们引入了三个新的数据字段, 并开始在我们发布的 Drive Stats 数据中添加它们:  vault_id,  pod_id和 is_legacy_format. 而在第三季度, 我们将在每个硬盘的记录中增加以下三个字段:
  • datacenter: 硬盘所装载的 Backblaze 数据中心, 值为:  ams5iad1phx1, sac0sac2 .
  • cluster_id: 为优化系统性能而在逻辑上分组的特定存储服务器集合的名称. 注意: 目前的 cluster_id 字段值并不全是正确的, 我们正在努力解决这个问题.
  • pod_slot_num: 硬盘在存储服务器中的物理位置. 具体插槽因存储服务器类型和容量而异: Backblaze (45 个硬盘), Backblaze (60 个硬盘), Dell (26 个硬盘) 或 Supermicro (60 个硬盘). 我们将在另一篇文章中深入探讨这些差异.
增加这些字段内容后, 从 2023 年第三季度开始的数据格式为:
  • date
  • serial_number
  • model
  • capacity_bytes
  • failure
  • datacenter (Q3)
  • cluster_id (Q3)
  • vault_id (Q2)
  • pod_id (Q2)
  • pod_slot_num (Q3)
  • is_legacy_format (Q2)
  • smart_1_normalized
  • smart_1_raw
  • 保留的 SMART 对(由各硬盘型号报告)
从第三季度开始, 这些数据字段已被添加到我们每季度发布的可公开获取的 Drive Stats 文件中.

各数据中心的故障率

现在我们有了每个硬盘的数据中心信息, 可以计算每个数据中心中硬盘的平均故障率. 下面是 2023 年第三季度五个数据中心的平均故障率.
notion image

说明和意见

  • 空值(Null)?: 数据中心报告为空或空白值的硬盘被归类到 Backblaze 的四个存储库中. Drive Stats 的高级基础架构软件工程师 David 介绍了我们每天收集 Drive Stats 数据各部分的过程. 简而言之, 数据中心可能太繁忙, 无法在我们询问时做出回应, 而且由于数据中心字段是非必要的数据, 我们会得到一个空字段, 我们可以回溯一两天, 找到数据中心的值, 今后我们在报告这些数据时会这样做.
  • sac0?: 在所有数据中心中, sac0 的 AFR 最高, 但它也坐拥有最高龄的硬盘, 与下一个最接近的数据中心 sac2 相比, 平均年龄高了近一倍. 如前所述, 硬盘故障似乎遵循 "浴缸曲线",不过最近我们看到曲线开始变得平缓. 无论如何, 随着硬盘型号的老化, 它们的故障频率通常会增加. 另一个因素可能是 sac0 (其次是 sac2) 有一些最旧的存储模块, 包括一些 45 盘的存储单元. 我们正在使用 CVT 替换这些老旧的服务器, 同时从 4TB 硬盘迁移到 16TB 和更大的硬盘.
  • iad1: iad 数据中心是我们东部地区的基础, 自一年前上线以来一直在快速增长. 这种增长是新数据和客户使用我们的云复制功能在其他地区自动复制数据的综合结果.
  • Q3 数据: 本图表仅为第三季度数据, 包括所有数据硬盘, 以及每个型号数量少于 60 块的硬盘. 随着我们在未来几个季度对这些数据的跟踪, 我们希望能深入了解不同数据中心的硬盘故障率是否真的存在差异, 以及其中的原因.

生命周期故障率

截至 2023 年 9 月 30 日, 我们跟踪了 259084 块用于存储客户数据的硬盘. 为了进行寿命分析, 我们从硬盘在我们的数据中心投入生产开始, 收集每块硬盘的硬盘天数和硬盘故障次数. 我们按型号对这些硬盘进行分组, 然后汇总每个型号在其生命周期内的硬盘使用天数和故障次数. 该图表如下.
notion image
该图表中最重要的一栏是置信区间(Confidence Interval), 即按 95% 计算的低置信区间与高置信区间之差. 该值越小, 则表示我们对所述的 AFR (真实性)就越有把握. 我们希望置信区间在 0.5% 或以下. 当置信区间较高时, 这也并不一定是坏事, 只是意味着我们需要更多的数据, 或者数据有些不一致.
下表仅包含置信区间小于 0.5% 的硬盘型号. 我们按照硬盘大小和空载率对列表进行了排序.
notion image
4TB, 6TB, 8TB 和部分 12TB 硬盘型号已停产. 特别是 HGST 的 12TB 型号, 虽然现在仍然可以找到, 但它们已被重新贴上 Western Digital 的标签, 并打上了新的替代型号. 至于它们的内部结构是否发生了实质性变化. 至少我们还不得而知.
关于生命周期平均故障率数据的最后一点说明: 您可能已经注意到, 所有硬盘的平均故障率每季度变化不大. 在过去两年中, 它一直在 1.39% 到 1.45% 之间徘徊. 由于我们有很多使用时间很长的硬盘, 因此很难让这个指标向上或向下波动. 虽然单个硬盘型号的生命周期统计数据可能会很有用, 但随着硬盘数量的不断增加, 所有硬盘的生命周期 AFR 可能会越来越低. 当然, 也可能会出现几十万块硬盘从未出现故障的情况, 因此我们将继续计算和展示生命周期 AFR.

硬盘数据统计

用于创建本评论所用信息的完整数据集可在我们的硬盘统计数据网页上获取. 您可以以个人目的免费地下载和使用这些数据. 对此我们只有三个要求:
  1. 如果您使用这些数据,请注明 Backblaze 为数据来源.
  1. 您同意对如何使用这些数据承担全部责任.
  1. 您不得将这些数据出售给任何人, 这些数据是免费的.
祝你好运, 如果有什么有趣的发现, 请告诉我们.

© CXPLAY 2024