NOTE: このブログは、Western DigitalのSSD技術の最新の進歩を反映するために、Earle Philhower IIIによって2018年9月26日に更新されました。
この記事は、エンタープライズ ストレージのより技術的な要素を誰にでも理解できる言葉で説明することを目的とした「スピード、フィード、ニーズ」ブログ シリーズの 2 つ目の記事です。 最初の投稿では、ストレージ アーキテクチャにおけるレイテンシーの役割について説明しました。 この投稿では、SSD の耐久性と、これが SSD の選択にどのように影響するか、さらに、正しい選択をするための経験則をいくつか紹介します。
Choosing the Right SSD Isn’t Easy
SSD データシートを見て、少し圧倒されたことがあるかもしれませんね。 結局のところ、正しい SSD を選択することは複雑なプロセスなのです。 ドライブがサーバーにフィットするように、正しいフォーム ファクターを選択する必要があります。 互換性のない3つの主要なインターフェイス(SATA、SAS、またはNVMe™)から選択する必要があります。 また、数100ギガバイトから数テラバイトまでの適切な容量を選択する必要があります。 これだけですからね。 それは、SSD の耐久性です。 SSD 耐久性とは、保証期間中に SSD が書き込めることを保証するデータの総量で、多くの場合、「TBW」または「DWPD」(これについては後で少し説明します)で指定されます。 SSDの耐久性の物理学は複雑ですが、結果は単純です。 SSDは、書き込みを行うことで消耗していきます。 SSD の耐久性を間違って選択すると、早期にドライブを交換するか、必要以上に高い耐久性のあるドライブに過剰に支払うことになります。
Not All Flash Is Created Equal
SSD の耐久性は、SSD を強化する NAND フラッシュが使用できなくなるまでの「プログラム/消去」 (P/E) サイクルの数が限られているからです。 これらのサイクルは、既存のデータをフラッシュ セルに上書きする必要がある場合に発生します。 業界がマルチレベル・セル(MLC)から、セルあたり3ビットを保存するトリプルレベル・セル(TLC)SSDに移行するにつれ、利用可能なP/Eサイクルが減少しています。 4353>
Error Correction, Overprovisioning, and Firmware
SSD の耐久性は P/E サイクルの制限だけでは設定されないことはありがたいことです。 メーカーが NAND の周囲に配置したテクノロジにより、良くも悪くも耐久性が変化します。 Western Digital は、エラー修正、オーバー プロビジョニング、およびファームウェアという 3 つの主要なテクノロジにより SSD 耐久性を向上させます。
HGST の CellCare™ NAND 管理テクノロジや SanDisk® の Guardian™ Technology などの高度なエラー修正テクノロジにより、限界に達したフラッシュ セルからデータを回復し、NAND セル使用寿命を劇的に延長することができます。 この追加のフラッシュはユーザーには見えませんが、ドライブには見え、より効率的なデータ管理を可能にすることにより耐久性を強化するために使用されます。
最後に、SSD で実行するプログラム、ファームウェアは、SSD の内部のフラッシュをインテリジェントに管理することができます。 エンドユーザーのワークロードやフラッシュ自体に関する経験が豊富な企業ほど (Western Digital のブランドである SanDisk は、この分野で 30 年以上の歴史があります!)、耐久性を最大化するためにこのファームウェアに組み込むことのできるインテリジェンスが多くなります。 言い換えると、1TB の SSD が 1 DWPD で指定されている場合、保証期間中、毎日 1TB のデータが書き込まれても耐えられるということです。 代わりに、1TB SSD が 10 DWPD で指定されている場合、保証期間中、毎日 10TB のデータの書き込みに耐えることができます。
SSD の書き込み耐久性に使用される別の指標は Terabytes Written (TBW) で、ドライブの耐用期間中に SSD に書き込めるデータ量を表わします。
TBW と DWPD の変換は簡単です。
DWPD から TBW: TBW = Capacity(TB) * DWPD * 365 * Warranty(Years)
TBW から DWPD。 DWPD = TBW / (365 * 保証期間 (年) * 容量 (TB) )
“1 DWPD” は “1 DWPD” と等しくない
SSD データシートを見るときにユーザーが陥る共通の罠は、あるドライブの “1 DWPD” が他のドライブの “1 DWPD” と同じ意味を持つと仮定していることです。 SSD の容量が異なる場合、書き込めるデータの総量は大きく異なる可能性があります。 例えば、15TBで「1 DWPD」のSSDと1TBで「1 DWPD」のSSD、どちらも5年保証の場合を考えてみましょう。
TBW(15TB) = 15TB * 1 DWPD * 365 日/年 * 5 年 = 27,375 TBW
TBW(1TB) = 1TB * 1 DWPD * 365 日/年 * 5 年 = 1,825 TBW
SSD Endurance を間違えると起こること
高すぎる耐久性をもつ SSD を選択すると初期コストが増える場合が多くあります。 しかし、場合によっては、高耐久性 SSD は低耐久性 SSD よりも高い書き込みパフォーマンスを提供できます。 したがって、アプリケーションでさらなる SSD パフォーマンスを活用できる場合は、高耐久性モデルの検討をお勧めします。
ただし、低すぎる耐久性の要件を選択すると、長期的にはコストとトラブルが増加する可能性があります。 書き込まれたデータの総量が保証耐久性を超えると、データ損失や SSD の故障の可能性が高まります。 故障したドライブを交換したり、失われたデータに対処するためのコストやフラストレーションは、すぐに膨れ上がってしまいます。
Getting it Right
アプリケーションが書き込むデータ量がわかっていれば、耐久性レベルを選択するのは簡単です。 1 日あたりの平均書き込みデータ量を決定し、それにサーバーが稼働している日数を掛けて、その数字を耐久性の下限として使用します。 この平均値は下限値であり、予期せぬ成長に備えてヘッドルームを追加することが賢明だからです。
The SSD Endurance Cheat Sheet
作業負荷測定が容易に利用できない場合、代わりに使用できる経験則がいくつかあります。 次の表は、「Top Considerations for Enterprise SSDs」から引用した、使用例のリストと DWPD の一般的な範囲です。
これらは(当社の顧客および製品チームとの会話から)経験則に過ぎないので、自身のアプリケーション用に SSD を選択する際にベンダーと会話を始めるためのガイドとしてのみ使用されるべきです。
Use Case | Description | Approx. DWPD |
Server boot Drive. 定期的にのみ更新されます。 ログおよびすべての永続的なデータは別の場所に保存されます。 | 0.1 ~ 1.0 | |
Content Distribution | CDN フロントエンドを高速化します。 | 0.5 ~ 2.0 |
Surveillance | 複数のカメラから書き込みをストリーミング、継続的に動作、定期的にドライブに上書きします。 | Cams * BW |
Virtualization and Containers | Tier-0 storage for containers and VMs in a hyperconverged system. SSD は、クラスタのすべてのローカル ストレージを提供します。 | 1.0 ~ 3.0 |
OLTP データベース | データ集約型ワークロード。 データベース ログおよびデータ ファイルの頻繁な更新、多くの場合、毎秒数千回。 | 3.0+ |
High Performance Caching | Accelerating local hard drives.The Hard Equipment of the World of the World. 可能な限り最高の書き込みワークロードの一部。 | 3.0++ |
アプリケーションに適した SSD を選択するには、特に今日の新しいフラッシュ テクノロジーで、適切な耐久性を選択することが必要です。 データ シートとワークロードを調べる時間を取って、SSD に適した耐久性を選択することで、SSD の寿命を最大化し、購入コストと運用コストを最小限に抑えることができます。 SSD の耐久性を一般的なエンタープライズ アプリケーションに適合させる