NOTE: Este blog foi atualizado em 26 de setembro de 2018 por Earle Philhower III para refletir os últimos avanços na tecnologia SSD da Western Digital.
Este é meu segundo post na série de blogs “Speeds, Feeds, and Needs”, criado para explicar os elementos mais técnicos do armazenamento empresarial em termos que sejam compreensíveis para todos. O meu primeiro post discutiu o papel da latência nas arquiteturas de armazenamento. Neste post vou discutir a resistência do SSD e como isso afeta sua escolha do SSD, além de dar algumas regras para você fazer a escolha certa.
Selecionar o SSD certo Não é fácil
Você provavelmente já olhou para uma folha de dados SSD e ficou um pouco sobrecarregado. Escolher o SSD certo é um processo complicado, afinal de contas. Você tem que escolher o fator de forma certo para que a unidade caiba no seu servidor. Você precisa selecionar entre três interfaces principais e incompatíveis (SATA,SAS ou NVMe™). Você também precisa escolher a capacidade certa, é claro, em qualquer lugar entre 100s de gigabytes a múltiplos terabytes. Isso é tudo o que você precisa fazer, certo? Errado.
Há mais uma escolha que você precisa fazer, e é uma escolha que você talvez não tenha tido que fazer antes: o nível de resistência do SSD. A resistência de um SSD é a quantidade total de dados que um SSD tem garantia de poder escrever sob garantia, muitas vezes especificada em “TBW” ou “DWPD” (que discutiremos um pouco mais tarde). A física da resistência da SSD é complicada, mas os resultados são simples: Os SSDs desgastam-se à medida que se escreve para eles. Escolha a resistência errada do SSD e acabará por substituir a unidade mais cedo ou pagar demasiado por uma unidade de resistência superior ao necessário.
Not All Flash Is Created Equal
SSD endurance é limitado porque o flash NAND que alimenta os SSDs tem um número finito de ciclos “program/erase” (P/E) antes de já não poder ser utilizado. Estes ciclos ocorrem sempre que os dados existentes precisam ser sobregravados em uma célula flash. Conforme a indústria transita de Célula Multinível (MLC) para Célula de Triplo Nível (TLC) SSDs, que armazenam 3 bits por célula, os ciclos P/E disponíveis diminuem. Esta diminuição nos ciclos é obviamente uma coisa ruim para endurance.
Error Correction, Overprovisioning, and Firmware
Thankfully, SSD endurance não é definido apenas pelos limites dos ciclos P/E. A tecnologia colocada em torno do NAND pelo fabricante também pode mudar a resistência, para o melhor ou para o pior. A Western Digital melhora a resistência da SSD com três tecnologias principais: correção de erros, sobreprovisionamento e firmware.
Técnicas avançadas de correção de erros, como a tecnologia de gerenciamento NAND CellCare™ do HGST ou o Guardian Technology™ da SanDisk® pode ajudar a recuperar dados até mesmo de células flash marginais e pode estender drasticamente a vida útil da célula NAND.
O sobreprovisionamento adiciona capacidade de flash adicional à SSD. Esse flash adicional não é visível para o usuário, mas é visível para a unidade e usado para aumentar a resistência, permitindo um gerenciamento de dados mais eficiente.
Finalmente, o programa que roda no SSD, o firmware, pode gerenciar inteligentemente o flash dentro do SSD. Quanto mais experiência uma empresa tem com cargas de trabalho do usuário final e o flash, em si, (SanDisk, uma marca Western Digital, tem mais de trinta anos de história nisto!) mais inteligência pode incorporar neste firmware para ajudar a maximizar a resistência.
A Equação de Resistência SSD
A resistência SSD é normalmente descrita em termos de Drive Writes Per Day (DWPD) por um certo período de garantia (normalmente 3 ou 5 anos). Em outras palavras, se uma SSD de 1 TB for especificada para 1 DWPD, ela pode suportar 1 TB de dados escritos todos os dias durante o período de garantia. Alternativamente, se uma SSD de 1 TB for especificada para 10 DWPD, ela pode suportar 10 TB de dados gravados todos os dias durante o período de garantia.
Outra métrica utilizada para a resistência de gravação da SSD é Terabytes Written (TBW), que descreve a quantidade de dados que podem ser gravados na SSD ao longo da vida útil da unidade.
Converter entre TBW e DWPD é simples:
DWPD para TBW: TBW = Capacidade(TB) * DWPD * 365 * Garantia(Anos)
TBW para DWPD: DWPD = TBW / (365 * Garantia(anos) * Capacidade(TB) )
“1 DWPD” Não é igual a “1 DWPD”
Uma armadilha comum em que os utilizadores caem quando olham para folhas de dados SSD é assumir que “1 DWPD” numa unidade significa o mesmo que “1 DWPD” noutra unidade. Quando as SSDs têm capacidades diferentes, a quantidade total de dados que você pode gravar nelas pode variar drasticamente. Pegue o caso de uma SSD de 15 TB, “1 DWPD” e uma SSD de 1 TB, “1 DWPD”, ambas com uma garantia de 5 anos.
TBW(15TB) = 15TB * 1 DWPD * 365 Dias/Ano * 5 Anos = 27,375 TBW
TBW(1TB) = 1TB * 1 DWPD * 365 Dias/Ano * 5 Anos = 1,825 TBW
O que acontece quando se engana na resistência da SSD
Se optar por uma SSD de resistência demasiado alta pode muitas vezes aumentar o custo inicial. No entanto, em alguns casos, uma SSD de maior resistência pode proporcionar um desempenho de escrita maior do que uma SSD de menor resistência. Portanto, se a sua aplicação pode tirar vantagem de um desempenho adicional da SSD, você pode querer considerar um modelo de maior resistência.
Se escolher um requisito de resistência muito baixo, no entanto, pode aumentar o seu custo e problemas a longo prazo. Como a quantidade total de dados escritos vai além da durabilidade da garantia, a possibilidade de perda de dados e falha do SSD aumenta. Os custos e a frustração de substituir drives com falhas ou lidar com dados perdidos podem se somar rapidamente.
Conseguir corretamente
Quando você sabe a quantidade de dados que sua aplicação estará escrevendo, a escolha do nível de resistência é simples: Determine a quantidade média de dados escritos por dia, multiplique pelo número de dias que um servidor está em serviço, e depois use esse número como um limite inferior de endurance. Este número médio é um limite inferior, pois é prudente adicionar margem de manobra para um crescimento inesperado.
A Folha de Controlo de Endurance SSD
Quando as medições de carga de trabalho não estão prontamente disponíveis, existem algumas regras que podem ser usadas em seu lugar. A tabela a seguir contém uma lista de casos de uso e uma gama generalizada de DWPD, adaptada de Top Considerations for Enterprise SSDs.
Porque estas são apenas regras básicas (de conversas com nossos clientes e equipes de produtos), elas devem ser usadas simplesmente como guias para iniciar conversas com seu fornecedor ao escolher uma SSD para sua própria aplicação.
Use Case | Descrição | Approx. DWPD |
Boot Drive | Server boot drive. Atualizado apenas periodicamente. Logs e todos os dados permanentes armazenados em outro lugar. | 0.1 ~ 1.0 |
Distribuição de conteúdo | Acelerando os front-ends CDN. Meios migraram dependendo da popularidade. | 0.5 ~ 2.0 |
Vigilância | Sworring escreve a partir de várias câmeras, operando continuamente, sobrescrevendo a unidade periodicamente. | Cams * BW |
Virtualização e Contentores | Armazenamento de camadas-0 para contentores e VMs num sistema hiperconverso. SSDs fornecem todo o armazenamento local para o cluster. | 1.0 ~ 3.0 |
OLTP Database | Cargas de trabalho intensivas de dados. Actualizações frequentes aos registos e ficheiros de dados da base de dados, frequentemente milhares de vezes por segundo. | 3.0+ |
Caching de alto desempenho | Acelerar discos rígidos locais. Algumas das maiores cargas de trabalho de gravação possíveis. | 3.0++ |
Selecionar o SSD correto para sua aplicação requer a escolha da resistência apropriada, especialmente com as novas tecnologias flash atuais. Levar tempo para examinar as folhas de dados e suas cargas de trabalho para selecionar a resistência correta para seu SSD irá maximizar sua vida útil e minimizar seus custos de compra e despesas operacionais.
Outras Leituras
- Tech Brief: Correspondendo a durabilidade da SSD a Aplicações Corporativas Comuns
- Papel branco: Principais Considerações para SSDs Empresariais
- Blog: As Implicações da Resistência do TCO