Рейтинг TBW (Terabytes Written) на упаковке SSD выглядит как обратный отсчёт до потери данных. На деле большинство потребительских NVMe-накопителей рассчитаны на 150–600 ТБ записи в зависимости от объёма — и почти никогда не умирают именно от исчерпания этого ресурса. Настоящая угроза скрыта внутри самого накопителя: это контроллер — небольшой процессор, управляющий выравниванием износа, коррекцией ошибок и каждой операцией чтения/записи. Когда он выходит из строя, накопитель погибает целиком, даже если чипы флеш-памяти под ним совершенно исправны.
Ресурс NAND выше, чем кажется по паспорту
Рейтинг TBW отражает объём данных, который можно записать на накопитель до того, как ячейки NAND статистически начнут деградировать. Каждая операция записи слегка разрушает оксидный изолятор в ячейке, и после достаточного числа циклов программирования и стирания ячейка перестаёт надёжно удерживать заряд. Производители учитывают это при присвоении рейтинга TBW. Чем больше объём накопителя, тем больше ячеек принимают на себя нагрузку — отсюда и более высокие цифры для старших версий.
Вот как выглядят рейтинги нескольких популярных накопителей:
| Накопитель | 250 ГБ | 500 ГБ | 1 ТБ | 2 ТБ |
|---|---|---|---|---|
| Crucial MX500 (3D TLC) — TBW | 100 ТБ | 180 ТБ | 360 ТБ | 700 ТБ |
| Samsung 860 EVO (3D TLC) — TBW | 150 ТБ | 300 ТБ | 600 ТБ | 1200 ТБ |
| Samsung 860 PRO (3D MLC) — TBW | 300 ТБ | 600 ТБ | 1200 ТБ | 2400 ТБ |
Цифры большие — и для большинства пользователей они действительно недостижимы. Samsung 970 EVO Plus 250 ГБ в роли основного диска с : за шесть лет активной работы утилита Samsung Magician зафиксировала 65,3 ТБ записи — около 43% от паспортных 150 ТБ. При таком темпе NAND теоретически исчерпает ресурс ещё через 7–8 лет, когда накопителю будет около 14 лет. При этом резервирование ёмкости (over-provisioning) выставлено в 0%: никаких дополнительных блоков поверх того, что Samsung заложил на заводе.
Современная прошивка дополнительно продлевает жизнь NAND. Выравнивание износа распределяет запись равномерно, не давая отдельным областям выгорать раньше времени. TRIM и сборка мусора сокращают лишнее усиление записи. Резервные блоки в фоне заменяют изношенные ячейки. В совокупности реальный ресурс добротного TLC-накопителя, как правило, превышает паспортный TBW с заметным запасом.
TBW (Terabytes Written) — суммарный объём данных в терабайтах, который производитель гарантирует для записи на накопитель до начала статистически значимой деградации ячеек NAND. Параметр указывается в спецификациях и используется для оценки срока службы.
Контроллер — главная точка отказа
Контроллер SSD — это ARM-процессор, на котором держится вся логика накопителя: сопоставление логических адресов с физическими ячейками через таблицу трансляции флеш-памяти (FTL), алгоритмы коррекции ошибок, управление сборкой мусора и выполнение прошивки. Откажет любая из этих подсистем — и диск мертв, даже если каждая ячейка NAND в полном порядке.
Один из самых распространённых сценариев — повреждение FTL при потере питания. Таблицы адресации хранятся в энергозависимой памяти (SRAM или DRAM) и периодически сбрасываются в NAND. Потребительские накопители лишены конденсаторов защиты от потери питания, которые есть в серверных дисках. Если питание пропадёт в момент обновления таблицы, данные в NAND окажутся в несогласованном состоянии. При следующей загрузке контроллер обнаружит повреждение и может войти в цикл восстановления прошивки: накопитель либо полностью исчезнет из BIOS, либо определится с абсурдной ёмкостью — например, 2 МБ вместо 1 ТБ. NAND при этом исправен, но контроллер не может разобраться, где что лежит.
Flash Translation Layer (FTL) — программный уровень внутри контроллера SSD, преобразующий логические адреса операционной системы в физические адреса ячеек NAND. Повреждение таблиц FTL делает данные недоступными даже при исправной флеш-памяти.
Баги прошивки способны нанести аналогичный урон без какого-либо события потери питания. Некорректное обновление или скрытая ошибка, сработавшая при определённой нагрузке, может повредить системную область — скрытый раздел, где контроллер хранит микрокод, таблицы трансляции и данные S.M.A.R.T. В отличие от пользовательских блоков, части этой области расположены по фиксированным физическим адресам с ограниченным выравниванием износа: контроллеру нужен детерминированный доступ при загрузке. Рабочие нагрузки с большим количеством мелких случайных операций записи непропорционально сильно изнашивают именно эти метаданные — и системная область может деградировать задолго до того, как счётчики S.M.A.R.T. покажут какую-либо тревогу.
Есть и аппаратные причины. Контроллеры Gen4 и Gen5 при продолжительной нагрузке разогреваются до 85°C и выше. Постоянное термоциклирование нагружает BGA-пайку под корпусом чипа: кремний, подложка и печатная плата расширяются с разной скоростью, со временем образуются микротрещины — вплоть до полного обрыва контакта. Кроме того, тонкие техпроцессы (12 нм, 7 нм), применяемые в скоростных контроллерах, создают настолько высокую плотность тока, что электромиграция — постепенное смещение атомов металла в межсоединениях — способна утончить проводники до полного разрыва. Это деградация самого кремния контроллера, никак не связанная с состоянием NAND.
Электромиграция — явление постепенного перемещения атомов металла под действием электрического тока в тонких проводниках. В высокочастотных контроллерах SSD, выполненных по нормам 7–12 нм, приводит к деградации межсоединений независимо от ресурса флеш-памяти.
После отказа контроллера обычное программное восстановление данных бессильно. Профессиональное извлечение требует входа в заводской режим доступа для ручной перестройки таблиц трансляции. Многие бюджетные бренды не поддерживают этот режим — и в таких случаях просто меняют накопитель.
Как продлить срок службы накопителя
Поскольку обычно первым выходит из строя контроллер, разумнее всего сосредоточиться именно на его защите. Радиатор или нормальный обдув корпуса над накопителем существенно снижают тепловую нагрузку. Охлаждать нужно именно контроллер, а не NAND: флеш-память, напротив, программируется чуть лучше при небольшом нагреве. Цель — сократить амплитуду термоциклирования, которое разрушает пайку и увеличивает накладные расходы на коррекцию ошибок.
ИБП или хотя бы сетевой фильтр защищают от сценариев потери питания, способных повредить FTL. Даже базовый недорогой аппарат предотвратит внезапные отключения, оставляющие таблицы адресации в полузаписанном состоянии.
Полезно оставлять на накопителе нераспределённое пространство. Когда диск не забит под завязку, контроллер эффективнее управляет сборкой мусора — это снижает внутреннее усиление записи и общую нагрузку на контроллер.
Для надёжного долгосрочного хранения данных оптимальным решением остаётся связка SSD и резервного HDD. Твердотельный накопитель делает то, что умеет лучше всего — обеспечивает скорость. Жёсткий диск закрывает задачи архивного хранения и предоставляет больший объём.
