Silent Data Corruption поставя под въпрос надеждността на съвременните центрове за данни

Учени и оператори на големи центрове за данни предупреждават за нарастващ риск, известен като Silent Data Corruption (SDC) – явление, при което хардуерни дефекти водят до некоректни изчисления без системата да се срине или да отчете грешка. Това поставя под въпрос една от основните характеристики на компютърните системи – коректността на резултатите.

Проблемът е свързан със силициеви дефекти в процесори, графични ускорители и специализирани AI чипове. Те могат да възникнат още на етап дизайн или производство, както и впоследствие вследствие на стареене или външни фактори. Въпреки строгите тестове при производството, се смята, че между 1% и 5% от потенциалните дефекти могат да останат незасечени.

В част от случаите дефектите водят до видими проблеми като сривове на системата. По-сериозният сценарий обаче е този, при който повреден логически или аритметичен блок генерира грешна стойност, която се разпространява в изпълнявания код без да бъде засечена. Системата завършва задачата и връща резултат, който изглежда валиден, но е неправилен.

Според данни, споделяни от големи оператори на хипермащабни инфраструктури, приблизително един на всеки 1000 процесора в определени условия може да прояви подобно поведение. При инфраструктури с милиони ядра дори нисък процент дефекти може да доведе до стотици некоректни резултати дневно.

С увеличаването на мащаба и сложността на изчислителните архитектури рискът се повишава. Съвременните GPU и AI ускорители разполагат с хиляди изчислителни блокове, което статистически увеличава вероятността за дефект. В същото време директното измерване на SDC е изключително трудно, тъй като по дефиниция грешките остават незабелязани.

Съществуват механизми за откриване и корекция на грешки, но те могат да доведат до увеличаване на площта на чипа, енергопотреблението и латентността. Затова изследователите настояват за многостепенен подход – подобрени производствени тестове, мониторинг на ниво център за данни, по-прецизни модели за оценка на риска и координиран дизайн между хардуер и софтуер.

На фона на нарастващите изисквания към изчислителната мощ – от финансови операции до AI модели и критична инфраструктура – гарантирането на коректността при висока производителност се очертава като едно от ключовите инженерни предизвикателства пред индустрията.

През digitaltrends

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *