Silent Data Corruption поставя под въпрос надеждността на съвременните центрове за данни
Учени и оператори на големи центрове за данни предупреждават за нарастващ риск, известен като Silent Data Corruption (SDC) – явление, при което хардуерни дефекти водят до некоректни изчисления без системата да се срине или да отчете грешка. Това поставя под въпрос една от основните характеристики на компютърните системи – коректността на резултатите.
Проблемът е свързан със силициеви дефекти в процесори, графични ускорители и специализирани AI чипове. Те могат да възникнат още на етап дизайн или производство, както и впоследствие вследствие на стареене или външни фактори. Въпреки строгите тестове при производството, се смята, че между 1% и 5% от потенциалните дефекти могат да останат незасечени.
В част от случаите дефектите водят до видими проблеми като сривове на системата. По-сериозният сценарий обаче е този, при който повреден логически или аритметичен блок генерира грешна стойност, която се разпространява в изпълнявания код без да бъде засечена. Системата завършва задачата и връща резултат, който изглежда валиден, но е неправилен.
Според данни, споделяни от големи оператори на хипермащабни инфраструктури, приблизително един на всеки 1000 процесора в определени условия може да прояви подобно поведение. При инфраструктури с милиони ядра дори нисък процент дефекти може да доведе до стотици некоректни резултати дневно.
С увеличаването на мащаба и сложността на изчислителните архитектури рискът се повишава. Съвременните GPU и AI ускорители разполагат с хиляди изчислителни блокове, което статистически увеличава вероятността за дефект. В същото време директното измерване на SDC е изключително трудно, тъй като по дефиниция грешките остават незабелязани.
Съществуват механизми за откриване и корекция на грешки, но те могат да доведат до увеличаване на площта на чипа, енергопотреблението и латентността. Затова изследователите настояват за многостепенен подход – подобрени производствени тестове, мониторинг на ниво център за данни, по-прецизни модели за оценка на риска и координиран дизайн между хардуер и софтуер.
На фона на нарастващите изисквания към изчислителната мощ – от финансови операции до AI модели и критична инфраструктура – гарантирането на коректността при висока производителност се очертава като едно от ключовите инженерни предизвикателства пред индустрията.
През digitaltrends

