В компании Google в настоящее время работают тысячи серверов, в каждом из серверов расположены по 4-12 модулей оперативной памяти. Проанализировав этот факт, компания на протяжении последних 2,5 лет проводила исследования надежности современных модулей памяти, функционирующих в серверах. В Google говорят, что в исследовании приняли участие модули DRAM-памяти формата DDR1, DDR2 и FB-DIMM. Названия компаний-производителей памяти в Google не оглашают.
Первый и главный вывод, сделанный компанией заключается в том, что современная оперативная память вовсе не так надежна и безотказна, как полагают многие. В среднем один работающий модуль памяти в год допускает 3 751 исправляемую ошибку обращения к данными или их записи. В компании говорят, что это очень серьезный показатель и системным архитекторам следует его учесть при создании отказоустойчивых систем.
По словам авторов отчета, отчасти в современных системах положение спасают встроенные системы коррекции ошибок, правда модули с коррекцией ошибок стоят куда дороже обычной памяти. Также в отчете говорится, в большинстве случаев ошибки не слишком опасны, однако иногда они могут привести к сбору ошибочной информации на жесткий диск, а это уже серьезно и такие ошибки, когда система сообщает, что тот или иной файл не найден или поврежден, скорее всего, являются следствием ошибок в оперативной памяти.
Что касается положительных моментов, то здесь исследователи пришли к заключению о том, что: температурный режим почти не влияет на количество ошибок, поэтому активного охлаждения для памяти не требуется; со временем модули памяти не становятся хуже, то есть количество ошибок примерно постоянно на протяжении всего срока службы модуля; нагруженные системы чаще дают сбои, чем системы с низким коэффициентом загрузки ЦП; существенного количественного различия между ошибками в модулях памяти DDR1, DDR2 и DDR3 не замечено.
Также исследователи заметили, что из всего количество сбоев в оперативной памяти примерно 8% сбоев являются "жесткими", то ест они вызваны аппаратными проблемами. Google советует такие модули просто менять.
Наконец исследователи не выявили связи между ошибками различных операционных систем и различного прикладного программного обеспечения. "Из всех платформ и серверов примерно 20% дают сбои, на которые приходится 90% ошибок", - говорят в компании
Источник: CyberSecurity
|