С ростом собственных масштабов крупнейшая социальная сеть Facebook генерирует все больше информации. Сейчас Facebook за день производит больше информации, чем многие крупные корпорации за год. Для хранения этих сведений Facebook использует большой кластер серверов под управлением открытого программного обеспечения Hadoop.
Сегодня данный кластер содержит около 30 петабайт данных, что приблизительно в 3000 раз больше, чем американская Библиотека Конгресса. В компании рассказали, что только за прошлый год размеры хранимых архивов выросли примерно на треть. Для того, чтобы справляться с такими объемами данных, компания недавно начала переезжать в новый датацентр, серверы которого также будут объединены в большой кластер под управлением Hadoop. Расположен новый датацентр в штате Орегон в США.
В Facebook говорят, что с учетом масштабов деятельности, размеров архива и необходимости обеспечить беспрерывную работу системы, данная операция по миграции является сложнейшей. Пол Янг, инженер подразделения Facebook Data Infrastucture Team, говорит, что из старого датацентра компании пришлось съехать, так как там уже не было возможности для размещения новых серверов. Новые узлы Hadoop не было возможности размещать так как в старом датацентре уже иссякли резервы электричества.
Отметим, что опыт Facebook по работе с Hadoop, вероятно, мог бы быть интересен растущему числу компаний, объемы данных которых растут, а анализировать информацию и управлять кластерами хотелось бы при помощи открытых решений. Одним из основных преимуществ Hadoop является способность этого комплекса разбивать очень большие массивы данных на небольшие блоки данных и распределять их между узлами кластера для более быстрого процессинга информации.
В Facebook говорят, что используют Hadoop для захвата и хранения миллионов частей контента, генерируемых пользователями каждый день. Анализируются данные при помощи открытого набора Apache Hivbe. На сегодня Hadoop также применяют компании eBay, Amazon и Yahoo. Однако в Facebook Hadoop-кластер является самым большим в мире.
На сегодня кластер состоит из 2000 машин: 800 16-ядерных и 1200 8-ядерных. Каждая система в кластере состоит из 12-24 терабайт данных.
По словам Янга, у Facebook на сегодня есть несколько методов переноса информации в новый датацентр. Компания может физические перенести каждый кластер в новый датацентр, но "ручная работа" будет занимать несколько суток для каждого узла. Кроме того, подобный метод будет означать неприемлемо длинный простой Facebook.
Вместо этого, компания решила построить новый датацентр с бОльшим Hadoop-кластером и просто реплицировать данные туда. Такой подход более сложен, так как предполагает работу с "живыми" данными, кроме того предстоит перенести очень большой объем информации. Для выполнения последних работ в Facebook был разработан специальный софт.
Сам процесс репликации происходит в два шага: первый переносит данные и папки из оригинального Hadoop-кластера в новое расположение. Далее система Apache Hive с рядом аддонов, созданных программистами Facebook отслеживает изменения и вносит их на новом кластере. После этого постепенно вносятся изменения в DNS-записи, чтобы те указывали на новые серверы.
Источник: CyberSecurity
|