Хранилище данных крупнейшей мировой социальной сети Facebook ежесуточно разрастается на пол-терабайта, говорится в данных инженерной команды Facebook. Такие данные Facebook Engineering Team приводит одновременно с публикацией части исходных кодов программного обеспечения Facebook.
В данных Facebook постоянно хранятся большие массивы внутренних нерегламентированных запросов, очереди данных, кастомизированные данные MapReduce для кластерного поиска, а также масса других "сырых" данных, обеспечивающих быстрое функционирование громадного хранилища информации. В компании говорят, что многие работы здесь возложены на плечи Apache Hadoop. Многие, но не все…
В Facebook говорят о создании кастомизированной Hadoop-подобной платформы Corona, которая расширяет базовый функционал работы с Большими Данными за счет возможностей по огромному разрастанию архивов информации. "Мы изначально использовали реализацию технологии MapReduce в Apache Hadoop в качестве основы для нашей инфраструктуры. Она успешно работала на протяжении нескольких лет, но в начале 2011 года мы поняли, что достигли пределов этой технологии", - рассказали в Facebook.
В конце концов система стала работать довольно медленно и это вынудило Facebook создавать нечто новое. Система Corona по своей организации напоминает Hadoop, но она имеет несколько дополнительных слоев, придающих ей бОльшую масштабируемость.
Здесь реализован так называемый кластер-менеджер, в задачи которого входит только то, что он отслеживает другие узлы в системе и следит за их нагрузкой, а также отвечает за освобождение системных ресурсов в кластере. Кроме того, здесь же есть выделенный трекер рабочих процессов, который управляет выделением процессов для небольших и больших заданий по обработке данных. Главное отличие Corona от Hadoop заключается в том, что новинка - это как бы Hadoop наоборот: задания здесь идут не от узлов, а к ним. Кроме того, здесь же работает более централизованная система управления ресурсами внутри кластера, создающая не только сами ресурсы для вычислений, но и саму регламентирующая работу.
В самой Facebook система Corona пока развернута не полностью, а примерно на 500 серверах, где идет ее обкатка. Позже она будет установлена на 1000 серверов.
Источник: CyberSecurity
|