Райен Кинг, системный инженер социальной сети Twitter сообщил, что сеть планирует в ближайшее время отказаться от использования в работе открытой СУБД MySQL, заменив ее на СУБД Cassandra. По мнению Кинга, последнее решение значительно лучше подходит для крупных социальных проектов, к которым относится и Twitter.
"У нас очень много данных, фактор их дальнейшего роста является критическим для нас. Скорее всего, в будущем объемы информации будут лишь увеличиваться", - говорит он.
На сегодня Twitter для хранения данных использует версию MySQL с кластеризацией и системой кеширования Memcache, однако такую связку решений довольно трудно администрировать и Twitter несет большие затраты на эту статью расходов, рассказывает Кинг. "Нам нужна система, которая будет учитывать рост и работать с большей степенью автономности, оставаясь при этом высокодоступной", - отметил он.
Согласно последним данным, сейчас в Twitter ежесуточно появляется около 50 млн новых коротких сообщений. Годом ранее количество постов не превышало 2 млн в сутки. Однако одним из краеугольных камней Twitter за последние 12 месяцев стала еще и бесперебойная работа системы. Средний годовой аптайм Twitter составил 99,72% или недоступность на протяжении 23 часов 45 минут за последний год. В 2008 году Twitter простаивал около 84 часов в год, что является наихудшим показателем из 15 крупнейших мировых сетей.
Сейчас в Twitter надеются, что развертывание базы данных Cassandra, созданной в Apache Software Foundation, позволит сети улучшить важные показатели. В основе Cassandra находится механизм Java-хранения, который не использует SQL, традиционный для реляционных СУБД. В то же время Cassandra применяет такие технологии избыточности и высокой доступности, как MapReduce и Hadoop.
Ранее о планах по переходу на Cassandra также сообщила и сеть Digg. На сайте Cassanra говорится, что их СУБД также использует компания Cisco Systems и провайдер Rackspace. Сама крупная база данных под управлением Cassandra превышает объем в 150 терабайт. Среди конкурентов Cassandra можно выделить такие СУБД, как HBase, Voldemort, MongoDB, MemCacheDB, Redis и HyperTable.
"Сейчас Twitter переносит на новые решения наши самые крупные таблицы - таблицы статусов, которые содержат значительную часть сообщений пользователей", - говорит Кинг.
Источник: CyberSecurity
|