Национальная библиотека США сообщила о скором завершении проекта по архивации всех опубликованных до сегодняшнего момента сообщений Twitter. На период с 2006 года по апрель 2010-го пришлось около 21 млрд твитов, позже популярность сервиса начала расти, и с тех пор пользователи отправили еще 150 млрд сообщений.
Вся база занимает около 133 терабайт, так как каждое сообщение сопровождается 50 дополнительными полями со всевозможными метаданными (включая географическое положение пользователя, его идентификатор и другую информацию).
После создания базы она будет дополняться новыми твитами. Согласно расчетам Библиотеки Конгресса, поставленная цель будет достигнута до конца января 2013 года.
Использовать архив в том виде, в котором он существует сегодня, невозможно. Потребуется немало усилий специалистов, чтобы привести его в порядок, организовать, а затем предоставить возможность вести поиск по сообщениям. Пока же системе требуется 24 часа на выполнение поискового запроса, состоящего из одного слова.
Предполагается, что база твитов будет интересна в первую очередь исследователям и в открытом доступе не появится.
Источник: Onliner.by
|