Навигация

Популярные статьи

Авторские и переводные статьи

Пресс-релизы

Регистрация на сайте


Опрос
Какие телеканалы вы смотрите чаще?







Яндекс разработал технологию поиска данных в реальном времени


9 июля 2010 | Интернет / На русском языке / Россия | Добавил: Ольга Кравцова
Компания Яндекс разработала и внедрилf новую поисковую технологию, которая позволяет находить совсем свежие документы — через минуты после их появления в интернете.

Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в дни важных событий) посвящено событиям, которые случились совсем недавно. Задавая эти запросы, пользователи ожидают найти в том числе и документы, которые были созданы только что. Чтобы хорошо отвечать на такие запросы, Яндекс, во-первых, научился выявлять их среди общего потока, и во-вторых, внедрил нового поискового робота — Orange. Orange работает в режиме реального времени. Он умеет находить свежие документы, как только они появились в интернете, индексировать их и выкладывать на поисковые сервера буквально за несколько секунд.

Некоторые сайты интернета обновляются не очень часто, а на других — например, на новостных ресурсах — новые документы создаются постоянно. Orange обходит такие сайты и добавляет новые документы в поиск по мере их появления, без задержек.

Чтобы определять, нужна ли свежая информация в ответ на те или иные запросы, Яндекс разработал несколько детекторов. Они анализируют самую разную информацию — например, тематику сообщений в СМИ или рост количества поисковых запросов по той или иной теме.

Напомним, что около полугода назад подобные системы реального времени были внедрены также на поисковиках Google и Microsoft Bing.

«В интернете сейчас все больше real-time информации, которая нужна людям прямо сейчас. И мы хотим дать им возможность находить её прямо сейчас, — говорит Федор Романенко, менеджер качества поиска. — Это только первый шаг, конечно, мы будем улучшать качество поиска по новостным запросам и дальше. Новая технология дает возможность делать это сравнительно легко».

Робот Orange и технология поиска в реальном времени были разработаны специалистами из Yandex.Labs — калифорнийского офиса компании — в сотрудничестве с разработчиками из московского офиса.

Как говорится в блоге компании, Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть «старых» страниц — хоть и достаточно большую. Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск.

"С помощью Orange мы достигли значительного улучшения свежести базы. В будущем мы сделаем его еще более агрессивным: Orange будет использовать все доступные источники информации об изменениях в интернете и реагировать на эти изменения мгновенно", - говорят в Яндексе.

Кластер Orange Crawler реализован как распределенная вычислительная система: на каждой машине одновременно выполняются сотни небольших задач, результаты их работы в виде маленьких асинхронных сообщений отправляются на другие машины. На всем кластере сегодня обрабатывается более 100 000 сообщений в секунду. Подобная архитектура позволяет исключить задержки при обработке Real-Time информации.


Источник: CyberSecurity
Комментарии (0) | Распечатать | | Добавить в закладки:  

Другие новости по теме:


 



Телепрограммы для газет и сайтов.
25-ть лет стабильной работы: телепрограммы, анонсы, сканворды, кроссворды, головоломки, гороскопы, подборки новостей и другие дополнительные материалы. Качественная работа с 1997 года. Разумная цена.

Форум

Фоторепортажи

Авторская музыка

Погода

Афиша

Кастинги и контакты ТВ шоу

On-line TV

Партнеры

Друзья

Реклама

Статистика
Главная страница  |  Регистрация  |  Добавить новость Copyright © 2002-2012 Все о ТВ и телекоммуникациях. Все права защищены.