Рейтинг популярных записей: что там в API?
18 комментариев
Весть о скором закрытии Рейтинга популярных записей в сервисе Яндекс.Поиск по блогам вызвала у многих интерес к API, который Яндекс обещал сохранить. Уже появилось несколько новых рейтингов на основе данных этого API.
Вот и я хочу поделиться некоторыми наблюдениями в этой области.
Итак, собственно, как воспользоваться данными API рейтинга? Простейший вариант — использовать класс SimplePie. Но у нашего фида есть особенности:
1. Он за каким-то чёртом поделен на страницы, и это не лечится.
2. Часть данных передаётся в расширенном формате, непонятном стандартными RSS-классам.
Первую «особенность» можно обойти, последовательно запрашивая все страницы фида, а для обхода второй для класса придётся писать расширение.
Итак, собираем скрипт. Подключаем SimplePie и поочерёдно запрашиваем страниц 20 фида. Пока это просто эксперимент, кеширование можно оставить на файловом уровне класса, но в действующем сервисе уже, конечно, понадобится база данных. На выходе получаем много-много ссылок на записи в блогах. Если присмотреться к ним, то можно сделать некоторые выводы:
— Попасть в этот «топ» довольно просто — две-три ссылки со своих же блогов на других платформах обеспечивают пусть и не высокую, но всё же позицию. Лишь бы блоги были не новые.
— Большое число ссылок на сам блог или сообщество очень помогает. Например, почти все посты сообщества ru_mac попадают в топ за счёт этого.
— Намного больше шансов попасть в рейтинг у блогов на платформе LiveJournal.com. Отдельностоящих блогов там почти нет.
А теперь к досадному моменту: в фиде напрочь отсутствует какая-либо категоризация. Даже банальные теги из ЖЖ в фид не транслируются, что делает весьма затруднительным создание каких-либо тематических рейтингов на основе этого API. Я попробовал набросать некий алгоритм, выдающий записи на околокомпьютерную тематику, но эта идея потерпела фиаско — ни ручной отбор блогов, ни поиск ключевых слов в заголовках не дают нужного эффекта.
Поэтому я обращаюсь к читателям с просьбой предложить идею алгоритма, который выявил бы из рейтинга все записи наших коллег — IT-блогеров.


Разработчики популярного движка для блогов WordPress
C 1 октября 2009 года вступают в силу новые правила регистрации доменов в зоне RU. Основное нововведение — необходимость предоставления регистратору копии документа, удостоверяющего личность лица, регистрирующего домен. В связи с этим меня всё чаще спрашивают о том, как это будет выглядеть, что придётся делать и каким образом необходимо будет подтверждать свою личность.
Сопоставьте несколько интересных фактов, которые, по-моему, говорят о провале формата OpenID:
15 августа были изменены правила, касающиеся финансовой стороны регистрации и продления доменов в зоне RU. Теперь регламент RU-14 не содержит минимальных цен на регистрацию, а только «рекомендованные цены».
Мы часто слышим, что интернет находится на переломном этапе своего развития. Такое мнение высказывается как в блогах, так и на различных конференциях. На примере многих новых проектов видно, что вскоре должна настать эпоха семантической сети: нельзя не заметить постепенный уход от интернета, направленного на работу с документами, и переход на содержание. На специализированных конференциях, таких как ISWC и SemTech, ежегодно обнародуются результаты исследований по данной теме.
Вниманию читателей (и себе на память, как обычно) предлагаю законченное решение по отсеиванию ботов поисковых систем — PHP-скрипт, анализирующий активность кроулеров ПС на сайте. Кстати, кроме аналитики такой скрипт может быть полезен, если какой-нибудь особо активный бот мешает нормальной работе сайта.