09 Ноя

Рейтинг популярных записей: что там в API?

simplepie Весть о скором закрытии Рейтинга популярных записей в сервисе Яндекс.Поиск по блогам вызвала у многих интерес к API, который Яндекс обещал сохранить. Уже появилось несколько новых рейтингов на основе данных этого API.

Вот и я хочу поделиться некоторыми наблюдениями в этой области.

Итак, собственно, как воспользоваться данными API рейтинга? Простейший вариант — использовать класс SimplePie. Но у нашего фида есть особенности:

1. Он за каким-то чёртом поделен на страницы, и это не лечится. 2. Часть данных передаётся в расширенном формате, непонятном стандартными RSS-классам.

Первую «особенность» можно обойти, последовательно запрашивая все страницы фида, а для обхода второй для класса придётся писать расширение.

Итак, собираем скрипт. Подключаем SimplePie и поочерёдно запрашиваем страниц 20 фида. Пока это просто эксперимент, кеширование можно оставить на файловом уровне класса, но в действующем сервисе уже, конечно, понадобится база данных. На выходе получаем много-много ссылок на записи в блогах. Если присмотреться к ним, то можно сделать некоторые выводы:

— Попасть в этот «топ» довольно просто — две-три ссылки со своих же блогов на других платформах обеспечивают пусть и не высокую, но всё же позицию. Лишь бы блоги были не новые.

— Большое число ссылок на сам блог или сообщество очень помогает. Например, почти все посты сообщества ru_mac попадают в топ за счёт этого.

— Намного больше шансов попасть в рейтинг у блогов на платформе LiveJournal.com. Отдельностоящих блогов там почти нет.

А теперь к досадному моменту: в фиде напрочь отсутствует какая-либо категоризация. Даже банальные теги из ЖЖ в фид не транслируются, что делает весьма затруднительным создание каких-либо тематических рейтингов на основе этого API. Я попробовал набросать некий алгоритм, выдающий записи на околокомпьютерную тематику, но эта идея потерпела фиаско — ни ручной отбор блогов, ни поиск ключевых слов в заголовках не дают нужного эффекта.

Поэтому я обращаюсь к читателям с просьбой предложить идею алгоритма, который выявил бы из рейтинга все записи наших коллег — IT-блогеров.

03 Ноя

Рейтинг популярных записей закрывается

10 комментариев

Несколько лет назад в составе Поиска по блогам Яндекса в качестве эксперимента появился рейтинг популярных записей — небольшой сервис, позволявший найти самые обсуждаемые записи блогеров. В итоге этот сервис стал настоящим медиа-инструментом SMO-специалистов, маркетологов, политиков и прочих заинтересованных лиц. Ещё бы — ведь Яндекс обладает огромным трафиком в рунете. Сегодня Яндекс официально сдался и сообщил о скором отключении этого сервиса:

Рейтинг популярных записей Яндекса закрыт.

... Таким инструментом стали пользоваться все, кому не лень – от распространителей ссылок «помогите собрать деньги» до радикалов всех мастей. В результате радикалы одних мастей стали обвинять Яндекс в пособничестве радикалам других мастей, и наоборот. Привычку просматривать страницу рейтинга приобрели журналисты, выведение в топ стало платной услугой, и вот уже власть предержащие смотрят на рейтинг записей как на «глас народа».

... Поэтому мы приняли решение прекратить поддержку сервиса и одновременно предоставить всем желающим техническую возможность сделать свои рейтинги популярных записей — свою версию ответа на вопрос «что сейчас волнует популярных блоггеров».

Таким образом, вместо привычной ТОП-ленты Яндекс предлагает нам RSS-канал с тем же самым содержимым, да ещё и с дополнительными данными, но уже без подпитки трафиком с самого Яндекса. В дополнительных полях RSS-ленты к каждому посту добавлены следующие данные:

количество ссылок на запись,
общее количество ссылок на запись за всё время её существования,
взвешенное количество ссылок на запись (с отфильтрованными накрутками и спамными ссылками),
количество комментариев к записи,
общее количество комментариев к записи за всё время её существования,
количество разных русскоязычных комментаторов у записи,
количество разных русскоязычных комментаторов у записи за всё время её существования,
примерное количество посетителей записи.

Используя эти данные не так уж и сложно собрать собственный рейтинг блогосферы и использовать на своё усмотрение. Яндекс по сути сохранил механизм рейтинга, но избавился от ответственности за его содержимое: теперь это бремя ляжет на плечи владельцев тех площадок, которые будут формировать свой рейтинг на основе этого API.

На данный момент Рейтинг популярных записей всё ещё работает и закроется он только в декабре. Думаю, что после его закрытия люди, активно им пользовавшиеся, обратят внимание на аналогичный рейтинг от LiveJournal, предусмотрительно им (и, опять же, недавно) разработанный.

16 Окт

WordPress 2.9: началось тестирование

16 комментариев

Разработчики популярного движка для блогов WordPress сообщают о начале тестирования WordPress 2.9 Beta. Её выход намечен на конец октября, а стабильная версия WordPress 2.9 ожидается в конце ноября или начале декабря.

По поводу новых функций, которые получит WordPress, пока точной информации нет. По словам разработчиков, версия 2.9 — это в основном очередное исправление ошибок, но есть неподтверждённая информация, что некоторые функции всё же будут добавлены. Например, временная «Корзина» для записей, черновиков и комментариев, из которой их можно будет восстановить, или встроенный редактор изображений, с помощью которого можно будет подготовить картинки к публикации (изменить размер, обрезать, повернуть).

Все желающие посмотреть на процесс разработки и помочь с тестированием ранних версий могут принять участие в тестировании с последующими отзывами. При тестировании команда программистов рекомендует использовать плагин WordPress Beta Tester. Он позволяет получать в режиме штатного обновления не только стабильные версии, но и промежуточные сборки для бета-тестеров. Переводить на такие нестабильные версии рабочие блоги, впрочем, не рекомендуется по понятным причинам.

29 Сен

Новые правила регистрации RU-доменов

9 комментариев

RU домены, новые правила C 1 октября 2009 года вступают в силу новые правила регистрации доменов в зоне RU. Основное нововведение — необходимость предоставления регистратору копии документа, удостоверяющего личность лица, регистрирующего домен. В связи с этим меня всё чаще спрашивают о том, как это будет выглядеть, что придётся делать и каким образом необходимо будет подтверждать свою личность.

Предлагаю короткий ликбез на эту тему на примере моего сервиса регистрации доменов, работающего через регистратора «Наунет СП».

Итак, если у вас уже есть договор (аккаунт), зарегистрированный на ваше настоящее имя, то для продления уже зарегистрированных доменов и регистрации новых вам можно ничего не делать до 1 апреля 2010 года. Но лучше, пожалуй, не затягивать и по возможности перейти на вкладку панели «Загрузить копии документов» и загрузить туда отсканированную копию разворота вашего паспорта (или свидетельства о регистрации юридического лица). Подойдут, замечу, документы любой страны, а не только России.

Зачем предоставлять данные сразу? Очень просто:

Вы не сможете переносить домены к другому регистратору, не сможете передавать права на домены, не сможете менять данные администратора для доменов, зарегистрированных до 1 октября 2009 года без предоставления документов, подтверждающих ваши данные.

Кроме того, регистратор может в любой момент запросить у администратора домена, зарегистрированного до 1 октября 2009, подтверждение его данных (загрузку копий документов). При неисполнении этого требования администратором домены могут быть заблокированы (блокировка операций, снятие делегирования).

Если аккаунта у вас ещё нет, то загружать копию придётся в момент его создания, без этой процедуры регистрация RU-доменов будет невозможна.

Если ваши домены зарегистрированы на «левые» данные, то они попадают в неприятную ситуацию: продлевать вы их сможете без подтверждения личности, но только если они не вызовут подозрений регистратора. Способов «легализации» таких доменов, по словам регистратора, нет. Разве что, перехватить их у самого себя при освобождении (как это делается, кстати?).

Что же касается моих мыслей на этот счёт, то мне кажется, что перемены по большей части к лучшему. Облегчатся «разборы полётов» с вебмастерами, нарушающими закон (плагиат, оскорбления и прочее). Возможно, станет меньше спама во всех его видах. Ещё думаю, что станут дороже и популярнее услуги художников, рисующих фальшивые сканы документов (этой услуге много лет) и услуги по перехвату освобождающихся доменов.

27 Авг

Некий юбилей.

16 комментариев

Парадокс дней рождения — утверждение, гласящее, что если дана группа из 23 или более человек, то вероятность того, что хотя бы у двух из них дни рождения (число и месяц) совпадут, превышает 50 %.

Для группы из 60 или более человек вероятность совпадения дней рождения хотя бы у двух её членов составляет более 99 %, хотя 100 % она достигает, только когда в группе не менее 366 человек (с учётом високосных лет — 367).

Вот в таких размышлениях и проходит рабочее утро двадцать пятого дня рождения в моей жизни. Поеду за город на выходные, объезжать сделанный самому себе подарок с двумя колёсами и двадцатью пятью лошадиными силами.

24 Авг

OpenID: официальный провал?

15 комментариев

Сопоставьте несколько интересных фактов, которые, по-моему, говорят о провале формата OpenID:

Google отказался использовать OpenID в сервисе Google Apps в пользу схожей с ним собственной системы межсайтовой авторизации — Google Open ID Federated Login API. Фактически, они сделали собственную систему авторизации, что может запросто привести к появлению таких же решений, например, от Microsoft и Yahoo и к окончательному отказу от открытых стандартов вроде OpenID.

Google возрождает старый протокол finger, который позволял получить данные о человеке, зная его e-mail (а не URI, как в OpenID). Новый протокол (WebFinger), естественно, ориентирован на интернет. Среди разработчиков заметен Brad Fitzpatrick — создатель LiveJournal.com и OpenID.

И, кстати, этот самый Brad Fitzpatrick пишет, что проект OpenID по большей части провалился из-за косяков при разработке интерфейсов для работы с ним:

«People have been trying to use URLs as identifiers for people (as OpenID does), as it has great readability/discoverability properties, but this effort has largely failed because of UI/UX design failings, user confusion about URLs, etc.»

И он в сущности прав: сегодня на хабре, например, обсуждают более-менее адекватный интерфейс для авторизации через OpenID, но уже явно поздно. OpenID погубила сложность как при подключении к сайтам (на редкость кривые библиотеки и классы), так и непосредственно при аутентификации пользователя (действительно жуткие интерфейсы, понимание которых начинает приходить к разработчикам только сейчас).

18 Авг

Отменена минимальная цена за регистрацию RU-доменов.

15 комментариев

domain 15 августа были изменены правила, касающиеся финансовой стороны регистрации и продления доменов в зоне RU. Теперь регламент RU-14 не содержит минимальных цен на регистрацию, а только «рекомендованные цены».

... 2.Рекомендованная цена услуги по регистрации каждого доменного имени второго уровня в домене RU для Администратора домена (Пользователя) составляет 500 рублей. 3. Рекомендованная цена услуги по продлению срока действия регистрации каждого доменного имени второго уровня в домене RU для Администратора домена (Пользователя) составляет 350 рублей. ...

Совет Координационного центра домена RU, принявший это решение, скорее подстроился под рынок доменов, который это решения принял уже давно: те, для кого цена доменов была важна, уже давно покупали их намного ниже минимальной цены, регистрируясь в качестве партнёров или договариваясь с другими партнёрами регистраторов. И криминала в этом в общем-то не было. Но на рынок это решение всё равно повлияет: те компании, которые не снижали цены именно из-за этой поправки теперь смогут установить любые цены, чем скорее всего усилят демпинг.

05 Авг

Гостевой пост: Микроформаты.

5 комментариев

Мы часто слышим, что интернет находится на переломном этапе своего развития. Такое мнение высказывается как в блогах, так и на различных конференциях. На примере многих новых проектов видно, что вскоре должна настать эпоха семантической сети: нельзя не заметить постепенный уход от интернета, направленного на работу с документами, и переход на содержание. На специализированных конференциях, таких как ISWC и SemTech, ежегодно обнародуются результаты исследований по данной теме.

В глобальной помойке — огромная куча как полезной, так и бесполезной информации. Человек способен без труда обработать данные, размещенные на веб-страничке, и установить их взаимосвязь с содержанием других ресурсов. Машине это, как правило, не удается; поисковые системы выдают только результаты конкретных запросов, обработанных с помощью статистических методов.

К примеру, возьмем поисковый запрос «киски». В серпе: фото ню и продажа кошек. Поэтому оптимальным решением стало бы создание системы поиска, ориентированной больше на семантику, нежели значение слов. В понятии «семантическая паутина» заложен логический способ обработки информации. Но веб-страницы наряду с отображаемыми буковками и цифрами содержат сведения в виде метатекста. Чтобы воплотить в жизнь идею семантического интернета W3C определил ряд открытых стандартов. Значительная роль в них отводится машинным языкам — они позволяют сохранить семантически обработанную информацию в виде онтологий и таксономий.

Один из вариантов перехода «к содержанию» заключается в размещении заранее структурированной информации. Для того, чтобы справиться с огромным объемом информации, представленной в виде документов, программисты пытаются прибегнуть к помощи искусственного интеллекта и компьютерной лингвистики.

«Natural Language Processing» позволяет анализировать естественно-языковые тексты посредством имитации действий читающего человека. При этом, как правило, текст разбивается на абзацы, а абзацы на предложения. Дополнительная структура позволяет раскрыть его семантическое содержание. Поисковый запрос в таком случае сможет идентифицировать и установить связь между лицами, местоположением, объектами и событиями, что заметно снизит количество ошибок поиска.

Следующая концепция носит название «Microformats». В июне 2009 года ей исполнилось четыре года. Идея строится на ручном расширении существующих html-страниц специальными элементами для адаптации их под поисковые системы. К примеру, существует такие обозначения для контактов, встреч и закладок. В настоящее время их используют такие известные платформы, как MobileMe, Facebook, Flickr, Google Maps и Technorati.

Модель «Resource Description Framework», разработанная W3C, описывает формат метаданных в семантическом вебе и подразумевает внедрение в страницы роботочитаемой информации. Однако подходы к реализации данного замысла отличаются друг от друга. Сообщество разработчиков микроформатов стремится к выполнению наиболее важных требований с наименьшими затратами. Тем не менее RDF ближе к «рекомендациям» и, скорее всего, она надолго заменит MF.

Семантический интернет может решить проблемы, связанные с поиском нужной информации и объединением данных из различных источников. Имеются стандарты описания информации из различных источников, которые являются общепризнанными, а также существуют методы освоения неявных знаний, усваиваемых только в процессе длительного обучения или в результате личного опыта. Концепции, касающиеся семантического анализа классических веб-страниц или наполнения их метаданными при помощи RDF, показывают, что переход к интернет-страницам нового типа возможен и уже начался. Перенос знаний из открытых баз данных («Википедия», все дела) — первый этап этого процесса.

Семантический интернет может начать функционировать только при наличии большого количества информации. Причем обработка таких элементов, как контакты или встречи, будет осуществляться гораздо проще. Переход от поиска понятий к ответу на «естественно-языковые вопросы» должен произойти уже в ближайшие годы.

Жилинский: Вот вроде написано много, а о чём? Я писал про микроформаты в 2007 году, с тех пор ситуация изменилась совсем чуть-чуть.

Автор гостевого поста — Fan Arsenala. 7bloggers.ru.

23 Июл

Поисковые роботы в статистике посещений

5 комментариев

Определение робота поисковой системы Вниманию читателей (и себе на память, как обычно) предлагаю законченное решение по отсеиванию ботов поисковых систем — PHP-скрипт, анализирующий активность кроулеров ПС на сайте. Кстати, кроме аналитики такой скрипт может быть полезен, если какой-нибудь особо активный бот мешает нормальной работе сайта.

Скрипт написан на PHP (возможна работа как в режиме модуля Апача, так и в FastCGI), полностью валиден (в рамках соответствия стандартам xHTML1/Strict и CSS/3), имеет гибкую систему настроек и панель управления. Скрипт также может отображать историю активности ботов конкретной поисковой машины.

Скачать скрипт и получить инструкции по его установке можно на сайте его разработчика — Usings.ru, там же есть и демо-версия статистики, генерируемой скриптом.

03 Июл

Curl based HTTP Client vs. Snoopy

11 комментариев

Началось всё с того, что мне захотелось получать некоторые данные не прямым запросом, а через прокси. Переписывать много кода пришлось бы в любом случае, но на популярные грабли наступать не хотелось.

Задачу «отправить POST- или GET-методом данные и получить результат через прокси» взялись выполнить два PHP-класса.

Curl HTTP Client — простая, но эффективная ООП-оболочка над библиотекой Curl. Содержит все методы, необходимые для получения данных со страниц, подмены referrer, авторизации, отправки POST-запросов, управления cookies и т.д.

Snoopy the PHP net client — PHP-класс, эмулирующий работу веб-браузера. Он автоматизирует получение содержимого страниц или, например, отправку форм. Запросы формирует функцией fsockopen().

Функции этих классов очень похожи. Оба они умеют получать содержимое страниц, отправлять любые значения полей User-agent и Refferer, передавать данные POST- и GET-методами, передавать Cookies, и ещё куча мелких бонусов у каждого класса.

Но работают они кардинально по-разному: одна использует системную библиотеку, а вторая PHP-функцию, поэтому я решил сделать замеры скорости для этих классов на одинаковой задаче.

Задача получилась такая: подключить класс, установить User-agent и Refferer, получить страницу с чужого сайта, вывести прошедшее время, повторить всё 100 раз.

Увы, результаты презентативными не оказались: классы показали одинаковую работу в одинаковое время с крошечным отрывом Snoopy в пределах погрешности. Так что можно пользоваться любым из них.