Гостевой пост: Микроформаты.

5 комментариев

Мы часто слышим, что интернет находится на переломном этапе своего развития. Такое мнение высказывается как в блогах, так и на различных конференциях. На примере многих новых проектов видно, что вскоре должна настать эпоха семантической сети: нельзя не заметить постепенный уход от интернета, направленного на работу с документами, и переход на содержание. На специализированных конференциях, таких как ISWC и SemTech, ежегодно обнародуются результаты исследований по данной теме.

В глобальной помойке — огромная куча как полезной, так и бесполезной информации. Человек способен без труда обработать данные, размещенные на веб-страничке, и установить их взаимосвязь с содержанием других ресурсов. Машине это, как правило, не удается; поисковые системы выдают только результаты конкретных запросов, обработанных с помощью статистических методов.

К примеру, возьмем поисковый запрос «киски». В серпе: фото ню и продажа кошек. Поэтому оптимальным решением стало бы создание системы поиска, ориентированной больше на семантику, нежели значение слов. В понятии «семантическая паутина» заложен логический способ обработки информации. Но веб-страницы наряду с отображаемыми буковками и цифрами содержат сведения в виде метатекста. Чтобы воплотить в жизнь идею семантического интернета W3C определил ряд открытых стандартов. Значительная роль в них отводится машинным языкам — они позволяют сохранить семантически обработанную информацию в виде онтологий и таксономий.

Один из вариантов перехода «к содержанию» заключается в размещении заранее структурированной информации. Для того, чтобы справиться с огромным объемом информации, представленной в виде документов, программисты пытаются прибегнуть к помощи искусственного интеллекта и компьютерной лингвистики.

«Natural Language Processing» позволяет анализировать естественно-языковые тексты посредством имитации действий читающего человека. При этом, как правило, текст разбивается на абзацы, а абзацы на предложения. Дополнительная структура позволяет раскрыть его семантическое содержание. Поисковый запрос в таком случае сможет идентифицировать и установить связь между лицами, местоположением, объектами и событиями, что заметно снизит количество ошибок поиска.

Следующая концепция носит название «Microformats». В июне 2009 года ей исполнилось четыре года. Идея строится на ручном расширении существующих html-страниц специальными элементами для адаптации их под поисковые системы. К примеру, существует такие обозначения для контактов, встреч и закладок. В настоящее время их используют такие известные платформы, как MobileMe, Facebook, Flickr, Google Maps и Technorati.

Модель «Resource Description Framework», разработанная W3C, описывает формат метаданных в семантическом вебе и подразумевает внедрение в страницы роботочитаемой информации. Однако подходы к реализации данного замысла отличаются друг от друга. Сообщество разработчиков микроформатов стремится к выполнению наиболее важных требований с наименьшими затратами. Тем не менее RDF ближе к «рекомендациям» и, скорее всего, она надолго заменит MF.

Семантический интернет может решить проблемы, связанные с поиском нужной информации и объединением данных из различных источников. Имеются стандарты описания информации из различных источников, которые являются общепризнанными, а также существуют методы освоения неявных знаний, усваиваемых только в процессе длительного обучения или в результате личного опыта. Концепции, касающиеся семантического анализа классических веб-страниц или наполнения их метаданными при помощи RDF, показывают, что переход к интернет-страницам нового типа возможен и уже начался. Перенос знаний из открытых баз данных («Википедия», все дела) — первый этап этого процесса.

Семантический интернет может начать функционировать только при наличии большого количества информации. Причем обработка таких элементов, как контакты или встречи, будет осуществляться гораздо проще. Переход от поиска понятий к ответу на «естественно-языковые вопросы» должен произойти уже в ближайшие годы.

Жилинский: Вот вроде написано много, а о чём? Я писал про микроформаты в 2007 году, с тех пор ситуация изменилась совсем чуть-чуть.

Автор гостевого поста — Fan Arsenala. Блоги — 7bloggers.ru, gundiary.com.
Специально для блога интернет-разработчика.



Поисковые роботы в статистике посещений.

5 комментариев

Определение робота поисковой системыВ заметке «Определение пауков ПС на PHP» я уже выкладывал элементарный скрипт, которым можно отсечь роботов от людей в статистике посещений сайта, и актуальный список ботов Яндекса.

Теперь вниманию читателей (и себе на память, как обычно) предлагаю законченное решение — PHP-скрипт, анализирующий активность кроулеров ПС на сайте. Кстати, кроме аналитики такой скрипт может быть полезен, если какой-нибудь особо активный бот мешает нормальной работе сайта.

Скрипт написан на PHP (возможна работа как в режиме модуля Апача, так и в FastCGI), полностью валиден (в рамках соответствия стандартам xHTML1/Strict и CSS/3), имеет гибкую систему настроек и панель управления. Скрипт также может отображать историю активности ботов конкретной поисковой машины.

Скачать скрипт и получить инструкции по его установке можно на сайте его разработчика — Usings.ru, там же есть и демо-версия статистики, генерируемой скриптом.

Жилинский Владимир.



INDEK.Биржа.

9 комментариев

INDEK.БиржаINDEK.Биржа — это новая биржа покупки/продажи ссылок для продвижения сайтов и их монетизации.

Интерфейс и схема работы этой биржи процентов на 80 повторяет уже известную биржу Sape, так что разобраться с подключением площадок и созданием кампаний будет довольно просто. Естественно, выходя на уже существующий рынок, создатели этой биржи приготовили несколько бонусов.

Преимущества INDEK.Биржи для вебмастера (размещение ссылок на своих сайтах и получение дохода):

  • Комиссия системы 10%, при добавлении качественных сайтов снижается на 70%.
  • Продажа ссылок со страниц до пятого уровня вложенности.
  • Партнёрская программа с двумя уровнями (доход от реффералов и их реффералов).
  • Более безопасный и надёжный код для размещения ссылок на динамических и статических сайтах.
  • Цены на обычные и контекстные ссылки можно выставлять отдельно.
  • Количество мест для ссылок можно выставлять для каждой страницы индивидуально.
  • Бонусы за добавленные сайты с высоким тИЦ – от 100 рублей за тИЦ 10 до 1500 рублей за тИЦ 500, которые можно потратить на покупку ссылок.
  • Помощь в легализации доходов.

Преимущества INDEK.Биржи для оптимизатора (покупка ссылок на продвигаемые сайты):

  • Основное: поиск, позволяющий покупать ссылки одновременно для любого количества URI за один запрос.
  • Увеличение скорости работы интерфейса в несколько раз за счёт кеширования и Ajax.
  • Поиск и  покупка блочных и контекстных  ссылок одновременно.
  • Интеллектуальный интерфейс покупки ссылок.
  • Поиск и покупка блочных и контекстных ссылок одновременно.
  • Панель быстрого доступа для веб-мастеров и оптимизаторов.
  • Удобные способы ввода и вывода средств – от WM и Robox до безнала и наличных.
  • Улучшенный интерфейс, в котором устранены недостатки существующих систем. При этом основные функции сохранены для более лёгкого перехода с других бирж.

Оптимизаторы восприняли новую биржу довольно скептически, что для них вообще характерно, но мне кажется, что попробовать вполне можно — бонусы за сайты с тИЦ неплохие, а ссылок много не бывает.

Содержание рекламных материалов может не отражать точку зрения автора.
Жилинский Владимир.



Curl based HTTP Client vs. Snoopy.

11 комментариев

Началось всё с того, что мне захотелось получать некоторые данные не прямым запросом, а через прокси. Переписывать много кода пришлось бы в любом случае, но на популярные грабли наступать не хотелось.

Задачу «отправить POST- или GET-методом данные и получить результат через прокси» взялись выполнить два PHP-класса.

PHPCurl HTTP Client — простая, но эффективная ООП-оболочка над библиотекой Curl. Содержит все методы, необходимые для получения данных со страниц, подмены referrer, авторизации, отправки POST-запросов, управления cookies и т.д.

Snoopy the PHP net client — PHP-класс, эмулирующий работу веб-браузера. Он автоматизирует получение содержимого страниц или, например, отправку форм. Запросы формирует функцией fsockopen().


Функции этих классов очень похожи. Оба они умеют получать содержимое страниц, отправлять любые значения полей User-agent и Refferer, передавать данные POST- и GET-методами, передавать Cookies, и ещё куча мелких бонусов у каждого класса.

Но работают они кардинально по-разному: одна использует системную библиотеку, а вторая PHP-функцию, поэтому я решил сделать замеры скорости для этих классов на одинаковой задаче.

Задача получилась такая: подключить класс, установить User-agent и Refferer, получить страницу с чужого сайта, вывести прошедшее время, повторить всё 100 раз.

Увы, результаты презентативными не оказались: классы показали одинаковую работу в одинаковое время с крошечным отрывом Snoopy в пределах погрешности. Так что можно пользоваться любым из них.

Жилинский Владимир.



Таблицы: красиво и удобно.

15 комментариев

Что-то давно я не писал ничего, исправляюсь. Эта запись будет скорее в стиле «чтобы самому не забыть». Когда-то давно один читатель меня просил сделать произвольную сортировку в таблице, которая рисуется средствами PHP. Бегло просмотрев функции работы с массивами, я понял, что определённо должен быть способ проще. Так и вышло ©.

Вместо того чтобы наворачивать запросы и обработки на PHP можно использовать небольшой JS-скрипт, который перехватит таблицу уже в браузере посетителя и его же силами отсортирует её как угодно.

Поиск такого скрипта (а зачем писать если можно найти?) показал, что их десятки, и многие по навороченности напоминают центр управления космическими полётами, например – соответствующие плагины Tablesorter для JQuery, Phatfusion sortable и Mootable sorting для mootools, Datatables для YUI и TableKit для Prototype.

Думаю, их довольно просто прикрутить и приручить, если один из этих тулкитов в вашем проекте используется. В моём случае так не вышло, а грузить лишний код не хотелось.

Я выбрал два маленьких скрипта, не требующих ничего ни от сайта (нужно подключить один JS-файл), ни от вёрстки (нужно просто задать CSS-класс для заголовков таблицы).

Unobtrusive Table Sort Standartista
Unobtrusive Table Sort Standartista


1. Unobtrusive table sort — это мой выбор, я использовал его в выводе результатов работы скрипта для проверки тИЦ и PR.

Этот скрипт умеет сортировать цифры, строки, правильно сортировать даты, размеры файлов и прочее, подсвечивать чётные строки таблиц цветом, а так же делить содержимое больших таблиц на страницы.

Очень легко подключается, и может работать даже без дополнительной CSS-обёртки. Хотя, стоит отметить, с ней он выглядит довольно симпатично.

2. Standartista — очень похожий скрипт, но со своими особенностями. Он умеет сортировать IP-адреса, валюты, числа, текст и даты, а главная его фишка в том, что он сам умеет эти типы данных угадывать, не требуя пояснений.

Жилинский Владимир.



uBot – учим блог говорить.

13 комментариев

uBotНовый сервис uBot предоставляет весьма оригинальную функцию — конвертирование ваших RSS-лент (текст) в MP3-подкасты (звук).

В принципе, различные text2speech (TTS) API известны уже давно, но в данном случае речь идёт о чтении текста на русском языке, что весьма смело с учётом его особенностей.

С помощью юБота можно превратить свой блог в «боткаст» — то же самое, что и подкаст, но текст читает не человек, а автоматизированная TTS-система. Больше боткаст от уже привычных подкастов ничем не отличается. Для стандартного движка standalone-блогов (WordPress)  у юбота есть плагин, добавляющий к каждому посту кнопку «прослушать».

Послушав боткаст на основе своего блога могу сказать следующее — русскоязычные TTS очень продвинулись со времён «Говорилки». Звук уже воспринимается без особого напряжения и его смысл, как правило, понятен.

Сложно воспринимаются, разве что, специализированные термины и англоязычные вставки. И интонация голоса у TTS такая, как будто зачитывается план захвата мира методом угона у NASA боевого спутника.

Ещё у юБота есть некая партнёрская программа, позволяющая делать в боткасты рекламные вставки и получать за это некое вознаграждение. Но я совершенно не понял её принципов — информация об этом на сайте весьма расплывчата.

Хочется, честно говоря, придумать способ скормить сервису OPML-файл и получить на выходе некое блог-радио, которое неспеша читало бы содержимое моего гугл-ридера. Можно, конечно, приспособить какой-нибудь агрегатор или, например, Yahoo Pipes, но лучше бы это была функция от разработчиков. Слушать ленты по одной — не так уж удобно, смысл RSS как раз в миксе.

В качестве примера работы сервиса можете послушать меня в новом формате боткаста.

Мне интересно: есть ли среди читателей люди, для кторых такой формат подачи был бы полезен? Напишите мне в комментариях: стоит ли тратить место на странице под кнопку прослушивания, или это никому не нужно?

Жилинский Владимир.



Эстафета QWERTY: награждение.

5 комментариев

Эстафета 5 вещейИнтернет-провайдер QWERTY внимательно изучил все посты, учавствовавшие в эстафете “5 вещей, которые мне заменил интернет” и выбрал победителей, которые получат обещанные флешки.

Честно говоря, я не знаю и не имею даже малейшего представления о том, по каким критериям отбирались победители. И всё же, вот их список, мои поздравления принимают:

1) Apple & Tech (Macman.ru)
2) steissd
3) business-mag777
4) barrabulka
5) Лучиэнь ищущая Тень
6) Иван Победоносов
7) ИМХО блог(Imhoblog.ru)
8) Я. Спасибо :-)
9) [info]1001friends
10) [info]neoguru

В ближайшее время с владельцами этих блогов должны связаться представители QWERTY для уточнения адресов доставки подарков.

Жилинский Владимир.



Мониторинг и анализ доступности сайтов.

16 комментариев

МониторингЯ собрал в один список все известные мне сервисы, позволяющие следить за правильной работой сайта и сообщать владельцу, если что-то не работает или работает не правильно — этот процесс обычно называют мониторингом.

В моём списке сервисы упорядочены по увеличению Alexa Traffic Rank основного домена, то есть от самого популярного к самому альтернативному (кроме первого сервиса).

1. Webpinger.ru — многофункциональный сервис для мониторинга сайтов и серверов. Сообщает о проблемах уведомлениями на электронную почту, ICQ и SMS. Поддерживает основные виды протоколов (http, https, ftp, pop, smtp, socket, dns). Большое число точек мониторинга по всему миру, их количество постоянно растет. Частота проверок от 5 до 60 минут. Подключение 10 первых сайтов бесплатное, большой выбор систем оплат за подключение платного тарифа.

2. Яндекс Метрика умеет проверять доступность сайтов и уведомлять об этом по SMS и e-mail. Хотя, говорят, не очень ровно и не очень вовремя. Необходима установка счётчика на страницы сайта.

3. Pingdom.com — очень популярный англоязычный сервис мониторинга сайтов. Базовый тариф стоит $9.95 в месяц и позволяет контролировать 5 сайтов из множества точек и получать 20 SMS-уведомлений за оплаченный период.
Доступные протоколы мониторинга: HTTP/HTTPS, Ping, TCP/UDP, DNS, POP3/IMAP/SMTP, проверка содержимого страницы.

4. Host-Tracker.com — тоже популярный сервис, но с русскоязычным интерфейсом и бесплатным тарифом. Количество точек для мониторинга — 47. Позволяет бесплатно мониторить 2 сайта с интервалом проверки доступности 30 минут и получать еженедельные отчёты на e-mail.
Более продвинутый мониторинг стоит $5 в месяц (оплатить можно почти всем, даже Яндекс.Деньгами) и позволяет проверять каждые 10 минут до 5 сайтов, формировать отчёты, проверять содержимое страниц и получать до 10 SMS-уведомлений в месяц. Поддерживает отправку уведомлений в ICQ и Jabber.

5. Siteuptime.com позволяет бесплатно проверять 1 сайт. В конце месяца высылает отчёт, имеет много точек мониторинга и замеряет время отклика страницы. На бесплатном тарифе интервал мониторинга может быть 30 или 60 минут, протоколы — HTTP, POP3, SMTP, FTP, SSL, DNS, TCP, Ping, Content, HTTP Password Protection.

6. Site24×7.com — сервис довольно удобный, но тоже платный. Есть бесплатный сильно ограниченный тариф с интервалом мониторинга раз в 60 минут, но с возможностью замеров скорости отклика.

7. Internetseer.com — бесплатный тариф позволяет проводить мониторинг доступности раз в час, остальное — за деньги.

8. Hyperspin.com (они же Wembot.com и Rootinternet.co.uk) — платные сервисы. Полный набор стандартных возможностей (ping, HTTP, HTTPS, FTP, SSH, SMTP, DNS, POP3, IMAP, MySQL, уведомления по e-mail и SMS, 13 точек мониторинга). Расчёт стоимости происходит индивидуально, например, мониторинг 1 сайта по 1 порту раз в 15 минут стоит $2 в месяц, а отправка 1 SMS-уведомления — $0.20.

9. Mon.itor.us — невероятно мощный и функциональный сервис мониторинга сайтов, сервисов и сетей. Куча возможностей по опросу (HTTP, HTTPS, FTP, SIP,IMAP, SMTP, POP3 на любом порту, любой TCP или UDP порт, DNS, Ping) и отчетности, мониторинг из 3 точек, опрос каждые 30-45 минут, предупреждения высылаются на e-mail, ICQ, YIM, MSN, GTalk, SMS. Можно скачать и установить программу-агент (под Windows), который помимо мониторинга процессов, памяти и жестких дисков самой машины может выступать в роли еще одной точки опроса (HTTP и Ping).
Имеет платную премиум-часть — Monitis.com.

10. Montastic.com — бесплатный, простой и эффективный. Позволяет проверять до 100 сайтов, имеет 2 точки мониторинга и интервал проверок около 10 минут. Умеет формировать отчёт в виде RSS-канала.

11. BasicState.com — довольно полезный, и при этом бесплатный сервис. Каждые 15 минут он пытается определить IP-адрес сайта по DNS (resolve), установить HTTP-соединение и получить данные. При возникновении ошибки сервис отправляет уведомление об ошибке, этапе на котором она произошла и её характере. Позволяет мониторить неограниченное количество сайтов.

12. AreMySitesUp.com на бесплатном тарифе обещает проверять сайт раз в 60 минут или быстрее и сообщать в случае проблем, по возможности с анализом их причин.

13. UptimeInspector.ru — платный сервис с большим количеством услуг и сложной схемой подсчёта их стоимости.

14. Verinet.ru — на бесплатном тарифе мониторит 1 сайт раз в 30 минут и отправляет уведомления на e-mail и ICQ. Платные тарифы от $1 в месяц.

 

Кроме онлайн-сервисов для мониторинга состояния сайтов, сетей и сервисов можно воспользоваться десктопными приложениями. Стандартом де-факто тут является Nagios, альтернативой — Zabbix. Определённо, стоит упомянуть и о Monit.

Если вы знаете ещё аналогичные сервисы — пишите в комментарии, пополним список.

Жилинский Владимир.



Скидки на Semonitor от Majordomo.

11 комментариев

Скидки на Semonitor от MajordomoSemonitor – это популярный пакет программ, используемый многими SEO-специалистами. Эти программы позиционируются как мощные и простые в использовании инструменты, избавляющие оптимизатора от рутинной работы.

C 19 мая до 19 июня для всех клиентов хостнига Majordomo действуют хорошие скидки:

  • Версия Standard – 1500 руб. (скидка 500 руб.)
  • Версия Professional – 2750 руб. (скидка 750 руб.)
  • Версия Expert – 3500 руб. (скидка 1000 руб.)

Узнать, чем отличаются эти версии и купить необходимую можно на сайте Semonitor.

Логотип Majordomo красуется теперь и в самой программе при её запуске рядом со ссылкой на учебник по поисковой оптимизации.

Кстати, с помощью моего сервиса для анализа показателей сайтов (проверка тИЦ, PR, числа страниц в индексе, наличия в каталогах и FeedBurner-статистики) уже были проверены 50 000 сайтов, на нескольких из них даже размещены счётчики с этого сервиса.

Жилинский Владимир.



«Корпоративный веб-сайт на 100%»: стандарты.

11 комментариев

Корпоративный веб-сайт на 100%Почётное место на моей книжной полке заняла ещё одна книга на тему веб-разработки: «Корпоративный веб-сайт на 100%: требуйте от сайта большего».

Её авторы — Роман Овчинников и Сергей Сухов, сотрудники компании Individ.

В аннотации они характеризуют свой труд так:
«Системное, компактное и хорошо структурированное руководство по всем аспектам работы корпоративных сайтов. Книга обобщает богатый практический опыт ее авторов. На страницах книги вы найдете множество рекомендаций, примеров, методик и контрольных списков, которые позволят сделать ваш веб-сайт мощным бизнес-инструментом.»
Книга разделена на 100 частей по 3-5 страниц, и каждая часть раскрывает какой-либо аспект, характеризующий корпоративный сайт — это и есть её структурированность. Что касается системности, то да — придумать ещё хоть один аспект оценки корпоративного сайта я не смог.

Книга необычная. Возможно, из-за того, что она предназначена не для разработчиков, а для заказчиков. Это не та книжка, которую можно читать перед сном — её надо быстро-быстро листать туда-сюда в процессе написания ТЗ, периодически обращаясь ещё и к поисковикам за разъяснениями. Разработчикам, кстати, книга тоже может оказаться весьма полезной в достижении идеала.

Но, конечно, не стоит воспринимать каждый пункт буквально.

Например, параграф 98, «Поисковая оптимизация» — тема очень динамичная, а утверждения порой спорные. Первым же пунктом авторы советуют прописать для каждой страницы мета-теги «keywords» и «description». Я с искренней верой в бессмысленное и беспощадное трудолюбие людей отправился в портфолио команды Individ в поисках сайта с прописанными метатегами. Первые три сайта оказались без метатегов, следующие два — с ними, но пустыми. В метатегах пятого сайта битрикс хвастался, что он тоже CMS. На этом я поспешил удалиться, пока не нашёл чего-нибудь ещё более страшного, ибо вообще не верю в то, что на этом ужасе можно сделать сайт хотя бы на 15%.

Задумка авторов понятна: книга не является справочником или пособием, она является толковым сборником стандартов разработки корпоративных сайтов, кропотливо собранных авторами на основе своего опыта и накопленных материалов.

Место такой книги на столе директора по маркетингу или в компании, занимающейся созданием сайтов премиум-класса.

Жилинский Владимир.




© 2007-2010 Блог интернет-разработчика, автор — Zhilinsky.ru.
При использовании информации ссылка на источник обязательна.