Гостевой пост: Микроформаты.
5 комментариевМы часто слышим, что интернет находится на переломном этапе своего развития. Такое мнение высказывается как в блогах, так и на различных конференциях. На примере многих новых проектов видно, что вскоре должна настать эпоха семантической сети: нельзя не заметить постепенный уход от интернета, направленного на работу с документами, и переход на содержание. На специализированных конференциях, таких как ISWC и SemTech, ежегодно обнародуются результаты исследований по данной теме.
В глобальной помойке — огромная куча как полезной, так и бесполезной информации. Человек способен без труда обработать данные, размещенные на веб-страничке, и установить их взаимосвязь с содержанием других ресурсов. Машине это, как правило, не удается; поисковые системы выдают только результаты конкретных запросов, обработанных с помощью статистических методов.
К примеру, возьмем поисковый запрос «киски». В серпе: фото ню и продажа кошек. Поэтому оптимальным решением стало бы создание системы поиска, ориентированной больше на семантику, нежели значение слов. В понятии «семантическая паутина» заложен логический способ обработки информации. Но веб-страницы наряду с отображаемыми буковками и цифрами содержат сведения в виде метатекста. Чтобы воплотить в жизнь идею семантического интернета W3C определил ряд открытых стандартов. Значительная роль в них отводится машинным языкам — они позволяют сохранить семантически обработанную информацию в виде онтологий и таксономий.
Один из вариантов перехода «к содержанию» заключается в размещении заранее структурированной информации. Для того, чтобы справиться с огромным объемом информации, представленной в виде документов, программисты пытаются прибегнуть к помощи искусственного интеллекта и компьютерной лингвистики.
«Natural Language Processing» позволяет анализировать естественно-языковые тексты посредством имитации действий читающего человека. При этом, как правило, текст разбивается на абзацы, а абзацы на предложения. Дополнительная структура позволяет раскрыть его семантическое содержание. Поисковый запрос в таком случае сможет идентифицировать и установить связь между лицами, местоположением, объектами и событиями, что заметно снизит количество ошибок поиска.
Следующая концепция носит название «Microformats». В июне 2009 года ей исполнилось четыре года. Идея строится на ручном расширении существующих html-страниц специальными элементами для адаптации их под поисковые системы. К примеру, существует такие обозначения для контактов, встреч и закладок. В настоящее время их используют такие известные платформы, как MobileMe, Facebook, Flickr, Google Maps и Technorati.
Модель «Resource Description Framework», разработанная W3C, описывает формат метаданных в семантическом вебе и подразумевает внедрение в страницы роботочитаемой информации. Однако подходы к реализации данного замысла отличаются друг от друга. Сообщество разработчиков микроформатов стремится к выполнению наиболее важных требований с наименьшими затратами. Тем не менее RDF ближе к «рекомендациям» и, скорее всего, она надолго заменит MF.
Семантический интернет может решить проблемы, связанные с поиском нужной информации и объединением данных из различных источников. Имеются стандарты описания информации из различных источников, которые являются общепризнанными, а также существуют методы освоения неявных знаний, усваиваемых только в процессе длительного обучения или в результате личного опыта. Концепции, касающиеся семантического анализа классических веб-страниц или наполнения их метаданными при помощи RDF, показывают, что переход к интернет-страницам нового типа возможен и уже начался. Перенос знаний из открытых баз данных («Википедия», все дела) — первый этап этого процесса.
Семантический интернет может начать функционировать только при наличии большого количества информации. Причем обработка таких элементов, как контакты или встречи, будет осуществляться гораздо проще. Переход от поиска понятий к ответу на «естественно-языковые вопросы» должен произойти уже в ближайшие годы.
Жилинский: Вот вроде написано много, а о чём? Я писал про микроформаты в 2007 году, с тех пор ситуация изменилась совсем чуть-чуть.
Автор гостевого поста — Fan Arsenala. 7bloggers.ru.