5 августа 2009 года

Гостевой пост: Микроформаты.

Мы часто слышим, что интернет находится на переломном этапе своего развития. Такое мнение высказывается как в блогах, так и на различных конференциях. На примере многих новых проектов видно, что вскоре должна настать эпоха семантической сети: нельзя не заметить постепенный уход от интернета, направленного на работу с документами, и переход на содержание. На специализированных конференциях, таких как ISWC и SemTech, ежегодно обнародуются результаты исследований по данной теме.

В глобальной помойке — огромная куча как полезной, так и бесполезной информации. Человек способен без труда обработать данные, размещенные на веб-страничке, и установить их взаимосвязь с содержанием других ресурсов. Машине это, как правило, не удается; поисковые системы выдают только результаты конкретных запросов, обработанных с помощью статистических методов.

К примеру, возьмем поисковый запрос «киски». В серпе: фото ню и продажа кошек. Поэтому оптимальным решением стало бы создание системы поиска, ориентированной больше на семантику, нежели значение слов. В понятии «семантическая паутина» заложен логический способ обработки информации. Но веб-страницы наряду с отображаемыми буковками и цифрами содержат сведения в виде метатекста. Чтобы воплотить в жизнь идею семантического интернета W3C определил ряд открытых стандартов. Значительная роль в них отводится машинным языкам — они позволяют сохранить семантически обработанную информацию в виде онтологий и таксономий.

Один из вариантов перехода «к содержанию» заключается в размещении заранее структурированной информации. Для того, чтобы справиться с огромным объемом информации, представленной в виде документов, программисты пытаются прибегнуть к помощи искусственного интеллекта и компьютерной лингвистики.

«Natural Language Processing» позволяет анализировать естественно-языковые тексты посредством имитации действий читающего человека. При этом, как правило, текст разбивается на абзацы, а абзацы на предложения. Дополнительная структура позволяет раскрыть его семантическое содержание. Поисковый запрос в таком случае сможет идентифицировать и установить связь между лицами, местоположением, объектами и событиями, что заметно снизит количество ошибок поиска.

Следующая концепция носит название «Microformats». В июне 2009 года ей исполнилось четыре года. Идея строится на ручном расширении существующих html-страниц специальными элементами для адаптации их под поисковые системы. К примеру, существует такие обозначения для контактов, встреч и закладок. В настоящее время их используют такие известные платформы, как MobileMe, Facebook, Flickr, Google Maps и Technorati.

Модель «Resource Description Framework», разработанная W3C, описывает формат метаданных в семантическом вебе и подразумевает внедрение в страницы роботочитаемой информации. Однако подходы к реализации данного замысла отличаются друг от друга. Сообщество разработчиков микроформатов стремится к выполнению наиболее важных требований с наименьшими затратами. Тем не менее RDF ближе к «рекомендациям» и, скорее всего, она надолго заменит MF.

Семантический интернет может решить проблемы, связанные с поиском нужной информации и объединением данных из различных источников. Имеются стандарты описания информации из различных источников, которые являются общепризнанными, а также существуют методы освоения неявных знаний, усваиваемых только в процессе длительного обучения или в результате личного опыта. Концепции, касающиеся семантического анализа классических веб-страниц или наполнения их метаданными при помощи RDF, показывают, что переход к интернет-страницам нового типа возможен и уже начался. Перенос знаний из открытых баз данных («Википедия», все дела) — первый этап этого процесса.

Семантический интернет может начать функционировать только при наличии большого количества информации. Причем обработка таких элементов, как контакты или встречи, будет осуществляться гораздо проще. Переход от поиска понятий к ответу на «естественно-языковые вопросы» должен произойти уже в ближайшие годы.

Жилинский: Вот вроде написано много, а о чём? Я писал про микроформаты в 2007 году, с тех пор ситуация изменилась совсем чуть-чуть.

Автор гостевого поста — Fan Arsenala. 7bloggers.ru.

Styura

Написано 17 августа 2009 года в 20:29

Современный поисковик берет на себя функцию искусственного интеллекта, способного каким то образом отвечать на задаваемые вопросы и по большому счету, справляется с этой задачей, но иногда случаются и курьезы.

Валера

Написано 18 августа 2009 года в 08:39

Семантический интернет — как до этого еще далеко!

>описывает формат метаданных в семантическом вебе и подразумевает внедрение в страницы роботочитаемой информации

Чем это отличается от keywords и description? Все помнят что из этого вышло.

dimagromovfoto

Написано 18 августа 2009 года в 15:05

Вопрос, в какой-то мере из разряда психологических. Не целое юзеры, охваченные поиском, точно представляют на момент самого поиска что они хотят найти. Ключевое слово в вышесказанном — “точно”. Сам неоднократно сталкивался с такой ситуацией. Например, я решил найти предложения по конструкции загородительных сооружений (попросту говоря, забор для дачи найти надо). С данной проблемой я встретился впервые, а потому дилетант в этой сфере. Поэтому по мере изучения ее мои запросы станут более конкретными и узкими. А поначалу я буду стрелять мелкой дробью с большим диапазоном рассеивания. Учтите, что большинство пользователей поисковых систем, столкнувшись с необходимостью что-либо отыскать, поначалу сами не склонны сужать широту поиска.

Лытдыбр — пост ни о чем | 7bloggers

Написано 19 апреля 2011 года в 17:16

[…] Третья [Fan Arsenala] – про микроформаты о_О. Я читал-читал и ничего не понял. К слову, ничего не […]

Лытдыбр — пост ни о чем | 7bloggers

Написано 10 июня 2011 года в 07:37

[…] самому встрять, естественно.3. Третья [Fan Arsenala] – про микроформаты о_О. Я читал-читал и ничего не понял. К слову, ничего не […]