<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: Рейтинг популярных записей: что там в API?</title>
	<atom:link href="http://zhilinsky.ru/2009/11/09/hand-made-top/feed/" rel="self" type="application/rss+xml" />
	<link>http://zhilinsky.ru/2009/11/09/hand-made-top/</link>
	<description>Жилинский Владимир</description>
	<lastBuildDate>Sun, 22 Jan 2012 20:03:26 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
	<item>
		<title>By: Жилинcкий Владимир</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13319</link>
		<dc:creator>Жилинcкий Владимир</dc:creator>
		<pubDate>Wed, 11 Nov 2009 05:00:14 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13319</guid>
		<description>Семантическое зеркало стоит от 6000 рублей в месяц (не более 10 000 запросов в день).

Владелец Istio говорит, что у него нет времени и всё в таком духе. И база у него не своя...

Ищите ещё автоклассификаторы, господа.</description>
		<content:encoded><![CDATA[<p>Семантическое зеркало стоит от 6000 рублей в месяц (не более 10 000 запросов в день).</p>
<p>Владелец Istio говорит, что у него нет времени и всё в таком духе. И база у него не своя&#8230;</p>
<p>Ищите ещё автоклассификаторы, господа.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Жилинcкий Владимир</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13318</link>
		<dc:creator>Жилинcкий Владимир</dc:creator>
		<pubDate>Tue, 10 Nov 2009 12:00:13 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13318</guid>
		<description>Отправил письма в Ашмановскую контору и в Истио. Посмотрим чего будет, ибо самому составлять весовой словарь - проще сразу об стенку.</description>
		<content:encoded><![CDATA[<p>Отправил письма в Ашмановскую контору и в Истио. Посмотрим чего будет, ибо самому составлять весовой словарь &#8211; проще сразу об стенку.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: nblxa</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13317</link>
		<dc:creator>nblxa</dc:creator>
		<pubDate>Tue, 10 Nov 2009 11:53:55 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13317</guid>
		<description>Проблема морфологии относительно легко решается стеммерами с готовыми словарями: кто ищет, тот всегда найдет.

Ашмановский сервис и тот другой мне как-то не особо понравились: уж очень общая у них направленность, отсюда и неадекватные ответы. Плюс, они грешат тем, что не отделают содержательную часть от навигационной и оформления. Юзернеймы, слова типа reply, post, comments, lj искажают результат. Плюс, количество неадеквата в комментах может сильно превышать собственно количество полезной информации в самом посте, и здесь тоже желательно уметь отделять мух от котлет.</description>
		<content:encoded><![CDATA[<p>Проблема морфологии относительно легко решается стеммерами с готовыми словарями: кто ищет, тот всегда найдет.</p>
<p>Ашмановский сервис и тот другой мне как-то не особо понравились: уж очень общая у них направленность, отсюда и неадекватные ответы. Плюс, они грешат тем, что не отделают содержательную часть от навигационной и оформления. Юзернеймы, слова типа reply, post, comments, lj искажают результат. Плюс, количество неадеквата в комментах может сильно превышать собственно количество полезной информации в самом посте, и здесь тоже желательно уметь отделять мух от котлет.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: medar</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13316</link>
		<dc:creator>medar</dc:creator>
		<pubDate>Tue, 10 Nov 2009 11:46:34 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13316</guid>
		<description>Да, контент забираю именно так. Вот тут оно сейчас висит, если интересно, периодически может падать, так как я там наживую копаюсь: currentnews.ru

Ашмановский можно было бы отыметь через прокси, но я сейчас попробовал туда попихать разные ЖЖ - как-то не впечатлили меня результаты. Имхо, лучше составлять свои ограниченные категории (политика, IT, кино-тв и т.д.) из набора слов, но учитывая русскую морфологию - это лютый пипец.</description>
		<content:encoded><![CDATA[<p>Да, контент забираю именно так. Вот тут оно сейчас висит, если интересно, периодически может падать, так как я там наживую копаюсь: currentnews.ru</p>
<p>Ашмановский можно было бы отыметь через прокси, но я сейчас попробовал туда попихать разные ЖЖ &#8211; как-то не впечатлили меня результаты. Имхо, лучше составлять свои ограниченные категории (политика, IT, кино-тв и т.д.) из набора слов, но учитывая русскую морфологию &#8211; это лютый пипец.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Жилинcкий Владимир</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13313</link>
		<dc:creator>Жилинcкий Владимир</dc:creator>
		<pubDate>Tue, 10 Nov 2009 10:55:05 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13313</guid>
		<description>Сейчас по юзерам - видно, что получается чёпопало. Как ты забираешь контент - из RSS-ленты ЖЖ-юзера сравнивая URI\заголовок?

Слова могут классифицировать два сервиса из предыдущего моего комментария, но бесплатно не хотят :&lt;</description>
		<content:encoded><![CDATA[<p>Сейчас по юзерам &#8211; видно, что получается чёпопало. Как ты забираешь контент &#8211; из RSS-ленты ЖЖ-юзера сравнивая URI\заголовок?</p>
<p>Слова могут классифицировать два сервиса из предыдущего моего комментария, но бесплатно не хотят :<</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: medar</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13310</link>
		<dc:creator>medar</dc:creator>
		<pubDate>Tue, 10 Nov 2009 08:13:32 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13310</guid>
		<description>nblxa, я бы не заморачивался с защитой Яндекса. У меня twittertrends.ru сосёт твиттер в 400 потоков без каких-либо напрягов последнего (ip, правда, занесены в твиттеровский whitelist). Подобных сервисов, работающих с API твиттера - масса, и ничего, жив пока курилка. А у Яндекса, думаю, мощностей поболе будет, или по крайней мере сравнимо с твиттером.

Тем более что у блог-апи сейчас где-то 70 страниц в среднем отдается и их вполне можно сосать в однопотоке, там инфа медленно обновляется.

// Посмотри блоги: даже айтишники вчера написали про этого мента и именно с этим они в топе. То есть тоже не наш вариант.
Так ты сейчас сделал фильтр по юзерам или все-таки по тайтлам ? Как ты сейчас айтишников определяешь ?

Собирать контент с тэгами не проблема - у меня однопотока вполне хватает обходить топ 1000 , правда пока только ЖЖ, с другими пока не заморачивался.
Так что фильтрация по словам в посте - имхо, лучшее решение. Правда, я пока не представляю как и где получить все русские слова IT-тематики.. Хабр отпарсить, что ли :)</description>
		<content:encoded><![CDATA[<p>nblxa, я бы не заморачивался с защитой Яндекса. У меня twittertrends.ru сосёт твиттер в 400 потоков без каких-либо напрягов последнего (ip, правда, занесены в твиттеровский whitelist). Подобных сервисов, работающих с API твиттера &#8211; масса, и ничего, жив пока курилка. А у Яндекса, думаю, мощностей поболе будет, или по крайней мере сравнимо с твиттером.</p>
<p>Тем более что у блог-апи сейчас где-то 70 страниц в среднем отдается и их вполне можно сосать в однопотоке, там инфа медленно обновляется.</p>
<p>// Посмотри блоги: даже айтишники вчера написали про этого мента и именно с этим они в топе. То есть тоже не наш вариант.<br />
Так ты сейчас сделал фильтр по юзерам или все-таки по тайтлам ? Как ты сейчас айтишников определяешь ?</p>
<p>Собирать контент с тэгами не проблема &#8211; у меня однопотока вполне хватает обходить топ 1000 , правда пока только ЖЖ, с другими пока не заморачивался.<br />
Так что фильтрация по словам в посте &#8211; имхо, лучшее решение. Правда, я пока не представляю как и где получить все русские слова IT-тематики.. Хабр отпарсить, что ли :)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Жилинcкий Владимир</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13309</link>
		<dc:creator>Жилинcкий Владимир</dc:creator>
		<pubDate>Tue, 10 Nov 2009 07:57:26 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13309</guid>
		<description>Смотри, что я нашёл:

АДЫН: &lt;a href=&quot;http://ashmanov.com/tech/semantic/demo/&quot; rel=&quot;nofollow&quot;&gt;Семантическое зеркало&lt;/a&gt; - есть интерфейс, тока за деньги.

ДЫВА: &lt;a href=&quot;http://istio.com/rus/text/analyz/&quot; rel=&quot;nofollow&quot;&gt;Istio&lt;/a&gt; - нет интерфейса, работает хуже.

Оба работают по одному принципу - текст страницы обезвоживается и сравнивается со словарём, в котором слова разделены на тематики.

Где бы спионерить такой словарик...</description>
		<content:encoded><![CDATA[<p>Смотри, что я нашёл:</p>
<p>АДЫН: <a href="http://ashmanov.com/tech/semantic/demo/" rel="nofollow">Семантическое зеркало</a> &#8211; есть интерфейс, тока за деньги.</p>
<p>ДЫВА: <a href="http://istio.com/rus/text/analyz/" rel="nofollow">Istio</a> &#8211; нет интерфейса, работает хуже.</p>
<p>Оба работают по одному принципу &#8211; текст страницы обезвоживается и сравнивается со словарём, в котором слова разделены на тематики.</p>
<p>Где бы спионерить такой словарик&#8230;</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: nblxa</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13302</link>
		<dc:creator>nblxa</dc:creator>
		<pubDate>Mon, 09 Nov 2009 11:02:22 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13302</guid>
		<description>...а можно, кстати, и параллельно! Этакий хак ;-)</description>
		<content:encoded><![CDATA[<p>&#8230;а можно, кстати, и параллельно! Этакий хак ;-)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: nblxa</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13301</link>
		<dc:creator>nblxa</dc:creator>
		<pubDate>Mon, 09 Nov 2009 11:00:32 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13301</guid>
		<description>Да чем ждать от моря погоды, проще самому все сделать. А то получается &quot;Давайте попросим Яндекс, чтобы он сам за нас все разработал, а мы бы просто XSL- и CSS-шаблоны прикрутили&quot;.

У меня вопрос к публике насчет многостраничности. Я ничуть не пытаюсь как-то защитить яндекс, а просто представляю, как бы я сделал такое сам. Как контролировать нагрузку? Я не знаю заранее, сколько всего записей вернет API: в одно время это 3000, в другое 7000, может быть, бывают и другие значения, я не следил. Предполагается, что это высоконагруженный API с низким latency: пусть даже он и отдают статику, но, повторюсь, контролировать нагрузку как-то надо, чтобы гарантировать стабильный уровень обслуживания для всех клиентов. Обыкновенные RSS тоже не отдают все записи сразу, будь они хоть трижды загзиплены.

Это мои соображения. Может быть, на самом деле я перегибаю палку, и для гигатна-яндекса это капля в море. Но в любом случае, лично мне не очень сложно было написать скрипт, &quot;съедающий&quot; все страницы последовательно.</description>
		<content:encoded><![CDATA[<p>Да чем ждать от моря погоды, проще самому все сделать. А то получается &#8220;Давайте попросим Яндекс, чтобы он сам за нас все разработал, а мы бы просто XSL- и CSS-шаблоны прикрутили&#8221;.</p>
<p>У меня вопрос к публике насчет многостраничности. Я ничуть не пытаюсь как-то защитить яндекс, а просто представляю, как бы я сделал такое сам. Как контролировать нагрузку? Я не знаю заранее, сколько всего записей вернет API: в одно время это 3000, в другое 7000, может быть, бывают и другие значения, я не следил. Предполагается, что это высоконагруженный API с низким latency: пусть даже он и отдают статику, но, повторюсь, контролировать нагрузку как-то надо, чтобы гарантировать стабильный уровень обслуживания для всех клиентов. Обыкновенные RSS тоже не отдают все записи сразу, будь они хоть трижды загзиплены.</p>
<p>Это мои соображения. Может быть, на самом деле я перегибаю палку, и для гигатна-яндекса это капля в море. Но в любом случае, лично мне не очень сложно было написать скрипт, &#8220;съедающий&#8221; все страницы последовательно.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Sam</title>
		<link>http://zhilinsky.ru/2009/11/09/hand-made-top/#comment-13300</link>
		<dc:creator>Sam</dc:creator>
		<pubDate>Mon, 09 Nov 2009 10:42:31 +0000</pubDate>
		<guid isPermaLink="false">http://zhilinsky.ru/?p=1447#comment-13300</guid>
		<description>А также уберут постраничку, сделают передачу сжатых данных, реализуют сортировку по набору параметров на их стороне… не думаю, что кто-то будет напрягаться.</description>
		<content:encoded><![CDATA[<p>А также уберут постраничку, сделают передачу сжатых данных, реализуют сортировку по набору параметров на их стороне… не думаю, что кто-то будет напрягаться.</p>
]]></content:encoded>
	</item>
</channel>
</rss>

