Разработка сайта, web дизайн, хостинг, seo, раскрутка - студия веб дизайна TVYSoftware.com (Минск) Rambler's Top100

Каталог библиотеки TVYSoftware.com

.htaccess и .htpasswd - защита сайта базовыми средствами Apache...
12 интересных фактов о Google...
CMS - Обзор технических решений для интернет-магазинов...
GetText и PHP - многоязычные приложения. Профессиональная работа....
Google - факторы для поисковой оптимизации, ранжирование в Google...
Google учит русский язык...
Google: Будущее поиска (Google Research)...
HTML: Таблица спецсимволов html...
Page Promoter 7.3.2: универсальный инструмент для продвижения ресурса...
Page Promoter 7.3: универсальная платформа для продвижения ресурсов...
Partner Links: оптимизируя обмен ссылками......
SEO: Bar’ometr vs SeoBar vs Page Promoter Bar...
SEO: Выбор достойного поставщика услуг оптимизации и продвижения...
SEO: Используем в раскрутке мета-тэги (meta tags)...
seo: Непростые вопросы интернет-рекламы...
SEO: Оптимизация сайта: что это?...
SEO: Почему качественное продвижение сайтов в поисковиках стоит так дорого?...
SEO: Спамдексинг - что это такое?...
SSI – Что? Как? Зачем?...
WAP своими руками...
Whois - описание сервиса...
Авторские права в Интернете...
Все способы обмана заказчика в онлайновой рекламе...
Давайте познакомимся!...
Девушка-геймер – беда для компьютера...
Дизайнер vs Заказчик...
К вопросу о ссылочном ранжировании...
Как попасть в бан Google - быстро и с гарантией!...
Кибермаркетинг - Заявить о себе в Сети...
Кибермаркетинг. Инвестиции в знания...
Кибермаркетинг: практический опыт продвижения интернет-магазина...
Ковровые бомбардировки в Интернете. Реклама на популярных площадках....
Конверсия: маркетинг плюс контент...
Контекстная реклама: вопросы и ответы...
Курите ли Вы? Три истории успеха...
Навигация в бурном море Интернета...
Новейшая обсервация российских счетчиков: счетчики Украины...
Новейшая обсервация российских счетчиков: формация HotLog...
Новейшая обсервация российских счетчиков: формация Rambler TOP100...
Новейшая обсервация российских счетчиков: формация Rax (LiveInternet)...
Новейшая обсервация российских счетчиков: формация SpyLOG...
Новейшая обсервация российских счетчиков: формация TopMail...
О баннере новом... pop-up, pop-under, richmedia...
О баннере разном замолвите слово…...
О баннере успешном (CTR)...
Обзор Page Promoter 7.0...
Особенности ведения переговоров с веб-студией...
Ошибки Заказчика веб-сайта...
Плаванье в Интернете таит много опасностей для маленькой компании...
Подводные камни новой экономики...
Почему веб-зеваки ничего не стоят?...
Права на Web-сайт...
Правильно читаем HTTP-ответ веб-сервера...
Протокол ssh (Secure Shell)...
Работа задаром лучше безделья......
Редирект 301: с WWW, без WWW - нас везде неплохо кормят!...
Свежий взгляд на надоевшие вопросы - тенденции развития Рунета...
Система поддержки – как гарантия Вашего спокойствия...
Сменить работу? Легко!...
Снова к вопросу интернет-маркетинга...
Яндекс - link und anchor no passaran?...
Яндекс: экипировка сезона 06 или «ошибка 404 – нет страницы для отображения»...
Библиотека по веб-дизайну, веб-мастерингу, сайтостроительству, раскрутке и продвижению в сети.
Вход для Клиентов Инструкции и советы
Каталог ссылок Подписка на рассылку
Оплата услуг

Библиотека веб-дизайна

перейти в конец текста: Google учит  русский язык

Google учит русский язык

Приблизительно год назад на конференции компании NetPromoter “Кибермаркетинг. Стратегия и тактика продвижения ресурса” автор данной заметки дискутировал о перспективах Гугла в Рунете с представителем одной из ведущих российских поисковых систем, и когда речь зашла о перспективах введения Google’ом поддержки морфологии русского языка, мнения разошлись. Я настаивал на том, что это произойдет в ближайшее же время, мой оппонент – на том, что это вряд ли случится вообще, а если и случится, то вряд ли будет иметь какое-то значение. Как рассудило время, оба мы оказались не правы: это все же произошло, хотя и не так быстро, как я предполагал, и, конечно же, далеко не с тем качеством.

Новость о том, что Google начал распознавать морфологию русского языка, прошла как-то незаметно. Пока не существует ни официальной, ни полуофициальной, ни даже какой-либо достоверной информации об этом, безусловно, важном событии – только несколько заметок в блогах или даже просто в комментариях блогов. Оптимизаторские форумы в большинстве своем молчат или недоумевают, но можно предвидеть, что намечается что-то очень серьезное. При введении запроса на русском языке в Google.ru (не пытайтесь делать это на других серверах, например, Google.com – там это не работает) возвращаются результаты, в которых отчетливо наблюдается факт того, что Google распознает различные падежи, числа, формы глаголов и другие лингвистические прелести. Так, при запросе "уехать в канада" в результатах поиска выделяются различные словоформы как слова "канада"– "канаду", "канаде", "канады", так и слова "уехать" – "уехал", "уехали" и т. д.

Грешным делом у нас сперва зародилось подозрение, что это всего лишь приспособленный под русский язык стемминг – технология, используемая для анализа английского языка. Но давайте для начала остановимся на различии в подходах к анализу различных языков.

Как известно, русский и английский языки принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы образовываются с помощью окончаний. Например, русское имя существительное может принимать шесть падежей в единственном числе, и шесть – во множественном. Таким образом, одно и то же существительное может встречаться в 12 различных формах на одной и той же странице. Кроме того, некоторые словоформы могут образовываться с помощью изменения основы слова, например "что – ложь; чего – лжи". Для эффективного анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений данного слова в текст документа. По такому принципу работают ведущие российские поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением. С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются только в исключительных случаях, например, в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. Все основные российские поисковые машины хорошо справляются с анализом русской морфологии, но для англоязычных поисковиков русский до сих пор был проблемой – для того, чтобы включить поддержку русского, нужно было полностью менять систему анализа текстов, дописывать алгоритм анализа морфологии. Следовательно, Гуглу было бы проще «прикрутить» русский стемминг к существующему стеммингу английского и нескольких других европейских языков, поддерживаемых Гуглом, чем разрабатывать и внедрять абсолютно новый алгоритм.

Так что же сегодня происходит на Гугле? Какая технология обработки русского языка используется? Давайте внимательнее присмотримся к тому, что творится в выдаче Гугла. При запросе таких слов, как "ты", "я", Гугл выдает результаты, в которых встречаются такие формы указанных слов, как "тебя", "меня" и так далее. Однако при запросе по слову "лгать" начинаются проблемы. Так, Яндекс выдает документы, которые содержат словоформы "лгут", "лжет", в то время как Гугл – нет. Еще более странные вещи обнаруживаются при просмотре кеша Гугла по найденным словам. Те слова, которые совпадают с заданной вами формулировкой, выделяются, в то время, как словоформы, не совпадающие с заданной формулировкой запроса, в кеше не выделяются. Более того, если на странице нет ни одного слова, совпадающего с заданной формулировкой запроса, выводится стандартное сообщение о том, что «данные слова были найдены в ссылках, ведущих на страницу». Конечно, можно списывать такие несостыковки на то, что алгоритм является еще сырым, тестируется, но, кажется, существующие факты свидетельствуют об одном  – Google использует улучшенный стемминг для работы с русским языком, это пока не полноценный анализ русского языка с учетом морфологии.

Похоже, прав был мой оппонент на конференции – с тем качеством, как реализована морфология Гугла сейчас, русским поисковикам, действительно, опасаться пока нечего. Несомненно нововведение улучшит релевантность обслуживания русскоязычных запросов, более-менее полноценная поддержка русского языка сослужит хорошую службу для популяризации таких коммерческих проектов Гугла как AdWords и AdSense, которые были представлены Рунету без малого год назад, но работают пока через пень колода, ввиду того, что их русификация была осуществлена в основном только по части перевода интерфейса.  В любом случае, у оптимизаторов теперь появится еще одно интересное занятие – исследование того, как работает обновленный гугловский алгоритм. Можно предвидеть, что с точки зрения поисковой оптимизации разница между подходом к оптимизации для «наших» поисковиков и для «буржуйских» будет сведена к минимуму. А выиграют от этого как пользователи Гугла, так и владельцы сайтов, не говоря уже о самом Google, который, несомненно, найдет новых пользователей в России. Вопрос, на мой взгляд, состоит в том, что хорошая идея введения учета русской морфологии была реализована крайне некачественно.

Знаменательно еще и то, что приблизительно в одно время с Гуглом о поддержке морфологии русского языка заявила еще одна поисковая машина, Exalead, которая не пользуется пока особой популярностью на западе, и еще менее известна у нас.

Неизвестно, остановятся ли разработчики на достигнутом, или будут совершенствовать систему, доводя ее до уровня работы Яндекса или Рамблера, но сам факт того, что Гугл, с его огромной базой проиндексированных документов, обширной системой сервисов, среди которых приобретающий все большую популярность почтовый сервис Gmail, Pay-Per-Click сервисы AdWords и AdSense, делает пусть пока не большие шаги в направлении русского рынка, говорит, как минимум, о том, что этот рынок находится в зоне его интересов.

Стоит ли русским поисковикам опасаться конкуренции Гугла? Мнения расходятся. Поживем-увидим. А точка в споре, зародившемся на конференции, еще не поставлена.

Денис Кравченко
SEO-аудитор компании NetPromoter

Опубликовано 14.02.2006

Дополнительные материалы о Google

перейти в начало текста: Google учит  русский язык

   При перепечатке любых материалов этого сайта прямая активная ссылка на TVYSoftware.com обязательна!