Вкладки и критерии оценки

Общий риск

Здесь суммируются оценки, полученные по конкретным критериям, и выставляется итоговая оценка (при условии, что текст не слишком короткий).

В большинстве случаев итоговая оценка — особенно если она высокая — складывается из баллов, полученных за разные, не зависимые друг от друга параметры из разных вкладок.

В правой колонке по умолчанию показаны только те параметры, за которые выставлены баллы — но можно кликнуть «Подробнее» и увидеть остальные.

В тексте выделяются наиболее проблемные предложения — подумайте, не стоит ли их отредактировать или просто переписать.

Все подробности — в следующих вкладках.

Повторы

Здесь собраны все параметры, связанные с частотами слов. За переоптимизацию текста отвечают «академическая тошнота» (извините, это термин) и «сверхчастые слова».

Академическая тошнота — это, несмотря на отталкивающее название, довольно удачный параметр, разработанный компанией Адвего для оценки количества повторов слов в тексте. Чем чаще слово повторяется, тем больше его вклад, но учитываются все повторы. Штрафные баллы мы начинаем ставить при значениях параметра от 10,5.

Классическую тошноту мы тоже приводим для справки, для тех, кто привык ей интересоваться, но при подсчете риска не используем.

Сверхчастые слова — это слова, которые встречаются заметно чаще, чем должны были бы по закону Ципфа (даже с поправкой на большие естественные отклонения от него на коротких текстах).

А вот баллы за сверхконцентрацию союза «и», если они выставлены, свидетельствуют не о переоптимизации, а о злоупотреблении одним из стилистических приемов (красивый и уютный, выбрать и купить — вот это всё).

В правой колонке можно увидеть списки наиболее частых слов (стоп-слова серые, остальные раскрашены в зависимости от частоты) и словосочетаний.

Стилистика

«Баден-Баден» — это не только про переоптимизацию и ключевики, но и про некачественные, шаблонные, бесполезные тексты.

Мы ищем (и обычно находим) в тексте фразы из нашего словаря стилистических проблем. Это довольно большой словарь — на момент запуска сервиса в нём было почти 17 тысяч терминов, а через год — почти 29 тысяч! В зависимости от тяжести проблемы каждое размеченное слово получает от одного до трех «стилистических квантов».

Количество стилистических проблем — это сумма всех квантов, полученных словами текста. Если оно больше 100 и плотность стилистических проблем выше 0,1, за него ставятся штрафные баллы.

Плотность стилистических проблем — основной параметр, оценивающий стилистику. Это, как легко догадаться, количество стилистических проблем, деленное на длину текста в словах. За плотность ниже 0,1 баллы не ставятся, зато за 0,25 и выше вы получите сразу 8 баллов!

Наведите курсор мыши на выделенные слова или кликните по ним и читайте подсказки (их может быть несколько). Мы очень старались сформулировать, в чём опасность тех слов и словосочетаний, которые мы выделяем, чем они нам не нравятся. К сожалению, иногда это непросто, тем более, что мы не знали контекста, в котором эти слова встретятся у вас. Если подсказки непонятны или не подходят для текста, который вы проверяете, пожалуйста, сообщите нам об этом — это поможет нам сделать их действительно полезными.

Важно: подсвеченные слова — это не обязательно ошибки (читайте об этом в наших подсказках). Не надо стремиться выкорчевать их все. Пожалуйста, прочитайте об этом в разделе Как реагировать на результаты проверки.

См. также Типичные ошибки копирайтеров.

ЗапросыNEW!

В первой версии «Тургенева» в тексте выделялись запросы длиной от двух слов из относительно небольшого списка — около полутора миллионов коммерческих запросов. Этот подход не всегда срабатывал: в списке могло не быть тех запросов, по которым продвигался текст. И часто «шумел»: в тексте про кухню срабатывали запросы про плитку, и наоборот. А главное, далеко не всегда ловились все эти бесконечные Мы предоставляем возможность свежеобжаренный кофе в зернах купить в Москве, приобрести свежеобжаренный кофе в Новосибирске и других регионах, за которые мы с Яндексом так любим SEO-тексты.

Примерно год после запуска сервиса мы работали над новой версией «Запросов» — алгоритмом и словарями к нему. Теперь мы учитываем только сочетания длиной от трех слов, не считая предлогов и союзов. И они не хранятся, а строятся:

  • из полутора миллионов «ядер» (примерное совпадение с числом запросов в предыдущей версии случайное);
  • из нескольких тысяч модификаторов: перечень, в г Ярославле, как лечить, круглосуточно, цена за кв. м, запись на консультацию и т. п.;
  • из повторяющихся в самом тексте словосочетаний, в которые входят слова из уже выделенных запросов.

Всё это тщательно отбирается, так что в результате «Тургенев» обычно выделяет именно те ключевые фразы, вокруг которых построен текст, с модификаторами и добавками, которые тоже оказались рядом не случайно. Хотя, конечно, всё равно попадаются и ложные срабатывания, и «пропуски».

Вычисляется единая метрика покрытие ключевыми словами, учитывающая: а) какую долю текста покрывают выделенные запросы; б) какая часть из них в начальной форме (это проверяется по базе уже из сотен миллионов запросов); в) много ли запросов или их сочетаний из пяти и более слов. Если покрытие (с учетом точных и длинных запросов) составляет больше 10%, текст, скорее всего, перенасыщен «ключевиками» — и они начинают выпадать в осадок в виде штрафных баллов.

Водность

Обычно для оценки «количества воды в тексте» используют список стоп-слов, включающий предлоги, союзы, местоимения, вводные слова, модальные глаголы и т. п.

Водность — это процент стоп-слов. Мы приводим его для справки специально для тех, кто привык им интересоваться, но при оценке риска «Баден-Бадена» не используем.

Мы пошли немного дальше и составили список слов и выражений с очень общим значением — например, компания, квалифицированный, создать, параметр, отдельный, неоднократно, пациент, своими руками, первый попавшийся. Их гораздо больше, чем стоп-слов, — около пяти тысяч.

Доля содержательного текста — это доля тех слов, которые остаются после того, как мы отметили слова и выражения из обоих списков. Если их меньше 0,23 (23%), текст получает за это штрафные баллы.

Это не всегда справедливо. Доля содержательного текста сильно зависит от тематики: для дизель-генераторов средние значения этого параметра больше 0,3, а для поискового продвижения — около 0,2. При оценке сайтов наших клиентов мы используем относительные пороги (балл ставится, если доля заметно ниже, чем в среднем по запросу). Но здесь про запросы мы ничего не знаем и вынуждены использовать усредненные показатели. Тем не менее для большинства тематик 0,23 — достаточно низкий показатель, а 0,18, за которые текст может получить 2 балла — это очень мало уже практически для любой тематики.

Удобочитаемость

Из многих вариантов индекса удобочитаемости мы выбрали Automated Readability Index в варианте, адаптированном для русского языка. Это очень простая метрика — она учитывает только среднюю длину слова и среднюю длину предложения. Штрафные баллы ставятся при значениях индекса больше 15 (индекс оценивает примерное количество лет обучения, которые требуются для чтения текста; 14 соответствует уровню студента вуза).

Это довольно грубая метрика; в будущем мы планируем разработать параметры, учитывающие лингвистические особенности текста. Однако понятно, что текст с индексом 15 и выше — далеко не самый простой и «прозрачный».

Во вкладке «Удобочитаемость» в тексте подсвечиваются самые длинные предложения и слова — но это не значит, что «Тургенев» их не любит, или что проблема только в них. Если сложность не отпугнет читателей, — например, если текст юридический, — один балл за удобочитаемость можно просто игнорировать.

Зарегистрироваться

Войти

Электронная почта
Пароль
Забыли пароль?
Войти

Регистрация

Электронная почта
Пароль
Повторите пароль

Регистрация

На вашу электронную почту было отправлено письмо со специальной ссылкой подтверждения учетной записи. Перейдите по этой ссылке, чтобы активировать доступ к сервису.

Восстановление пароля

Электронная почта
На адрес вашей электронной почты будет отправлена ссылка для смены пароля.

Восстановление пароля

На вашу электронную почту было отправлено письмо со специальной ссылкой. Перейдите по этой ссылке, чтобы изменить пароль доступа к сервису.

Задать вопрос

Тема вопроса
  • Без темы
  • Вопрос по новой версии «Тургенева»
  • Пожаловаться на Яндекс
  • Пожаловаться на «Тургенева»
  • Нужна консультация специалистов
  • Хочу стать вашим клиентом
  • Ложное срабатывание
  • Неадекватная подсказка
Электронная почта
Текст сообщения

Задать вопрос

Ваш вопрос отправлен.

ООО "Интернет-лингвистика"

ИНН7727645011
КПП773101001
ОГРН1087746363682
ОКПО85663819
Расчетный счет40702810238000190336
БанкПАО СБЕРБАНК
БИК044525225
Корр. счет30101810400000000225
Юридический адрес121357, Москва г, Верейская, дом 29, строение 134, этаж 7, помещение В7
Телефон+7 (495) 269 06 30
Генеральный директорВолович Михаил Маркович