Какое значение имеет страница Google в SEO?

Почему Google не может сканировать все веб-страницы?
Типы сканирования Google и сканеры работают
Как на самом деле работает сканирование Google? #RTFM
Как выбрать важные страницы, прочитанные во время сеанса сканирования?
Как Google может оценить важность извлечения ресурсов?
Важность страницы и бюджет сканирования, как это связано?
Как максимизировать важность вашей страницы?
Оптимизировать внутренние ссылки
Фостер различных типов документов
Держите ваш sitemap.xml обновленным
Сократить не релевантные ссылки
Оптимизировать содержание и объем
Резюме

Важность страницы - это алгоритм, который определяет оценку, используемую Google для классификации URL-адресов во время сеансов сканирования. Диапазоны важности страницы, которые необходимо изучить, чтобы оптимизировать бюджет обхода для каждого сайта.
Чтобы лучше распределить свои расходы на сканирование, Google должен расставить приоритеты для страниц, которые ему нужно получить. В этой логике оптимизации затрат фирма Mountain View опубликовала множество патентов о планировании сканирования. Эти патенты позволяют нам лучше понять, как классифицируются ваши страницы, и дать представление о концепции бюджета сканирования - концепции, которая по-разному наблюдается в отношении каждого сайта, типологий страниц и связанных с ними показателей за пределами сайта.

Частота сканирования Google по группам. Каждый раздел не имеет такого же значения для глаз Google

Почему Google не может сканировать все веб-страницы?

В соответствии с InternetLiveStats сегодня существует более 1,2 миллиарда веб-сайтов, каждый из которых может индексировать от нескольких до миллионов страниц. Считая все ресурсы, от изображений до CSS, которые Google пытается проанализировать и понять, он представляет огромный объем данных для опроса. Понятно, что даже с сотнями центров обработки данных Google необходимо сделать выбор в своем исследовании. Этот выбор основывается на алгоритмах и наборе метрик, которые важно знать и освоить, чтобы использовать ваши усилия по SEO.
Google должен анализировать 4 миллиона страниц в секунду, чтобы охватить весь свой индекс за 1 год (по оценкам, 130 тысяч миллиардов страниц) и только одно уникальное обновление в год и на страницу.

Это просто невозможно, и одно уникальное обновление в год и на страницу непродуктивно для Google!

Извлечение всех страниц для поддержания свежести и исчерпываемости своего индекса и для получения наилучшего возможного ответа подразумевает возвращение на одни и те же страницы несколько раз в день. По логике, он дорог в отношении времени обработки и энергии. Таким образом, каждая компания знает, что оптимизация операционных расходов важна для обеспечения экономической эффективности. Планирование сканирования и расстановка приоритетов относительно важности страниц очень важны.

Типы сканирования Google и сканеры работают

Мы знаем, что Google изучает не все типы страниц одинаково . Например: домашняя страница, RSS-каналы и страницы разделов являются настоящим резервуаром свежести. Google отчаянно посещает их. Страницы продуктов и статьи, с другой стороны, являются источниками знаний. Google оценит качество и будет посещать их с частотой, полагаясь на оценку, связанную с набором данных: это оценка важности страницы .
Google знает глубину страниц, частоту их обновления, внутреннюю популярность, объем контента и семантическое качество HTML этих страниц. Затем он адаптирует перераспределение бюджета сканирования на этих страницах, чтобы обнаружить новые документы или обновить свой индекс.

Скорость сканирования по глубине

Например, онлайновые СМИ, классифицируемые Google как таковые, увидят увеличение частоты посещений некоторых страниц. Горячее содержимое естественным образом размещается на глубине 1 (домашняя страница) и 2 (заголовки разделов). Большая часть ресурсов бюджета сканирования будет потрачена на эти страницы, а затем на новые обнаруженные URL-адреса.
Затем, что касается содержания контента, семантики HTML, количества ссылок, скорости загрузки (в зависимости от веса ресурсов и возможностей сервера) и других факторов, таких как PageRank и Inrank ( OnCrawl метрика ), боты будут отправлены на определенных страницах.

Как на самом деле работает сканирование Google? #RTFM

Сканирование Google - это набор простых шагов, рекурсивно работающих для каждого сайта. Его цель состоит в том, чтобы точно и исчерпывающе заполнить свой индекс. Каждый обход - это просто вставка списка URL-адресов, которые нужно выбрать для проверки их обновлений. Этот список URL-адресов составлен заранее и должен быть оптимизирован, чтобы избежать выборки менее важных документов.
По следующим схемам, опубликованным в Документации Google Search Appliance ( источник ), Google может правильно и быстро ответить на запрос, только если он строит исследовательский индекс ваших страниц из сканирования. Этот метод предположительно также используется для индексации сети.

Прежде чем кто-либо сможет использовать Google Search Appliance для поиска в корпоративном контенте, поисковое устройство должно создать поисковый индекс, который позволяет быстро сопоставлять поисковые запросы с результатами. Чтобы создать поисковый индекс, Google Search Appliance должен просмотреть или «просканировать» корпоративный контент, как показано в следующем примере.
1-Идентифицирует все гиперссылки на странице. Эти гиперссылки известны как «недавно открытые URL».
2-Добавляет гиперссылки в список URL-адресов для посещения. Список известен как «очередь сканирования»
3-Посещает следующий URL в очереди сканирования.

Список известен как «очередь сканирования» 3-Посещает следующий URL в очереди сканирования

Слева: алгоритм сканирования Google упрощает визуализацию
Справа: полный алгоритм

Как выбрать важные страницы, прочитанные во время сеанса сканирования?

Читая патенты Google, мы можем заметить, что во многих публикациях, касающихся сканеров, учитываются элементы планирования сканирования. Планирование ресурсов машины Google затем основывается на алгоритмах обработки данных, которые мы собираемся проанализировать в этой статье.
Наши исследования основаны на трех важных терминах, вытекающих из анализа этих патентов: « Бюджет сканирования », « Планирование сканирования » и « Важность страницы ».
Первый не является «официальным», по мнению Google, который, однако, недавно объяснил эту концепцию в официальный пост , Два других условия приведены в этих патентах ( источник а также источник ), позволяя Google быть более эффективным в своем веб-исследовании.

Извлеченный документ из патента важности страницы, где воссоединяются понятия оценки важности и планирования планирования.

Google делает выбор для планирования своего исследования. Вот здесь и появляется алгоритм Page Importance. Это помогает выбрать наиболее релевантные URL-адреса и спланировать сеансы сканирования на каждом сайте . Затем он сокращает количество не релевантных страниц для изучения, предлагая лучшую оптимизацию расходов Google при сохранении качества и свежести индекса.

Google использует (как OnCrawl) довольно простой метод обнаружения / сканирования / индексации . Он пытается полностью просмотреть веб-сайт на предмет способности сервера отвечать на «нагрузку на хост» и определять наиболее важные страницы. Эта стратегия основана на наборе алгоритмов, компилирующих данные на месте. Контент индексируется, и повторное посещение Google производится на самых важных страницах пользователя или на страницах, которые лучше соответствуют запросам с высоким интересом, последним опубликованным страницам, наиболее актуальным или с наилучшим качеством.
Новые обнаруженные URL-адреса опрашиваются, но, поскольку их содержание становится более холодным, после обработки этих страниц будут происходить более частые посещения.

Как Google может оценить важность извлечения ресурсов?

Благодаря своему исследованию Google использует важные метрики для оценки важности одной страницы или группы страниц по сравнению с другой.
Вот список факторов, принятых во внимание:

Древовидная позиция страницы;
Page Rank;
Тип страницы или тип файла;
Sitemap.xml включение URL;
InRank (внутренний рейтинг страницы);
Количество и вариация внутренних ссылок;
Актуальность, качество и размер контента;
Частота обновления;
Исходные коды и общее качество сайта.

Как SEO, вы уже знаете эти оптимизации. Они могут сыграть свою полную роль с концепцией важности страницы.

Важность страницы и бюджет сканирования, как это связано?

Важность страницы - это показатель, используемый Google для классификации URL-адресов для опроса, в первую очередь наиболее важных. Важность страницы помогает анализировать запланированные URL-адреса во время сканирования на предмет бюджета сканирования каждого веб-сайта.
Бюджет сканирования, как видно из консоли поиска Google, - это макрос просмотра сканирования. Кривая исследования этой страницы учитывает обращения к ресурсам CSS, JS и страницам с ошибками 40X или перенаправлениями 3xx и для всех сканеров (веб, но также AdWords, объявления, изображения, новости или видео). Таким образом, эта информация слишком широка, чтобы быть понятной. Анализ логов - единственный способ узнать, как на самом деле ведет себя Google. Данные о частоте сканирования помогают оценить, соответствуют ли ваши оценки важности страниц вашим страницам с деньгами.
Бюджет сканирования является результатом загрузки хоста и планирования сканирования / URL . Другими словами, предел посещений, который Google приписывает в день для изучения релевантных страниц. Таким образом, важность страницы помогает оптимизировать бюджет сканирования.

Как максимизировать важность вашей страницы?

Оптимизировать время загрузки

Первый рычаг - это «нагрузка на хост». Сокращение времени отклика, использование CDN и серверов кэширования, а также ресурсов 304 на ресурсах значительно помогают сократить время загрузки и максимизировать нагрузку на хост.

Чем быстрее загружается страница, тем выше частота сканирования.

Убедитесь, что индексирующие боты не встречают препятствий во время исследования сайта, следуя возвращенным кодам состояния.

Оптимизировать внутренние ссылки

Основные страницы вашего бизнеса должны получать ссылки с самых важных страниц - например, с домашней страницы. Все страницы, которые получают ссылку с главной страницы (страницы глубиной 2), являются вашими самыми важными страницами. Создавайте вечнозеленые ссылки, переходящие на ваши страницы с высоким потенциалом.

Фостер различных типов документов

Использование PDF-ссылок со ссылками на ваши важные страницы может быть улучшением, но подразумевает четкое дублирование управления контентом, чтобы избежать копирования контента вашего сайта. Мы заметили, что страницы, содержащие HTML-таблицы со списком данных, чаще просматриваются. Это является улучшением для поставщиков электронной коммерции, которые могут использовать семантическое качество HTML для ускорения сканирования страниц продукта.

Держите ваш sitemap.xml обновленным

Постоянное обновление ваших файлов sitemaps.xml - это задача, которой часто пренебрегают. Однако получение ваших страниц в этих документах может помочь вам максимизировать важность этих страниц.

Страницы, включенные в sitemap.xml, по сравнению с внешними, но все еще в архитектуре.

Сократить не релевантные ссылки

Возможность создавать страницы, которые не имеют слишком много ссылок, является наиболее важным рычагом. Избавьтесь от мега-меню и ссылок нижнего колонтитула после домашней страницы. Эти сильно дублированные блоки ссылок уменьшают мощность, передаваемую каждой ссылкой, они часто плохо оптимизируются и способствуют снижению производительности хранилища страниц. Чтобы максимизировать мощность каждой ссылки, на страницах должно быть уменьшено количество исходящих ссылок.

Известный вклад ссылок одной страницы в другую помогает оптимизировать общую внутреннюю ссылку

Оптимизировать содержание и объем

Создание страниц с богатым контентом и семантическими данными является первоочередной оптимизацией. Чем длиннее статья, тем выше будет оценка важности, заданная Google. То же самое относится и к категориям, которые должны быть не просто страницами, полными ссылок, но с важным объемом текста.

Чем больше текста на странице, тем больше информации она даст пользователям и тем больше будет Google.

Резюме

При оптимизации видимости веб-сайта очень важно понимать алгоритмы поисковой системы, на которые вы ориентируетесь. Мы знаем, что комбинированный анализ журналов и сканирования помогает пользователям OnCrawl сравнивать ранее упомянутые показатели с реальным поведением Google на веб-сайте.
Анализ журнала позволяет отслеживать частоту посещений ботов Google на страницах и определять барьеры при исследовании сайта. Вы можете в реальном времени отслеживать возвращаемые коды и вес страниц.
Просматривая ваш сайт, вы получите набор страниц и метрик для отслеживания важности страницы: глубины, включенных URL-адресов в sitemap.xml, качества, количества и качества ссылок, HTML и семантического качества каждой страницы.
Наконец, комбинированный анализ поможет вам легко отслеживать частоту сканирования по показателю важности страницы. Доступ к данным проще, и вы можете сэкономить время.

Не тратьте время, следите за важностью вашей страницы с OnCrawl!

Почему Google не может сканировать все веб-страницы?
Как Google может оценить важность извлечения ресурсов?
Важность страницы и бюджет сканирования, как это связано?
Как максимизировать важность вашей страницы?
Как на самом деле работает сканирование Google?
Как Google может оценить важность извлечения ресурсов?
Важность страницы и бюджет сканирования, как это связано?
Как максимизировать важность вашей страницы?

Категории

Новости