- ЧАСТЬ 1: Ваш первый анализ логов с Dataiku
- Подключите ваши журналы OVH к Dataiku
- Ваши первые анализы
- Код статуса, с которым сталкиваются посетители
- Геолокация посетителей IP
- Фильтрация Google Bot в логах
- ЧАСТЬ 2: Подготовка журналов
- Фильтрация пользовательских агентов от ботов: GoogleBot, BingBot и др.
- ЧАСТЬ 3: Расширенный анализ журнала
- Код состояния, с которым сталкиваются боты
- Передача ботов по URL и типу страницы
- Поведение ботов на мобильных страницах и AMP
- Скрестите бревна с данными сканирования Screaming Frog
- Страницы-сироты и никогда не сканированные страницы
- Найдите свои собственные корреляции между журналами и сканированием
- Следующее?
Сегодня существует много способов сделать анализ журналов, но каждый анализ обычно требует длительного подготовительного этапа: восстановление журналов, группирование, разделение столбцов, очистка и так далее. Эти процедуры, более или менее сложные в зависимости от случая, могут иногда охлаждаться, особенно когда они сделаны в ману ...
В этом руководстве я покажу вам, как сделать все это быстро и использовать логи веб-хостинга OVH с Dataiku, инструментом Data Science .
Этот инструмент представляет собой небольшую революцию в области обработки данных, и вы быстро поймете, почему.
Ах ... и я забыл ...
Dataiku имеет бесплатную версию, которая имеет дополнительное преимущество, будучи установленной на вашем компьютере, так что данные остаются локальными !!!!
ЧАСТЬ 1: Ваш первый анализ логов с Dataiku
Установите Dataiku DSS
Начните с установки Dataiku DSS на свой компьютер: https://www.dataiku.com/dss/trynow/
Dataiku DSS, инструмент анализа данных, используемый для Data Science, здесь используется для SEO
Подключите ваши журналы OVH к Dataiku
Назначение в администрации (пиктограмма в правом верхнем углу), затем на вкладке Плагины.
Найдите и установите плагин OVH Logs Importer от Jérémy Grèze.
Существуют плагины Dataiku для различных целей: соединители с API других сервисов (OVH, Github, Import.io и т. Д.) И плагины для обогащения ваших наборов данных (OpenStreeMap, Обогатить из фильмов, геообогащение и т. Д.)
Вернитесь на домашнюю страницу и нажмите на + в левом верхнем углу. Выберите «Новый проект».
Нажмите кнопку «+ Импортировать ваш первый набор данных» и выберите «Журналы OVH».
Новая страница отображается.
Заполните поля вашими учетными данными OVH, доменным именем, которое вы хотите изучить, и периодом анализа, который вас интересует. Затем нажмите кнопку «Проверить и получить схему», чтобы начать восстановление журнала.
Какой период учиться?
Я советую вам изучить как минимум последние 30 дней для репрезентативного анализа. Это позволит вам, например, найти страницы, игнорируемые Google Bot.
Анализ может занять несколько минут в зависимости от выбранного периода.
После завершения восстановления на правом экране появится образец ваших журналов с правильно засекреченной информацией : волшебство! Дайте вашему набору данных имя и нажмите кнопку «Создать» в верхней части экрана.
Теперь вы сможете начать анализ логов вашего сайта: анализировать трафик, изучать коды статуса, с которыми сталкиваются посетители / боты и т. Д.
Мы начнем с нескольких основных манипуляций, чтобы вы могли быстро принять Dataiku DSS.
Предисловие: Dataiku DSS использует выборку из 10 000 строк для оперативной обработки. Вы можете увеличить образец в соответствии с возможностями вашей машины. Для этого нажмите 10000 строк в разделе «Образец дизайна» в левом верхнем углу.
Ваши первые анализы
На вашем наборе данных, нажмите кнопку LAB в правом верхнем углу. Откроется всплывающее окно, нажмите «НОВОЕ Подготовить данные и построить модели», чтобы создать свой анализ.
Нажмите на зеленую кнопку + ДОБАВИТЬ НОВЫЙ ШАГ и выберите интересующую вас библиотеку (и).
Эта операция будет повторяться всякий раз, когда в этом руководстве возникает вопрос о создании анализа.
Код статуса, с которым сталкиваются посетители
Нажмите на заголовок столбца «статус», затем «Анализ ...». Поздравляем, вы только что сделали первый анализ логов!
Конечно, очень упрощенный, но не менее интересный: перед вами раздача всех кодов состояния, которые фактически встречаются посетителями вашего сайта (людьми и ботами). Вам решать совместно улучшать пользовательский опыт и курс ботов.
Совет
: Нажав на зубчатое колесо каждой линии, вы сможете выполнять обработку в своем наборе данных. Например, отображайте только те строки, которые содержат код состояния 404, чтобы определить приоритеты вашей семьи.
Геолокация посетителей IP
Dataiku DSS предлагает различные способы обогащения ваших наборов данных через внешние API и базы данных.
Здесь мы обогатим IP-адреса географической информации: страны, регионы, города .
Нажмите на заголовок столбца «host», затем на «Resolve GeoIP». Появятся 7 новых столбцов.
Вы только что отметили все IP-адреса, которые подключены к вашему сайту, и знаете происхождение ваших посетителей по стране, региону или городу. Чтобы просмотреть распределение географического происхождения посещений, снова нажмите на заголовок интересующего вас столбца и на «Анализ ...».
Фильтрация Google Bot в логах
Вот часть, которая должна больше всего понравиться SEO!
Для фильтрации попаданий Google Bot в логах есть 2 варианта:
Во-первых, нужно щелкнуть заголовок столбца «агент», а затем «Фильтр» в строке «Googlebot», однако, он имеет недостаток в захвате фанфаронов, которые изображают из себя GBot ... Знать полные цепочки Пользовательские агенты Google продолжают эта страница ,
Второй, более надежный метод - это отфильтровать IP-адрес GoogleBot, вручную введя префикс 66.249 ( столбец «хост»).
Выбрав свой метод, нажмите «+ Добавить как шаг», чтобы подтвердить операцию, следуя той же базовой конфигурации, что и на снимке экрана ниже.
Здесь я отфильтровал логи Google Bot по его IP, который начинается с 66.249
Теперь у вас есть только строки, основанные на пользовательском агенте Google Bot.
Это хорошая основа для более подробного и детального анализа поведения Google Bot на вашем сайте: обнаруженных кодов состояния, наиболее часто просматриваемых страниц и т. Д.
Я надеюсь, вам понравились эти первые «упражнения». Теперь давайте перейдем к анализу логов для SEO, но перед этим давайте подготовим логи.
ЧАСТЬ 2: Подготовка журналов
Очистка журналов для SEO анализа
Здесь интерес состоит в том, чтобы хранить только самые интересные журналы для SEO анализа. Поэтому мы удалим строки, относящиеся к вызовам файлов css, js, images и т. Д.
Создайте новый анализ (как показано в ЧАСТИ 1 Первые анализы) и выберите библиотеку «Фильтровать строки / ячейку по значению», расположенную в наборе «Фильтровать данные».
Затем установите фильтрацию ваших журналов следующим образом:
Здесь мы фильтруем все строки, содержащие обращения к ресурсам .js .css / fonts / .png .jpg .php .gif .ico / # comment- /? Replytocom =
Значения для фильтрации могут отличаться в зависимости от типа анализируемого сайта. Здесь значения («имеет значения») особенно адаптированы для анализа сайта WordPress, но не стесняйтесь просматривать ваш набор данных, чтобы завершить их.
Наконец, для лучшей читаемости мы удалим HTTP / 1.1 в конце запросов.
В столбце запроса дважды щелкните любую ячейку, содержащую HTTP / 1.1, и выберите «Заменить HTTP / 1.1 на ...».
Мы только что удалили 8831 строку (CSS, изображения, скрипты и т. Д.) И обработали 1158 строк для очистки HTTP / 1.1. Не забывайте, что это в настоящее время рассматривается на нашем примере из 10000 строк 😉
Фильтрация пользовательских агентов от ботов: GoogleBot, BingBot и др.
Начните с классификации пользовательских агентов по типу, чтобы мы могли хранить только ботов . Для этого нажмите на заголовок столбца агента и «Классифицируйте пользовательский агент». Появляются новые столбцы с дополнительной информацией: agent_type, agent_category и agent_brand.
Чтобы сохранить только строки ботов, щелкните ячейку, содержащую значение «bot» в столбце agent_type, а затем выберите «Оставлять только строки, равные ботам». "
Совет
: Dataiku DSS предлагает возможность анонимизировать данные благодаря плагину «Анонимайзер данных». После установки вы можете за несколько кликов анонимизировать любой столбец ваших наборов данных (на вкладке «Анализ» нажмите «+ ДОБАВИТЬ НОВЫЙ ШАГ», найдите «Обработчик данных анонимной обработки» и дайте себе руководство)
ЧАСТЬ 3: Расширенный анализ журнала
Целью этой части является подробное изучение поведения различных сканеров: частота посещений страниц, обнаруженные коды состояния, поведение при просмотре мобильных страниц.
Код состояния, с которым сталкиваются боты
RDV во вкладке Charts.
Слева от вас находятся все переменные в вашем наборе данных. Перетащите их вправо по X и Y, чтобы создать визуализацию ваших данных.
Первая визуализация - это макрокоманда кодов состояния, с которыми сталкиваются боты: она собирает количество проходов каждого бота на сайте, а также встреченные коды состояния .
Количество проходов различных сканеров и обнаруженных HTTP-кодов
Этот тип анализа вам нравится?
Давайте двигаться вверх по передаче.
Передача ботов по URL и типу страницы
Давайте теперь детально проанализируем количество проходов всех ботов в каждом из ваших URL, чтобы обнаружить определенные паттерны. Мы также классифицируем страницы в зависимости от того, являются ли они AMP или нет.
Давайте начнем с создания нового набора данных на основе наших предыдущих процедур (фильтрация, очистка). Он нам понадобится для группировки просмотров по URL.
Для этого нажмите на желтую кнопку в правом верхнем углу DEPLOY SCRIPT. Назовите его, выберите его местоположение и формат (CSV) и нажмите DEPLOY.
Ваш новый набор данных готов?
RDV теперь в FLOW (меню Dataiku, вверху слева). Рассматривайте ПОТОК как историю ваших операций.
Теперь мы сгруппируем строки по запросам. Цель состоит в том, чтобы посчитать количество пассажей ботов на URL.
Нажмите на новый набор данных и в разделе Визуальные рецепты нажмите на желтую пиктограмму «Группа».
Выберите ключи группы «request» и «agent_brand», затем подтвердите свой новый набор данных, нажав на кнопку «RUN» внизу.
Вернитесь к ПОТОКУ: появится ваш новый набор данных. Нажмите на нее, а затем на синюю кнопку «LAB» справа.
Появится окно: нажмите «НОВОЕ. Подготовьте данные и постройте модели», чтобы начать новый анализ.
С помощью визуализации таблицы (вкладка «Диаграммы») вы можете в несколько щелчков мыши создать обсерваторию для прохождения всех ботов по каждому URL :
Боты проводят время на нужных страницах вашего сайта?
Находясь на вкладке Диаграммы, вы можете легко просматривать самые просматриваемые страницы сканерами, перетаскивая их мышью.
Этот анализ подчеркивает различия в поведении сканеров Bing и Google. Первый часто посещает robots.txt и home, а второй - home и sitemaps.
Я также приглашаю вас проверить визуализацию прохождений разных ботов в день . Это позволит вам обнаружить ненормальное поведение (например, бот, который внезапно перестает посещать некоторые из ваших страниц), а также узнать дату последнего сканирования ваших URL-адресов .
Отслеживайте ежедневное прохождение ботов по каждому URL с возможностью фильтрации ботов и URL
Поведение ботов на мобильных страницах и AMP
Теперь мы будем отличать URL-адреса AMP от URL-адресов, отличных от AMP.
Вырежьте столбец запроса с разделителем с разделителем / и укажите имя сгенерированного столбца (в поле Префикс выходных столбцов). Выберите «Вывод в виде нескольких столбцов» и отметьте «Усечь». Передайте количество столбцов, которое нужно оставить равным 1, и выберите «Начиная с конца».
Вы должны получить что-то вроде этого:
Колонка, которую вы только что создали, содержит фрагменты URL, включая «amp», который нас особенно интересует. Чтобы оставить только «amp» и стереть содержимое других ячеек, не стирая строки, выполните следующие действия:
Нажмите на ячейку, содержащую amp, и дважды щелкните «Оставлять только строки, содержащие amp», затем в части сценария в левой части экрана выберите действие «Очистить несоответствующие ячейки» со значением amp.
Маленькая зеленая полоска под колонкой усилителя дает представление об объеме страниц усилителя.
Теперь ваш столбец очищен и позволяет быстро найти строки в наборе данных, соответствующие страницам усилителей , что будет очень полезно для фильтрации.
Теперь вы можете фильтровать проходы сканирования по ботам (Google, Bing, Yahoo и т. Д.) И типу страницы (amp / no amp) и даже сортировать строки по количеству проходов для лучшей читаемости.
Давайте вернемся к вкладке "Диаграммы", чтобы увидеть распределение сканирования на страницах AMP и не-AMP.
Мы видим здесь распределение типов страниц (AMP в зеленом цвете против non-AMP в синем), сканируемых ботами
Чтобы пойти дальше, вы также можете улучшить визуализацию фильтров: по категории страницы, по типу бота (мобильный или немобильный).
Скрестите бревна с данными сканирования Screaming Frog
Сделайте перекрестный анализ журналов
Перекрестный анализ может обнаружить области сайта, где робот Google не проходит, а также убедиться, что он проводит время на нужных страницах. Это отличная помощь для обнаружения страниц-сирот или ловушек для пауков.
Начните с сканирования вашего сайта с помощью Screaming Frog, чтобы получить локальные элементы каждого URL (уровень, ссылки, размер и т. Д.), Отфильтровать HTML и экспортировать данные в формате .xlsx.
В Dataiku DSS снова откройте ваш предыдущий набор данных (тот, который содержит запрос из 4 столбцов, amp, agent_brand и count). Мы подготовим его к объединению с данными сканирования Screaming Frog. Создайте новый Анализ сейчас.
В столбце «запрос» замените «GET /» на полное доменное имя, как оно указано в файле internal_html Screaming Frog. Этот шаг позволит нам сопоставить линии между двумя наборами данных .
Для этого анализа вы также можете сохранить только те строки, которые соответствуют GoogleBot (сохранить строки, где agent_brand - Google)
Нажмите DEPLOY SCRIPT в правом верхнем углу. Откроется новая страница, нажмите RUN, чтобы создать новый набор данных на основе ваших последних обработок, мы назовем его «ovh_crawl_logs_ready».
Давайте перейдем к группировке файла журнала с обходом Screaming Frog. РДВ сейчас в ПОТОКЕ
Нажмите + DATASET и загрузите файл Screaming Frog.
Слева файл internal_html от Screaming Frog, справа файл журнала и его различные процессы.
Прежде чем объединить 2 файла и сохранить все данные из 2 наборов данных, необходимо сохранить их в базе данных SQL PostgreSQL, как описано на форуме от Dataiku.
Нажмите на свой набор данных ovh_crawl_logs_ready, затем на Экспорт (на боковой панели FLOW). Откроется окно RDV во вкладке EXPORT TO DATASET. Дайте вашему набору данных новое имя (ovh_crawl_logs_ready_postgresql), затем выберите Сохранить в PostgreSQL.
Повторите с вашим набором данных Screaming Frog "internal_html".
По завершении создания базы данных PostgreSQL щелкните новый набор данных «ovh_crawl_logs_ready_postgresql», чтобы открыть боковую панель FLOW.
В области «Визуальные рецепты» боковой панели нажмите «Присоединиться к».
Появится окно. значение первого входного набора данных является базовым "ovh_crawl_logs_ready_postgresql". Для второго входного набора данных выберите internal_html_postgreSQL и затем нажмите CREATE RECIPE. Новая страница появляется.
Давайте перейдем к настройке слияния.
На этапе присоединения щелкните строку, которая связывает адрес с запросом. Появится окно. Перейдите на вкладку ТИП СОЕДИНЕНИЯ и выберите Внешнее объединение, чтобы сохранить все строки, которые совпадают между двумя наборами данных, но также строки, которые не совпадают.
Это позволит нам, например, обнаружить потерянные страницы (страницы, просматриваемые ботами, но не связанные с сайтом) или страницы, не сканированные Google, поскольку они связаны с сайтом.
Чтобы ускорить обработку, мы будем фильтровать некоторые столбцы. Для этого перейдите к шагу Выбранные столбцы.
Наиболее интересные данные в файле Screaming Frog находятся в столбцах «Адрес», «Размер», «Word_Count», «Соотношение текста», «Уровень», «Входящие», «Исходящие», «Внешние исходящие», «Время отклика». Вы можете добавить префикс (например, SF_) для удобного чтения в вашем будущем наборе данных.
Нажмите RUN, чтобы начать объединение обоих наборов данных.
Теперь вы готовы к перекрестному анализу журналов / сканирования! Откройте свой новый набор данных.
Страницы-сироты и никогда не сканированные страницы
Ваш набор данных имеет 2 аналогичных столбца: запрос и SF_Address.
Поиграйте с фильтрами, чтобы создать следующие 3 конфигурации:
- пустой запрос / URL в SF_Adress : страницы никогда не сканировались, но ссылались на ваш сайт
- URL в запросе / URL в SF_Address : все в порядке, сканеры видят страницы, которые хорошо связаны с вашим сайтом
- URL в пустом запросе / SF_Address : это страницы-сироты, страницы, которые больше не связаны с вашим сайтом, но с которыми по-прежнему обращаются роботы. Если вы слышали о сканировании бюджета, сокращение этих страниц должно стать частью вашей стратегии SEO.
Список URL-адресов, которые Googlebot никогда не сканировал, но которые связывались с сайтом после сканирования Screaming Frog Список URL для сиротских страниц Списки страниц, просканированных Google и ссылки на сайте. Эти страницы хорошие 😉
Найдите свои собственные корреляции между журналами и сканированием
RDV во вкладке Charts. Идея заключается в том, чтобы проанализировать влияние каждого фактора, собранного с помощью анализа «Кричащая лягушка», на частоту прохождения гусеничного хода.
Выберите счетчик (AVG) на оси Y и проверьте различные комбинации на оси X.
Вот несколько идей:
Традиционное количество сканирований на уровень глубины страницы Поиск корреляции между соотношением текст / html, количеством слов и отрывками из GoogleBot Поиск корреляции между количеством входящих внутренних ссылок и переходов Googlebot
Следующее?
Анализ, который мы сделали до сих пор, является описательным анализом.
В следующей статье мы будем использовать Dataiku DSS для прогнозирования с использованием алгоритмов машинного обучения.
Не стесняйтесь задавать вопросы в комментариях 😉 Я буду обогащать статью в соответствии с вашими отзывами!
Следите за мной в Twitter, чтобы получать информацию об обновлениях статьи:
Спасибо Винсенту Терраси за то, что он познакомил меня с инструментом и Джереми Грез за помощь в создании этого руководства. Я также пользуюсь этой возможностью, чтобы поблагодарить братьев Пейроннет за их приглашение Только из Интернета где я имел возможность представить это решение для анализа журналов.
Какой период учиться?Ico / # comment- /?
Ваш новый набор данных готов?