7388 2
Обновления Serpstat Читать 12 минут 5 марта 2020

Горячее обновление:
Serpstat запустил собственный ссылочный индекс с новой архитектурой

Горячее обновление Serpstat: как мы запустили собственный ссылочный индекс с новой архитектурой
Алексей Данилин
Алексей Данилин
Lead Product Manager at Serpstat
Заголовок желтушный, но вы-то на него повелись, значит он работает :) Так вот, несмотря на кучу крутых обновлений, которые выходили в Serpstat за последнее время, мы держали в тайне самое главное и самое масштабное — выход нашего собственного ссылочного индекса с новой архитектурой.

Давайте посмотрим, в чем его преимущества, и на пальцах разберем теорию информационного поиска для того, чтобы понять что же мы в итоге сделали.

Индекс обратных ссылок и его преимущества

Индекс обратных ссылок — это огромная и «живая» база обратных ссылок. Теперь модуль беклинков полностью на React и на нашем собственном индексе. Он стал быстрее, точнее, актуальнее, больше, новее. Весь процесс построения собственного индекса занял у нас примерно год, и наконец мы открываем публичный доступ к его результатам.

Благодаря наработкам наших разработчиков теперь мы индексируем ссылки самостоятельно, регулярно обновляем данные, в базе всегда доступны только свежие данные, она чиста от мусора, а метрика Serpstat Domain Rank показывает более точный результат.

На данный момент у нас есть 952 миллиарда ссылок по 168 миллионам доменов. Каждый день Serpstatbot добавляет 2 миллиарда новых ссылок (короче, скоро будет больше триллиона!) и обходит 2,5 миллиона доменов в день.

5 преимуществ нашего индекса:

1
Мы смогли построить индекс обратных ссылок, не разделяя исторические и свежие данные. Обычно апдейты индекса с разделенной архитектурой требуют длительных апдейтов для слияния новых и старых данных. У нас данные в индексе обновляются постоянно и нет необходимости делать глобальные апдейты. Индекс всегда fresh.

Вам не нужно ждать, пока изменения станут доступны в интерфейсе и переключаться между разными индексами, чтобы увидеть актуальную картину по своим сайтам за все время. Данные будут обновляться по мере переобхода нашими роботами всего интернета и храниться в одном индексе.
2
Текущая архитектура позволяет нам гораздо быстрее делать выборки из базы данных. Это означает, что данные в интерфейсе вы будете получать быстрее, чем это было раньше. Также мы ускорили сам интерфейс, что еще добавляет скорости в работе с отчетами.
3
Из-за ограничений, которые существовали в предыдущей архитектуре, мы не могли реализовать много нужных для работы с данными функциональных элементов, вроде фильтров и сортировок. Сейчас большую часть этих ограничений мы обошли и постепенно будем выкатывать этот функционал.
4
Мы умеем определять обратные ссылки с вредоносных сайтов. Пока в интерфейсе вы можете увидеть только количество таких ссылающихся на сайт доменов. Более подробную информацию по ним мы выкатим в последующих релизах.
5
Ссылки с Blogspot, Wordpress, uCoz и других блогоплатформ попадают к нам в базу в течение суток с момента их добавления на сайты. Мы используем отдельный метод для обхода сайтов на таких платформах, что позволяет выделять больше ресурсов на обход остальных сайтов, и показываем ссылающиеся домены и поддомены отдельно.
6
За счет адаптации глубины краулинга под показатели хоста и гибкого выбора точек начала сканирования мы полностью обходим полезные сайты и не влезаем в бесконечное множество дорвеев. Мы начинали построение ссылочного индекса со всех доменов, которые есть в поисковом индексе Google по нашим данным, и сейчас продолжаем расширяться.
7
Serpstat Domain Rank на основании данных из нового индекса будет более точно отображать качество домена.
Как найти до 44% больше ссылающихся доменов? Сравнение индексов обратных ссылок Serpstat и Ahrefs
База Ahrefs на данный момент составляет 1,8 трлн. обратных ссылок (на рынке с 2011), в то время как индекс Serpstat, существующий меньше полугода, охватил уже более 1 трлн. и продолжает наращивать объемы. Только оцените эти темпы — каждый день Serpstatbot добавляет 2 миллиарда новых ссылок и обходит 2,5 миллиона доменов в день.
В качестве примера результатов анализа данных в нашем индексе, которые можно использовать для решения своих задач, делимся выборкой спамных доменов. Мы их определили по большому количеству внешних ссылок на страницу, спамному контенту, ссылкам на вредоносные сайты и спамному анкор-листу. Можете смело загружать этот список в инструмент отклонения ссылок в Google.

Как построить ссылочный индекс?

Теперь поговорим о технической стороне, а именно о том, как можно построить собственный ссылочный индекс. Допустим, у вас есть сайт, который можно представить в виде вот такой схемы:
Горячее обновление Serpstat: как мы запустили собственный ссылочный индекс с новой архитектурой 16261788391566
Стрелки на схеме обозначают, что со страницы есть ссылка на другую страницу. Например, страница «Category 1» ссылается на страницы «Page 1», «Page 2» и главную страницу «Main page». Со страницы «Main page» есть ссылка на страницу «Category 1», потому на схеме стрелка между ними двунаправленная.

Такая схема является наглядным визуальным представлением, но хранить ссылочные связи между страницами в виде визуальной схемы нет смысла. Эту же информацию можно представить в более компактном виде, из которого можно будет схему в любой момент восстановить.

Давайте преобразуем схему в таблицу, где в строках и столбцах укажем все страницы нашего сайта, а на пересечении строки и столбца будем ставить 1, если со страницы в строке есть ссылка на страницу в столбце, и 0, если такой ссылки нет.

Получится вот так:
Проверим получившуюся таблицу на соответствие схеме на примере той же страницы Category 1. По таблице эта страница ссылается на «Main page», «Page 1» и «Page 2». На схеме все так. В итоге мы получили бинарную таблицу сопряженности, описывающую структуру нашего сайта. По такой таблице удобно, например, считать Page rank. Пример расчета для нашей схемы тут.

Предположим, что мы хотим хранить структуру нашего сайта на жестком диске. Преимущество такой таблицы перед визуальным представлением в том, что она занимает гораздо меньше места при хранении. Более того, можно не хранить нули, а хранить только единицы. Это даст дополнительный выигрыш по памяти, потому что пустое место память не занимает :)

В результате наша таблица станет такой:
Для одного сайта все пока выглядит хорошо. Но давайте представим, что есть еще 10 других сайтов по 5 страниц каждый. Страницы могут ссылаться как на другие страницы своего сайта, так и на страницы других сайтов. Итого в нашей миниатюрной модели интернета 50 страниц, а значит 50 столбцов и 50 строк в таблице сопряженности.

Ссылок между страницами одного сайта обычно гораздо больше, чем ссылок со страниц одного сайта на страницы другого. Наша таблица сопряженности в одних местах будет плотно заполнена единицами, но большая ее часть будет пустая. Мы могли бы свернуть таблицу по строкам до вида списков страниц, на которую ссылается данная.

На примере нашей таблицы получилось бы так:

Main page→ Category 1, Category 2, Page 2
Category 1→ Main page, Page 1, Page 2
Category 2→ Main page
Page 1→ Main page, Page 2
Page 2→ Main page, Page 1

Мы бы получили так называемый прямой индекс. Но давайте, глядя на это представление, попробуем ответить на волнующий многих SEO-специалистов вопрос: какие страницы ссылаются на страницу Page 2? Нам придется пройти по всем спискам и посмотреть нет ли среди них страницы Page 2. Это легко сделать, когда таких списков пять. Но в интернете миллиарды страниц и проход по такому количеству списков превращается в очень времязатратную задачу.

Чтобы гораздо быстрее получить ответ на так волнующий нас вопрос, мы можем свернуть таблицу сопряженности по столбцам. В результате получим списки страниц, которые ссылаются на страницу:

Main page ←Category 1, Category 2, Page 1, Page 2
Category 1 ←Main page
Category 2 ←Main page
Page 1 ←Category 1, Page 2
Page 2 ←Main page, Category 1, Page 1

Теперь для поиска ответа нам достаточно найти среди всех списков только нужный нам список для страницы Page 2, и не нужно проходить по содержимому каждого списка. Так мы с вами получили обратный индекс. Именно в такой форме Serpstat хранит данные о ссылках на ваш сайт. Это сильно упрощенная модель, но основные принципы в ней верны.
Расширение функций API-Serpstat:
мы покрыли API модуль анализа обратных ссылок

Что нового в ссылочном индексе Serpstat

Вернемся снова к миллиардам. Если вы захотите добавить в нашу схему новую страницу и поставить на нее ссылки с уже существующих, то это легко будет сделать. Так же легко вы можете создавать страницы на своих сайтах и связывать их ссылками с другим страницами. Теперь умножьте это действие на количество сайтов в интернете и увидите глобальные масштабы всех изменений.

Чтобы поддерживать индекс в актуальном состоянии в такой динамичной среде, пришлось хорошенько разгонять наших ботов, обходящих интернет и строящих индекс. При обходе сайтов наш бот Serpstatbot/1.0 (advanced backlink tracking bot; abuse@serpstatbot.com) соблюдает правила в robots.txt и другие основные правила. Больше подробностей здесь.

Что нужно учесть при анализе ссылочной массы

На объемах в миллиарды страниц не может быть легких задач. К сожалению, мы не можем объединить все данные из двух индексов в один. Это сложная и ресурсозатратная задача с многими неизвестными. Потому мы сразу предупредим вас о некоторых ограничениях, которые будут в новом индексе:
1
Исторические данные у нас есть примерно с начала 2019 года. Более старые данные мы показать не сможем. Новые данные будем постоянно дописывать и накапливать историю.
2
Возможны разбежности в данных по конкретным доменам как большую, так и в меньшую сторону. Сейчас у нас в базе 223 миллиона хостов и 884 миллиарда ссылок и мы работаем над тем, чтобы все стало только в большую :)
3
Некоторые показатели будут недоступны в новом интерфейсы. Мы будем постепенно их выкатывать.
4
API методы для работы со ссылками пока будут обращаться к старому индексу. Это же касается и плагина. Исправим это в ближайших релизах.

Вывод

Релиз нового индекса — большая страница в истории Serpstat. Мы воодушевлены теми возможностями, которые открывает перед нами новая архитектура и ее техническая реализация.

У нас много планов по доработкам как самого индекса, так и интерфейса. Потому у нас большая просьба — дайте обратную связь по нашему новому индексу. Можем лично пообщаться, если у вас есть какие-либо замечания. Это может повлиять на наши приоритеты в разработке и ускорить выпуск того функционала, который вам нужен при анализе ссылок.
Чтобы быть в курсе всех новостей нашего блога подписывайтесь на рассылку Serpstat. У вас есть целых 11 причин, чтобы это сделать ;)
Почему четверть миллиона интернет-маркетологов подписались на рассылку Serpstat?
А также вступайте в чат любителей Серпстатить и подписывайтесь на наш канал в Telegram.

Serpstat — набор инструментов для поискового маркетинга!

Находите ключевые фразы и площадки для обратных ссылок, анализируйте SEO-стратегии конкурентов, ежедневно отслеживайте позиции в выдаче, исправляйте SEO-ошибки и управляйте SEO-командами.

Набор инструментов для экономии времени на выполнение SEO-задач.

7 дней бесплатно

Оцените статью по 5-бальной шкале

5 из 5 на основе 9 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Поделитесь статьей с вашими друзьями

Вы уверены?

Знакомство с Serpstat

Узнайте об основных возможностях сервиса удобным способом!

Отправьте заявку и наш специалист предложит вам варианты обучения: персональную демонстрацию, пробный период или материалы для самостоятельного изучения и повышения экспертизы. Все для комфортного начала работы с Serpstat.

Имя

Email

Телефон

Будем рады вашему комментарию
Я принимаю условия Политики конфиденциальности.

Спасибо, мы сохранили ваши новые настройки рассылок.

Сообщить об ошибке

Отменить
Открыть чат технической поддержки
mail pocket flipboard Messenger telegramm