Jak weryfikować obecność botów na stronie i jak odróżnić dobre boty od złych?

Kluczem jest analiza po stronie serwera – logi HTTP, nagłówki zapytań, user-agenty i adresy IP. Narzędzia client-side (jak GA4) tego nie widzą, bo większość botów po prostu nie uruchamia JavaScriptu.

Dodatkowo przydatną praktyką przy weryfikacji tożsamości bota, z której korzystamy m.in. w Agent Monitorze jest rDNS (reverse DNS lookup) – sprawdzasz, czy adres IP faktycznie należy do deklarowanego operatora (np. czy bot podający się za Googlebot faktycznie pochodzi z sieci Google).

Co do odróżniania dobrych botów od złych sprawa nie jest zero-jedynkowa, ale w uproszczeniu można powiedzieć, że dobre boty to te, które działają transparentnie, mają udokumentowane user-agenty i zakresy IP (np. Googlebot, ChatGPT, Bing, Claude).

Złe z kolei, to te, które podszywają się pod zwykłych użytkowników, maskują tożsamość, czy skanują w poszukiwaniu luk.

Warto dodać, że są też boty „neutralne” (np. scrapery danych), które nie są złośliwe, ale też nie wnoszą wartości dla właściciela strony. A z drugiej strony – boty działające transparentnie mogą np. pobierać Twoje treści do szkolenia modeli AI, co może być szkodliwe.

Jak ograniczać ruch botów, które zakrzywiają analitykę sesji?

Filtrowanie w narzędziu analitycznym – GA4 ma wbudowane filtry botów (na podstawie listy IAB), ale to filtruje tylko znane, „grzeczne” boty, które uruchamiają JS, tak samo jak przeglądarka użytkownika. Ruch AI pozostaje niewidoczny – nie dlatego, że go nie ma, ale dlatego, że GA4 go po prostu nie zbiera (boty nie uruchamiają JS).

Blokowanie na poziomie serwera / CDN – Cloudflare pozwala tworzyć reguły blokujące konkretne user-agenty lub zakresy IP. To skuteczne, ale wymaga ostrożności, bo łatwo można zablokować też w ten sposób pożądane boty (np. Googlebot).

Tak czy inaczej, zanim zaczniesz cokolwiek blokować – najpierw zrozum, z czym masz do czynienia. Część ruchu, który „zakrzywia analitykę”, to wartościowe wizyty AI, które po prostu nie powinny być mierzone tymi samymi metrykami co ludzie.

Lepszym podejściem niż blokowanie jest osobna warstwa analityki dla botów i ludzi.

Czy rekomendujesz blokowanie niektórych botów? Jeśli tak – których?

Tak, ale tylko w niektórych skrajnych przypadkach, np.:

  • Boty, które agresywnie scrapują treści bez żadnej wartości zwrotnej,
  • Skanery podatności / security scanners (np. Shodan, Censys),
  • Boty podszywające się pod innych (fałszywe user-agenty, nieznane IP),
  • Masowe crawlery bez zidentyfikowanego operatora.

Przy czym znowu, zanim zablokujesz – najpierw zidentyfikuj.

Blokowanie „w ciemno” na podstawie tego, że coś zakrzywia analitykę, to często działanie na szkodę własnej widoczności. Lepiej mieć osobną warstwę pomiaru dla botów i blokować tylko skrajne przypadki, np. boty które nagle zaczęły skanować cały serwis tysiące razy dziennie.

Masowe blokowanie wszystkiego co nie dało się łatwo zidentyfikować jest trochę jak zamykanie sklepu, bo przychodzi za dużo ludzi, którzy tylko oglądają. Część z nich wróci i kupi – tylko że w świecie AI „kupno” może wyglądać jak rekomendacja w odpowiedzi ChatGPT albo innej aplikacji, o której jeszcze nikt nie słyszał.

Krótka odpowiedź: nie, przynajmniej nie bezpośrednio.

Google Search Console pokazuje kliknięcia z wyników wyszukiwania, ale ruch agentowy tam nie trafia. Widać tylko referrale, czyli moment gdy człowiek faktycznie kliknie link polecony przez AI. A to zaledwie ułamek faktycznego ruchu (w naszych danych stosunek wyświetleń strony w AI do bezpośrednich kliknięć w link do źródła wynosił około 400:1).

GSC pokazuje np. kliknięcia z AI Overviews i AI Mode, ale nie odróżnia ich od zwykłych wyników organicznych. Nie wiesz więc, czy użytkownik kliknął link z AIO, z AI Mode czy z klasycznego SERP-a. A co ważniejsze – i tak widzisz tylko kliknięcia ludzi, nie wizyty samego Gemini, który crawluje strony żeby te odpowiedzi budować.

GA4 z kolei aktywnie filtruje znane boty z raportów – ruch agentowy jest więc nie tylko nie mierzony, ale celowo usuwany.

GA4 filtruje znane boty i celowo wyklucza je z raportów. Więc w założeniu widzisz użytkowników. Problem w tym, że filtr nie jest szczelny. Boty podszywające się pod przeglądarki mogą wpadać do raportów i zawyżać dane.

Z drugiej strony, ruch agentowy (AI odwiedzające stronę w imieniu użytkownika) w ogóle nie jest zbierany, bo boty nie uruchamiają JavaScriptu, na którym GA4 bazuje.

Czyli paradoksalnie: część botów GA4 widzi (i myli je z ludźmi), a część ruchu od prawdziwych użytkowników, tych pośrednich, obsługiwanych przez AI, nie widzi wcale.

Tak, agenci AI (tacy jak OpenAI Operator) używają prawdziwych przeglądarek, więc technicznie mogą wypełniać formularze, klikać przyciski i składać zamówienia w imieniu człowieka.

Klasyczna analityka nie odróżni tego od “ludzkiej” konwersji. To jeszcze niszowy scenariusz, ale kierunek jest oczywisty – bez odpowiednich narzędzi jakość leadów będzie coraz trudniejsza do weryfikacji .

Czy crawlowanie przez LLM-y może wpływać na obciążenie API (np. Maps / Places)?

Tak, ale tylko jeśli API jest wywoływane server-side. Wtedy każda wizyta bota może generować zapytanie i realny koszt. Implementacja client-side jest pod tym kątem bezpieczna, bo większość botów nie uruchamia JavaScriptu.

Zmiana IP to klasyczna technika unikania detekcji. Bot rotuje adresy IP, żeby nie zostać zablokowanym. Dlatego, sama blokada IP to za mało gdy chcemy odciąć jakiegoś bota od strony. Skuteczna identyfikacja botów opiera się na kombinacji wielu sygnałów, m.in.: user-agent, wzorce zachowań, sygnatury requestów i rDNS – nie na samym IP.

Raczej tak, ale nie tylko przez AI Overviews.

Szerszy trend jest taki, że odpowiedzi AI są coraz bardziej kompletne – użytkownik dostaje to, czego szukał, bez potrzeby klikania gdziekolwiek. To jest w interesie Google i OpenAI, bo uwaga użytkownika zostaje w ich ekosystemie.

Efekt: coraz więcej działań, zakupy, porównania, rezerwacje, będzie możliwe bezpośrednio z poziomu wyszukiwarki czy asystenta, bez wejścia na zewnętrzną stronę.

Ruch ludzki będzie więc spadał. Ale ruch agentowy, czyli wizyty AI pobierające treści żeby budować te odpowiedzi, będzie rósł. To dwa różne zjawiska, które warto mierzyć osobno.

Mierzenie widoczności na dłuższą metę raczej nie utrzyma się jako istotny KPI, chyba że te dane zostaną udostępnione przez oficjalne źródła czyli Google, OpenAI i Microsoft. Na co nie zanosi się ze względu na to, że wyniki generowane przez AI są mocno spersonalizowane.

Dwie osoby wpisujące te same frazy/prompty dostaje zupełnie różne odpowiedzi. Nie sposób więc zmierzyć widoczność, bo każdy ma inne wyniki. Każdy ma „swoją widoczność”, zupełnie inną niż reszta.

Jeśli chodzi o ruch to trzeba rozróżnić jego 2 rodzaje:

  • ruch ludzi – zmierzysz go w GA4, ale będzie on stopniowo spadał, bo coraz więcej wykonywać będą za nas asystenci i agenci AI (research, analiza, rekomendacje produktów i usług itp.),
  • ruch botów – on będzie rósł, bo to właśnie boty przejmują część aktywności, które do tej pory robiliśmy jako ludzie. Zmierzysz go w agentmonitor.io, ostatnio Microsoft Clarity ogłosił, że udostępni taką funkcjonalność.

Nie dzieliłbym tego na branże. Kluczowe jest to, żeby nie zaspać i starać się nadążać za tymi zmianami. Wszystko się zmienia, więc Ci którzy najszybciej zaadoptują się do nowych warunków będą w lepszej pozycji od pozostałych.

Ogólnie uważam, że małe biznesy będą miały spore problemy i to kwestia raczej tego, żeby jak najmniej stracić, niż zyskać.

Warto zadbać o klasyczne SEO, bo ono nadal jest istotne, ale część uwagi i budżetu już przekierować na pozycjonowanie w LLM-ach.

W dużym uproszczeniu – jedno i drugie nadal mocno opiera się o treści, dlatego nadal warto je tworzyć. Różnica jest taka, że muszą być jeszcze bardziej wartościowe, trzeba jeszcze głębiej wchodzić w temat.

Połączenie tych 2 opcji. Z jednej strony nie możemy zapomnieć o obecności na frazy, na które wyświetlają się klasyczne wyniki SEO. Z drugiej, warto patrzeć przyszłościowo i dbać o obecność w wynikach AI.

My traktujemy to jako naturalny rozwój SEO. Nie używamy w naszej komunikacji akronimu GEO, bo uważamy, że wprowadza on jedynie niepotrzebne zamieszanie.

Nie mam opinii 🙂 Mogę tylko powiedzieć, że pracujemy na własnych narzędziach, które powstały dlatego, że nie znaleźliśmy na rynku niczego, co odpowiadałoby naszym potrzebom.

Jeśli chodzi o tworzenie i optymalizację treści pod LLM-y to korzystamy z yosa.ai.

Do monitorowania efektów (monitoring ruchu AI) wykorzystujemy agentmonitor.io, ale powoli pojawiają się alternatywy np. Microsoft Clarity wprowadza taką funkcjonalność.

Wiem, że każdy chciałby mieć jakąś magiczną listę “czynników rankingowych”, których spełnienie sprawi, że pojawimy się w AI, ale prawda jest banalnie prosta (a zarazem wcale nie łatwa w realizacji).

Na stronie musi znaleźć się wartościowa, rozbudowana treść, odpowiadająca na intencję zapytania. Im głębiej wchodzimy w szczegóły danego tematu, tym większa szansa na obecność w wynikach LLM. Ogólnikowe, powierzchowne treści nie są brane pod uwagę i należy unikać tworzenia takiego contentu. 

Frazy pytające („jak zrobić”, „co to jest”, „dlaczego” itd.) naturalnie mapują się na intencje użytkowników wpisywanych w AI. Jeśli budujemy treści wokół takich fraz i od razu dajemy konkretną odpowiedź to mamy większą szansę na zacytowanie.

Nie jest to jednak złota zasada, a sama fraza to za mało. AI ominie stronę, która zaczyna się od trzech akapitów wstępu, nawet jeśli nagłówek jest idealny.

Z Agent Monitorem możesz zweryfikować, które strony AI odwiedza u Ciebie najczęściej – i to daje realny sygnał, jakie treści modele uznają w Twojej niszy za wartościowe. Zamiast zgadywać, masz dane.

Częściowo już się tak dzieje.

W klasycznym SEO, frazy ogólne często generują bardzo duży ruch, ale niewielką konwersję. Z kolei frazy precyzyjne, bardziej rozbudowane (long tail) są mniej popularne, ale zazwyczaj notują dużo wyższa konwersję. W przypadku AI tendencja ta będzie się tylko pogłębiać, bo do chatbota wpisujemy zdecydowanie bardziej rozbudowane i precyzyjne polecenia niż do wyszukiwarki.

Słowa-klucze – nie. Struktury – jak najbardziej.

W klasycznym SEO optymalizowaliśmy strony na konkretne frazy. W AI bardziej niż samo słowo kluczowe liczy się format i kontekst.

Szansę na pojawienie się w odpowiedzi AI zwiększyć mogą:

  • Definicje – „X to…”, „X polega na…” – modele chętnie cytują zwięzłe definicje,
  • Listy i wyliczenia – łatwe do wyekstrahowania i wklejenia w odpowiedź,
  • Dane i liczby – konkretne statystyki brzmią autorytatywnie i są chętnie cytowane,
  • Porównania – „X vs Y”, „różnica między X a Y” – bardzo popularne intencje w AI,
  • Struktury „krok po kroku” – asystenci AI szczególnie chętnie sięgają po instrukcje w takiej formie.

Kluczowa różnica vs klasyczne SEO: nie chodzi o gęstość słów kluczowych, czy nawet obecność jakiejś konkretnej struktury, tylko o to, czy fragment tekstu nadaje się do wycięcia i wklejenia jako gotowa odpowiedź. Modele szukają „odpowiedzi”, nie „stron”.

Długość nagłówka czy tytułu tekstu powinna odpowiadać temu, jak człowiek naturalnie zapyta o coś AI.

Ludzie pytają AI całymi zdaniami – nie wpisują „buty zimowe sklep”, tylko „jakie buty zimowe wybrać do miasta”. Dlatego nagłówki-pytania sprawdzają się lepiej niż klasyczne nagłówki słownikowe.

Podstawą, którą dzisiaj większość platform generuje z automatu jest plik robots.txt (określa które boty mają dostęp do których części strony) oraz plik sitemap.xml (pomaga botom efektywnie crawlować stronę).

Poza tym, jeśli jeszcze nie wykorzystujemy, to warto rozważyć Reverse proxy / WAF (Cloudflare, Nginx, Fastly i inne). Takie rozwiązanie daje kontrolę nad ruchem botów: możliwość blokowania konkretnych user-agentów, zakresów IP czy całych kategorii botów.

Jako “coś na przyszłość” wskazałbym jeszcze llms.txt – nowy nieoficjalny standard, plik z uproszczoną wersją treści strony. Brzmi obiecująco, ale w praktyce większość LLM-ów jeszcze go nie respektuje – warto obserwować, ale nie traktować jako priorytet.

Tak. Klasyczna ścieżka „pytanie > Google > kliknięcie w stronę” jest coraz częściej zastępowana przez „pytanie > AI > gotowa odpowiedź”. Użytkownik dostaje to, czego szukał, bez opuszczania ekosystemu asystenta.

Widzę to po sobie, po moim otoczeniu, ale i po danych, które wskazują na rosnące wykorzystanie AI i spadki ruchu organicznego na stronach.

To zmiana fundamentalna – Google przez lata był bramą, przez którą ruch trafiał na strony. LLM-y tę bramę przejmują, ale działają inaczej: zamiast odsyłać użytkownika, często zatrzymują go u siebie.

Dla właścicieli stron oznacza to jedno: optymalizacja pod „bycie źródłem dla AI” staje się równie ważna jak klasyczne SEO. A żeby wiedzieć czy AI w ogóle sięga po twoje treści – trzeba to mierzyć.

Już zmieniło – pozostaje tylko pytanie o skalę i tempo, w jakim zmiana ta będzie się rozpowszechniać.

Dzisiaj coraz więcej użytkowników zaczyna swoje poszukiwania od ChatGPT, Gemini czy Perplexity zamiast od Google. A nawet jak zaczyna w Google, to coraz częściej dostaje odpowiedź generyczną. To zmienia przyzwyczajenia i jako użytkownicy oczekujemy już konkretnych odpowiedzi (wyniki generyczne), a nie wyników w postaci niebieskich linków, przez które się trzeba przekopać.

To co dopiero widzimy to początek. W przyszłości AI będzie nie tylko za nas szukać, ale też wykonywać zadania. Człowiek określi cel, AI znajdzie informacje, porówna opcje i podejmie działanie. Prędzej czy później wyszukiwanie w obecnym rozumieniu po prostu przestanie być potrzebne, a na pewno znacznie straci na znaczeniu.

W USA niektórzy użytkownicy mogą już dokonywać zakupów bezpośrednio w ChatGPT oraz Google. Poniżej screen pokazujący jak to wygląda w praktyce.

____________________

Współzałożyciel Top Online, Yosa.ai i AgentMonitor.io.

Robi nowoczesne SEO, a zakładając agencję miał jeden cel – odczarować branżę, sprawić, aby nie kojarzyła się klientom tylko z negatywnymi doświadczeniami. We współpracy z klientami stawia na skuteczne i sprawdzone działania – zdecydowanie częściej od efektownych, wybiera te efektywne.