SEO techniczne / crawling19 min czytania

Crawling w SEO - jak Google odkrywa i skanuje strony?

Crawling to etap, na którym Googlebot pobiera adresy URL i ich zasoby. Jeśli robot nie może dotrzeć do ważnej strony albo traci czas na tysiące słabych URL-i, indeksowanie i ranking zaczynają się na słabszych fundamentach.

Infografika o crawlowaniu w SEO
Definicja w skrócie

Crawling to proces pobierania stron przez roboty wyszukiwarek. W Google odpowiada za niego między innymi Googlebot, który odwiedza adresy URL, pobiera zasoby, analizuje linki i przekazuje dane do dalszych etapów przetwarzania. Kolejny etap, czyli decyzję o zapisaniu URL-a w bazie Google, omawia osobny poradnik o indeksowaniu strony w Google.

Jak działa Googlebot?

Googlebot to robot Google używany do automatycznego odnajdywania i skanowania witryn. W praktyce zachowuje się jak klient HTTP: wysyła żądanie do serwera, pobiera odpowiedź, sprawdza linki i zasoby, a następnie może wrócić do strony w przyszłości.

Google korzysta z różnych robotów i modułów pobierania. Typowe roboty, takie jak Googlebot, przestrzegają reguł robots.txt podczas automatycznego crawlowania. W logach serwera możesz więc zobaczyć różne user-agenty Google, ale nie każdy oznacza ten sam cel pobrania.

Skąd Google bierze adresy URL?

Google musi najpierw poznać adres, zanim będzie mógł go pobrać. Najczęściej źródłem są linki wewnętrzne, sitemap.xml, linki z innych domen i historia wcześniejszego crawlu.

Linki wewnętrzne

najważniejszy sygnał praktyczny, bo pokazuje relacje i priorytety w obrębie domeny

Sitemap.xml

lista adresów, które chcesz zgłosić Google jako ważne lub zaktualizowane

Linki zewnętrzne

odnośniki z innych domen, które mogą prowadzić Googlebota do nowych URL-i

Historia crawlu

adresy znane wcześniej, do których Google wraca, jeśli uzna to za potrzebne

Jak linkowanie wewnętrzne wpływa na crawling?

Link wewnętrzny jest dla robota drogą i sygnałem ważności. Jeśli do podstrony prowadzą linki z menu, kategorii, hubów tematycznych lub treści, Googlebot ma większą szansę ją odkryć i regularnie odwiedzać.

Najczęstszy problem to strony osierocone, czyli takie, które istnieją w CMS-ie lub sitemapie, ale nie są podlinkowane z innych miejsc serwisu. Mogą być znane Google, ale ich rola w strukturze jest słaba.

Rola sitemap.xml w crawlowaniu

Sitemap.xml pomaga informować Google o adresach, które chcesz zgłosić jako ważne lub zaktualizowane. To drogowskaz, nie gwarancja. Jeśli mapa zawiera URL-e 404, przekierowania, noindex, parametry lub duplikaty, zaczyna utrudniać diagnostykę.

  • Dodawaj do sitemap tylko adresy kanoniczne i dostępne.
  • Aktualizuj mapę po dodaniu, usunięciu lub przebudowie sekcji.
  • Dziel duże sitemapy według typów treści, np. kategorie, produkty, artykuły.

Rola robots.txt

Robots.txt mówi robotom, których ścieżek nie powinny pobierać. To narzędzie do zarządzania crawlingiem, a nie do pewnego usuwania strony z indeksu. Jeśli adres jest zablokowany w robots.txt, Google może nie zobaczyć meta noindex umieszczonego w HTML-u.

Plik robots.txt warto stosować ostrożnie. Jeden zbyt szeroki zapis potrafi zablokować ważną sekcję, zasoby JavaScript albo CSS potrzebne do renderowania strony.

Statusy HTTP a crawling

Status HTTP mówi robotowi, co stało się z żądaniem. Dla SEO ważne jest nie tylko to, czy użytkownik widzi stronę, ale też co serwer odpowiada Googlebotowi.

200

strona dostępna - Google może pobrać zawartość

301 / 308

stałe przekierowanie - zwykle właściwy wybór przy zmianie adresu

302 / 307

tymczasowe przekierowanie - używaj tylko, gdy zmiana jest naprawdę tymczasowa

404 / 410

strona niedostępna - normalne dla usuniętych adresów, problem dla ważnych URL-i

5xx

błąd serwera - jeśli powtarza się często, może ograniczać crawling

Przekierowania a crawling

Przekierowania są normalną częścią utrzymania strony, ale powinny być krótkie i logiczne. Łańcuchy typu A → B → C → D niepotrzebnie zużywają zasoby robota, spowalniają diagnostykę i zwiększają ryzyko błędów.

Przy migracji strony najważniejsze adresy powinny prowadzić możliwie bezpośrednio do nowych odpowiedników. Przekierowanie na stronę główną zamiast właściwej podstrony zwykle nie jest dobrym rozwiązaniem.

Crawl depth i orphan pages

Crawl depth to liczba kliknięć potrzebnych, aby dotrzeć z ważnego miejsca w serwisie do konkretnej podstrony. Im głębiej znajduje się ważny URL, tym trudniej robotowi i użytkownikowi uznać go za priorytetowy.

Orphan pages są jeszcze większym problemem: nie mają linków wewnętrznych. Mogą pojawiać się w sitemapie lub raportach, ale nie uczestniczą w normalnym przepływie autorytetu i kontekstu.

Crawl budget - kiedy ma znaczenie?

Crawl budget to uproszczone określenie zasobów, które Google może przeznaczyć na crawling witryny. W małych serwisach zwykle nie jest głównym problemem. Znaczenie rośnie w dużych sklepach, portalach, serwisach newsowych i witrynach z wieloma parametrami URL.

Jeśli sklep tworzy tysiące adresów z filtrów, sortowania i parametrów, Googlebot może spędzać czas na URL-ach, które nie powinny być priorytetem. Wtedy optymalizacja crawl budgetu staje się praktycznym zadaniem, a nie akademickim hasłem.

Jak sprawdzić crawling w Google Search Console?

Google Search Console pokazuje między innymi statystyki indeksowania, raport stron, inspekcję URL i informacje o powodach niezaindeksowania. To dobry punkt startu, bo pokazuje perspektywę Google, a nie tylko narzędzia zewnętrznego.

  • Sprawdź, czy ważne URL-e są znane Google.
  • Porównaj strony przesłane w sitemapie ze stronami zaindeksowanymi.
  • Użyj inspekcji URL, aby zobaczyć ostatni crawl i wybraną kanoniczną wersję.
  • Obserwuj błędy serwera, wykluczenia i nietypowe skoki aktywności.

Jak analizować crawling w logach serwera?

Logi serwera pokazują realne żądania robotów: datę, adres URL, user-agent, status HTTP i czas odpowiedzi. To najbliższe źródło prawdy o tym, co Googlebot faktycznie pobiera.

Analiza logów pomaga odpowiedzieć na pytania, których nie widać w samym crawlerze SEO: czy Googlebot odwiedza ważne kategorie, czy marnuje czas na parametry, jak często trafia na 404 i czy serwer odpowiada stabilnie.

Najczęstsze błędy crawlingu

01

Blokada w robots.txtważna sekcja sklepu lub bloga jest przypadkiem zablokowana dla Googlebota

02

Sitemap jako śmietnik URL-imapa zawiera przekierowania, 404, adresy z parametrami albo strony noindex

03

Zbyt głęboka strukturaważny adres wymaga wielu kliknięć od strony głównej lub kategorii

04

Orphan pagespodstrony istnieją, ale nie prowadzi do nich żaden link wewnętrzny

05

Łańcuchy przekierowańrobot musi przejść przez kilka skoków, zanim trafi na finalny adres

06

Nadmierna nawigacja fasetowafiltry tworzą tysiące kombinacji o niskiej wartości

Checklista optymalizacji crawlability

  • Najważniejsze strony są podlinkowane z menu, treści, kategorii lub hubów tematycznych.
  • Sitemap.xml zawiera tylko adresy kanoniczne, dostępne i warte indeksowania.
  • Robots.txt nie blokuje ważnych sekcji, CSS, JS ani zasobów potrzebnych do renderowania.
  • Ważne URL-e zwracają status 200, a zmienione adresy mają krótkie i logiczne przekierowania.
  • Strony istotne dla SEO nie są ukryte na bardzo głębokim poziomie struktury.
  • Orphan pages są albo podlinkowane, albo usunięte z planu SEO.
  • Filtry, sortowania i parametry nie generują masowo słabych adresów do crawlowania.
  • W Search Console sprawdzasz statystyki indeksowania i raport stron niezaindeksowanych.
  • Przy dużym serwisie analizujesz logi Googlebota, nie tylko wyniki crawlera SEO.

Powiązane deep dive w klastrze

Crawling dotyka kilku technicznych tematów. Poniższe adresy traktuję jako docelowe miejsca dla kolejnych artykułów, a indeksowanie ma już osobny poradnik diagnostyczny.

Robots.txt

Docelowy URL: /robots-txt/

Sitemap.xml

Docelowy URL: /sitemap-xml/

Linkowanie wewnętrzne

Docelowy URL: /linkowanie-wewnetrzne/

Crawl budget

Docelowy URL: /crawl-budget/

Log analysis SEO

Docelowy URL: /log-analysis-seo/

Indeksowanie strony w Google

Indeksowanie strony w Google

Audyt techniczny SEO

Nie wiesz, czy Googlebot dociera do ważnych podstron?

W audycie sprawdzamy crawl, indeksowanie, robots.txt, sitemapę, statusy HTTP, przekierowania, strukturę i logi, jeśli są dostępne. Szerszą mapę obszaru znajdziesz w pillarze o SEO technicznym.

Audyt SEO strony Jak działa Google?

FAQ

01Czy crawling i indeksowanie to to samo?

Nie. Crawling oznacza pobieranie strony przez robota. Indeksowanie oznacza analizę i zapisanie informacji w indeksie Google. URL może zostać pobrany, ale nie zostać zaindeksowany.

02Czy robots.txt usuwa stronę z Google?

Nie. Robots.txt kontroluje crawling. Do blokowania indeksowania służy noindex, ale Google musi móc pobrać stronę, żeby tę dyrektywę zobaczyć.

03Czy sitemap.xml gwarantuje crawling?

Nie. Sitemap pomaga Google odkryć lub ponownie odwiedzić adresy, ale nie gwarantuje pobrania, indeksowania ani pozycji.

04Kiedy crawl budget ma znaczenie?

Najczęściej przy dużych serwisach, sklepach z filtrami, portalach, serwisach newsowych i stronach z ogromną liczbą adresów. Przy małych stronach problemem częściej jest linkowanie, jakość lub blokady techniczne.

05Jak sprawdzić, czy Googlebot odwiedza stronę?

W Google Search Console możesz sprawdzić statystyki indeksowania, inspekcję URL i raporty indeksowania. Najdokładniejszy obraz daje analiza logów serwera, bo pokazuje realne żądania Googlebota.

Źródła i dalsza lektura