Crawling to proces pobierania stron przez roboty wyszukiwarek. W Google odpowiada za niego między innymi Googlebot, który odwiedza adresy URL, pobiera zasoby, analizuje linki i przekazuje dane do dalszych etapów przetwarzania. Kolejny etap, czyli decyzję o zapisaniu URL-a w bazie Google, omawia osobny poradnik o indeksowaniu strony w Google.
Jak działa Googlebot?
Googlebot to robot Google używany do automatycznego odnajdywania i skanowania witryn. W praktyce zachowuje się jak klient HTTP: wysyła żądanie do serwera, pobiera odpowiedź, sprawdza linki i zasoby, a następnie może wrócić do strony w przyszłości.
Google korzysta z różnych robotów i modułów pobierania. Typowe roboty, takie jak Googlebot, przestrzegają reguł robots.txt podczas automatycznego crawlowania. W logach serwera możesz więc zobaczyć różne user-agenty Google, ale nie każdy oznacza ten sam cel pobrania.
Skąd Google bierze adresy URL?
Google musi najpierw poznać adres, zanim będzie mógł go pobrać. Najczęściej źródłem są linki wewnętrzne, sitemap.xml, linki z innych domen i historia wcześniejszego crawlu.
Linki wewnętrzne
najważniejszy sygnał praktyczny, bo pokazuje relacje i priorytety w obrębie domeny
Sitemap.xml
lista adresów, które chcesz zgłosić Google jako ważne lub zaktualizowane
Linki zewnętrzne
odnośniki z innych domen, które mogą prowadzić Googlebota do nowych URL-i
Historia crawlu
adresy znane wcześniej, do których Google wraca, jeśli uzna to za potrzebne
Jak linkowanie wewnętrzne wpływa na crawling?
Link wewnętrzny jest dla robota drogą i sygnałem ważności. Jeśli do podstrony prowadzą linki z menu, kategorii, hubów tematycznych lub treści, Googlebot ma większą szansę ją odkryć i regularnie odwiedzać.
Najczęstszy problem to strony osierocone, czyli takie, które istnieją w CMS-ie lub sitemapie, ale nie są podlinkowane z innych miejsc serwisu. Mogą być znane Google, ale ich rola w strukturze jest słaba.
Rola sitemap.xml w crawlowaniu
Sitemap.xml pomaga informować Google o adresach, które chcesz zgłosić jako ważne lub zaktualizowane. To drogowskaz, nie gwarancja. Jeśli mapa zawiera URL-e 404, przekierowania, noindex, parametry lub duplikaty, zaczyna utrudniać diagnostykę.
- Dodawaj do sitemap tylko adresy kanoniczne i dostępne.
- Aktualizuj mapę po dodaniu, usunięciu lub przebudowie sekcji.
- Dziel duże sitemapy według typów treści, np. kategorie, produkty, artykuły.
Rola robots.txt
Robots.txt mówi robotom, których ścieżek nie powinny pobierać. To narzędzie do zarządzania crawlingiem, a nie do pewnego usuwania strony z indeksu. Jeśli adres jest zablokowany w robots.txt, Google może nie zobaczyć meta noindex umieszczonego w HTML-u.
Plik robots.txt warto stosować ostrożnie. Jeden zbyt szeroki zapis potrafi zablokować ważną sekcję, zasoby JavaScript albo CSS potrzebne do renderowania strony.
Statusy HTTP a crawling
Status HTTP mówi robotowi, co stało się z żądaniem. Dla SEO ważne jest nie tylko to, czy użytkownik widzi stronę, ale też co serwer odpowiada Googlebotowi.
200
strona dostępna - Google może pobrać zawartość
301 / 308
stałe przekierowanie - zwykle właściwy wybór przy zmianie adresu
302 / 307
tymczasowe przekierowanie - używaj tylko, gdy zmiana jest naprawdę tymczasowa
404 / 410
strona niedostępna - normalne dla usuniętych adresów, problem dla ważnych URL-i
5xx
błąd serwera - jeśli powtarza się często, może ograniczać crawling
Przekierowania a crawling
Przekierowania są normalną częścią utrzymania strony, ale powinny być krótkie i logiczne. Łańcuchy typu A → B → C → D niepotrzebnie zużywają zasoby robota, spowalniają diagnostykę i zwiększają ryzyko błędów.
Przy migracji strony najważniejsze adresy powinny prowadzić możliwie bezpośrednio do nowych odpowiedników. Przekierowanie na stronę główną zamiast właściwej podstrony zwykle nie jest dobrym rozwiązaniem.
Crawl depth i orphan pages
Crawl depth to liczba kliknięć potrzebnych, aby dotrzeć z ważnego miejsca w serwisie do konkretnej podstrony. Im głębiej znajduje się ważny URL, tym trudniej robotowi i użytkownikowi uznać go za priorytetowy.
Orphan pages są jeszcze większym problemem: nie mają linków wewnętrznych. Mogą pojawiać się w sitemapie lub raportach, ale nie uczestniczą w normalnym przepływie autorytetu i kontekstu.
Crawl budget - kiedy ma znaczenie?
Crawl budget to uproszczone określenie zasobów, które Google może przeznaczyć na crawling witryny. W małych serwisach zwykle nie jest głównym problemem. Znaczenie rośnie w dużych sklepach, portalach, serwisach newsowych i witrynach z wieloma parametrami URL.
Jeśli sklep tworzy tysiące adresów z filtrów, sortowania i parametrów, Googlebot może spędzać czas na URL-ach, które nie powinny być priorytetem. Wtedy optymalizacja crawl budgetu staje się praktycznym zadaniem, a nie akademickim hasłem.
Jak sprawdzić crawling w Google Search Console?
Google Search Console pokazuje między innymi statystyki indeksowania, raport stron, inspekcję URL i informacje o powodach niezaindeksowania. To dobry punkt startu, bo pokazuje perspektywę Google, a nie tylko narzędzia zewnętrznego.
- Sprawdź, czy ważne URL-e są znane Google.
- Porównaj strony przesłane w sitemapie ze stronami zaindeksowanymi.
- Użyj inspekcji URL, aby zobaczyć ostatni crawl i wybraną kanoniczną wersję.
- Obserwuj błędy serwera, wykluczenia i nietypowe skoki aktywności.
Jak analizować crawling w logach serwera?
Logi serwera pokazują realne żądania robotów: datę, adres URL, user-agent, status HTTP i czas odpowiedzi. To najbliższe źródło prawdy o tym, co Googlebot faktycznie pobiera.
Analiza logów pomaga odpowiedzieć na pytania, których nie widać w samym crawlerze SEO: czy Googlebot odwiedza ważne kategorie, czy marnuje czas na parametry, jak często trafia na 404 i czy serwer odpowiada stabilnie.
Najczęstsze błędy crawlingu
Blokada w robots.txtważna sekcja sklepu lub bloga jest przypadkiem zablokowana dla Googlebota
Sitemap jako śmietnik URL-imapa zawiera przekierowania, 404, adresy z parametrami albo strony noindex
Zbyt głęboka strukturaważny adres wymaga wielu kliknięć od strony głównej lub kategorii
Orphan pagespodstrony istnieją, ale nie prowadzi do nich żaden link wewnętrzny
Łańcuchy przekierowańrobot musi przejść przez kilka skoków, zanim trafi na finalny adres
Nadmierna nawigacja fasetowafiltry tworzą tysiące kombinacji o niskiej wartości
Checklista optymalizacji crawlability
- Najważniejsze strony są podlinkowane z menu, treści, kategorii lub hubów tematycznych.
- Sitemap.xml zawiera tylko adresy kanoniczne, dostępne i warte indeksowania.
- Robots.txt nie blokuje ważnych sekcji, CSS, JS ani zasobów potrzebnych do renderowania.
- Ważne URL-e zwracają status 200, a zmienione adresy mają krótkie i logiczne przekierowania.
- Strony istotne dla SEO nie są ukryte na bardzo głębokim poziomie struktury.
- Orphan pages są albo podlinkowane, albo usunięte z planu SEO.
- Filtry, sortowania i parametry nie generują masowo słabych adresów do crawlowania.
- W Search Console sprawdzasz statystyki indeksowania i raport stron niezaindeksowanych.
- Przy dużym serwisie analizujesz logi Googlebota, nie tylko wyniki crawlera SEO.
Powiązane deep dive w klastrze
Crawling dotyka kilku technicznych tematów. Poniższe adresy traktuję jako docelowe miejsca dla kolejnych artykułów, a indeksowanie ma już osobny poradnik diagnostyczny.
Robots.txt
Docelowy URL: /robots-txt/
Sitemap.xml
Docelowy URL: /sitemap-xml/
Linkowanie wewnętrzne
Docelowy URL: /linkowanie-wewnetrzne/
Crawl budget
Docelowy URL: /crawl-budget/
Log analysis SEO
Docelowy URL: /log-analysis-seo/
Indeksowanie strony w Google
Nie wiesz, czy Googlebot dociera do ważnych podstron?
W audycie sprawdzamy crawl, indeksowanie, robots.txt, sitemapę, statusy HTTP, przekierowania, strukturę i logi, jeśli są dostępne. Szerszą mapę obszaru znajdziesz w pillarze o SEO technicznym.
FAQ
01Czy crawling i indeksowanie to to samo?
Nie. Crawling oznacza pobieranie strony przez robota. Indeksowanie oznacza analizę i zapisanie informacji w indeksie Google. URL może zostać pobrany, ale nie zostać zaindeksowany.
02Czy robots.txt usuwa stronę z Google?
Nie. Robots.txt kontroluje crawling. Do blokowania indeksowania służy noindex, ale Google musi móc pobrać stronę, żeby tę dyrektywę zobaczyć.
03Czy sitemap.xml gwarantuje crawling?
Nie. Sitemap pomaga Google odkryć lub ponownie odwiedzić adresy, ale nie gwarantuje pobrania, indeksowania ani pozycji.
04Kiedy crawl budget ma znaczenie?
Najczęściej przy dużych serwisach, sklepach z filtrami, portalach, serwisach newsowych i stronach z ogromną liczbą adresów. Przy małych stronach problemem częściej jest linkowanie, jakość lub blokady techniczne.
05Jak sprawdzić, czy Googlebot odwiedza stronę?
W Google Search Console możesz sprawdzić statystyki indeksowania, inspekcję URL i raporty indeksowania. Najdokładniejszy obraz daje analiza logów serwera, bo pokazuje realne żądania Googlebota.