Co to jest robots.txt?
Plik robots.txt to prosty plik tekstowy umieszczony w katalogu głównym strony internetowej, który służy do komunikacji pomiędzy właścicielem strony a robotami wyszukiwarek (np. Googlebot). Dzięki niemu administrator może określić, które zasoby strony powinny być indeksowane, a które pomijane. Robots.txt nie gwarantuje pełnej ochrony treści – działa raczej jako wskazówka dla crawlerów.
Główne zastosowania robots.txt
- Wykluczanie stron i katalogów – np. stron zaplecza administracyjnego (wp-admin, panel logowania).
- Kontrola nad crawl budgetem – ograniczenie skanowania nieistotnych zasobów, co przyspiesza indeksowanie ważnych stron.
- Ochrona przed dublowaniem treści – np. blokada tagów, parametrów URL czy wersji testowych.
- Wskazanie lokalizacji mapy strony (sitemap.xml).
Jak wygląda przykładowy plik robots.txt?
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.twojadomena.pl/sitemap_index.xml
User-agent: *→ oznacza, że reguła dotyczy wszystkich robotów.Disallow→ blokuje dostęp do wybranych plików/katalogów.Allow→ zezwala na dostęp do konkretnego zasobu.Sitemap→ podaje adres mapy strony XML.
Dlaczego robots.txt jest ważny?
- Efektywne indeksowanie – roboty wyszukiwarek szybciej docierają do istotnych treści.
- Bezpieczeństwo – choć nie chroni treści, może ukrywać wrażliwe sekcje przed przypadkowym zaindeksowaniem.
- SEO – właściwe użycie robots.txt zapobiega marnowaniu crawl budgetu i poprawia widoczność strony.
- Elastyczność – właściciel strony może w każdej chwili zmienić zasady skanowania.
Najczęstsze błędy w robots.txt
- Zablokowanie całej strony (
Disallow: /), co powoduje brak indeksacji. - Blokowanie zasobów CSS/JS, które są potrzebne do prawidłowego renderowania strony.
- Brak aktualizacji pliku po wdrożeniu nowych sekcji serwisu.
Dobre praktyki
- Zawsze testuj robots.txt w Google Search Console (narzędzie do testowania pliku robots).
- Upewnij się, że ważne strony (np. oferta, artykuły) nie są zablokowane.
- Nie traktuj robots.txt jako narzędzia do ukrywania poufnych danych – do tego służą hasła lub nagłówki HTTP.
- Regularnie monitoruj plik po zmianach w strukturze strony.
Powiązane pojęcia
FAQ
Czy brak robots.txt szkodzi stronie?
Nie, Google i inne wyszukiwarki nadal zindeksują stronę. Robots.txt daje jednak większą kontrolę nad tym procesem.
Czy mogę zablokować konkretne pliki (np. PDF)?
Tak, wystarczy użyć reguły Disallow wskazującej ścieżkę do pliku.
Czy robots.txt wpływa na ranking w Google?
Pośrednio – sam plik nie poprawia pozycji, ale dobrze ustawiony pozwala lepiej wykorzystać crawl budget, co może pozytywnie wpłynąć na widoczność strony.