Plik robots.txt – do czego służy?

Plik robots.txt – do czego służy

Plik robots.txt – do czego służy?

Czy wiesz, że plik robots.txt stanowi obecnie jedno z kluczowych rozwiązań jakie wykorzystywane są przez webmasterów oraz właścicieli witryn w celu zarządzania ruchem robotów wyszukiwarek w swojej stronie internetowej. Robots.txt to niewielki plik tekstowy który zawiera wskazówki oraz instrukcje przedstawiające robotom wyszukiwarek, to jakie strony internetowe powinny zostać zindeksowane a jakie nie. Na czym dokładnie polega działanie pliku robots.txt? Odpowiedzi na te oraz inne pytania znajdziesz w poniższym artykule!

Czym jest robots.txt?

Plik robots.txt to jeden z mechanizmów Robots Exclusion Protocol, który został zaprojektowany w celu informowania automatów tzw. botów o tym, czego nie powinny robić na stronie internetowej.

Jest on używany przez roboty indeksujące, które wykorzystywane są przez wyszukiwarki internetowe podczas procesu indeksowania. Jest to pierwszy z plików poszukiwanych przez roboty wyszukiwarek w celu sprawdzenia, czy właściciel strony internetowej określił reguły indeksowania własnej strony – np. czy wszystkie adresy URL mają zostać zaindeksowane.

Co więcej? Plik robots.txt oprócz przekazywania wskazówek i instrukcji w kwestii indeksowania ma również zastosowanie, które zapobiega przeciążeniu witryn żądaniami. Należy pamiętać, iż nie powinien być on używany do ukrywania całej strony internetowej przed wyszukiwarkami, ale tylko do ustalenia norm i zasad indeksowania zawartości stron. Aby móc całkowicie ukryć daną stronę internetową przed Google rekomendowane jest wykorzystanie dyrektyw „noindex” bądź zabezpieczenie dostępu do strony hasłem

Jak działa plik robots.txt?

Należy zaznaczyć, iż wyświetlanie adresów witryn w wynikach wyszukiwania m.in. Google jest rezultatem pracy tzw. robotów indeksujących, które bez przerwy kontrolują całą sieć internetową w poszukiwaniu nowych treści do indeksowania.

Jeżeli chodzi o pracę robotów, polega ona na podążaniu za linkami, na które natrafiają oraz zapisywaniu całej zawartości stron internetowych do swoich baz danych z wynikami wyszukiwania. Co istotne? W przypadku, jeśli roboty natrafią na plik robots.txt, w którym będą określone wskazówki i instrukcje, jak i co można zaindeksować, wówczas indeksowane są wyłącznie wskazane treści z pominięciem tych, które wpisane są do pliku robots.txt.

Roboty indeksujące podczas odwiedzin witryn precyzyjnie i szczegółowo analizują strukturę, budowę oraz opublikowane na stronie treści. Następnie w oparciu o nieznane nikomu algorytmy oceniają oraz zamieszczają daną podstronę na właściwej pozycji w wynikach wyszukiwania. Warto przy tym zaznaczyć, iż plik robots.txt posiada wyłącznie charakter informacyjny i w żaden sposób nie wymusza blokady przed indeksowaniem. Boty indeksujące, które należą do mających uznanie wyszukiwarek takich jak np. Google przestrzegają wszystkich zasad i reguł, jakie umieszczone są w pliku robots.txt, aczkolwiek niektóre z robotów mogą je ignorować.

Przykłady dyrektyw dla pliku robots.txt

Wszystkie roboty indeksujące mają pozwolenie na indeksowanie całej strony internetowej

User-agent: *
Allow: /

Robot indeksujący Google tzw. Googlebot nie powinien indeksować całej strony

User-agent: Googlebot
Disallow: /

Wszystkie roboty indeksujące nie będą indeksować katalogów: /images oraz /private (wraz z podkatalogami)

User-agent: *
Disallow: /images/
Disallow: /private/

Robot indeksujący Google (Googlebot) nie będzie indeksował pliku index.php w katalogu: /strona_www

User-agent: Googlebot
Disallow: /strona_www/ index.php

Znaczenie:

User-agent: wskazuje robota, którego dotyczą reguły
Allow: ścieżka adresu URL, która może być indeksowana
Disallow: ścieżka adresu URL, której nie można indeksować
Sitemap: pełny adres URL mapy strony

Problemy z obsługą reguł pliku robots.txt przez niektóre wyszukiwarki

Należy pamiętać, że informacje zamieszczone w pliku robots.txt są wyłącznie wskazówkami, które podpowiadają robotom indeksującym, w jaki sposób mają się zachowywać. Zatem, to czy crawler dostosuje się do nich i będzie je przestrzegał, zależy tylko i wyłącznie od niego. Dlatego, jeżeli chcesz mieć 100% pewności, iż poszczególne informacje będą ukryte przed robotami indeksującymi, powinieneś wykorzystać inne metody blokowania dostępu m.in. poprzez ustawienie silnego hasła.

Kontrola danych udostępnianych Google

Czy wiesz, że Google obsługuje wiele metod, które pozwalają właścicielom stron internetowych monitorować to co pojawia się w wynikach wyszukiwania Google? Zdecydowana większość internautów skupia uwagę na indeksowaniu witryn, jednak ważne jest również, aby uzyskać odwrotny rezultat, czyli zapobiec pojawianiu się treści w wyszukiwarce. Dlaczego? Odpowiedź na to pytanie jest prosta – niektóre z treści warto czasem z różnych powodów ukryć przed Google:

  • w celu ograniczenia ilości danych
  • w celu ukrycia treści o niższej wartości dla odbiorców
  • bądź w celu wskazania Google ważnych treści

Sposoby blokowania treści

Zastanawiasz się jak blokować treści? Główne a zarazem podstawowe sposoby blokowania treści, aby nie pojawiały się w wyszukiwarce Google to:

Usuwanie treści ze swojej strony internetowej

Dotyczy wszystkich rodzajów treści. Jest to jeden z najpewniejszych sposobów zablokowania wyświetlania treści w Google oraz w innych miejscach w sieci

Zabezpieczanie plików silnym hasłem

Dotyczy wszystkich rodzajów treści. Jeżeli posiadasz na swojej stronie internetowej treści poufne bądź prywatne pamiętaj, aby zabezpieczyć je silnym hasłem. Dzięki takiemu rozwiązaniu dostęp do nich będą mieć wyłącznie autoryzowani użytkownicy. Ponadto, pozwoli to także uniknąć wyświetlania danych treści w Google

Reguła noindex

Dotyczy wszystkich typów treści. Noindex to reguła, która informuje Google, że Twoje treści nie mają być indeksowane i nie mają pojawiać się w wynikach wyszukiwania Google. Choć do tego typu treści w dalszym ciągu mogą prowadzić linki oraz można je odwiedzać z innych stron internetowych, jednak nie pojawiają się one w wynikach wyszukiwania

Zapobieganie indeksowaniu za pomocą pliku robots.txt –

Dotyczy obrazów i filmów. Google indeksuje wyłącznie obrazy i firmy, które Googlebot może skanować. W celu uniemożliwienia Googlebotowi dostępu do plików multimedialnych, zastosuj blokowanie ich za pomocą reguł w pliku robots.txt

Rezygnacja z określonych usług Google

Dotyczy stron internetowych. Pamiętaj, że możesz wskazać Google, iż treści z Twojej strony internetowej nie należy uwzględniać w konkretnych usługach Google np. w zakupach Google, wyszukiwarce restauracji czy hoteli Google

Indeksacja stron niedozwolonych w pliku robots.txt

Należy pamiętać, że niektóre witryny mogą być w dalszym ciągu indeksowane w pliku robots.txt, nawet pomimo tego, iż są niedozwolone. Warunek jaki muszą spełnić jest następujący – muszą prowadzić do niej linki z innych serwisów.

O czym należy pamiętać podczas korzystania z pliku robots.txt?

  • roboty, które są odpowiedzialne za skanowanie w poszukiwaniu luk w zabezpieczeniach stron internetowych mogą ignorować zapisy z pliku. Bardzo podobnie zachowują się automaty, które zbierają e-maile oraz inne dane teleadresowe
  • warto pamiętać, że zawartość pliku jest publicznie dostępna a plik robots.txt nie jest sposobem zabezpieczania dostępu do zasobów
  • niektóre z robotów mogą zbyt szybko pobierać witryny w celu ich sprawdzenia, co może przełożyć się na znaczące obciążenie serwera. W tej sytuacji zalecane jest zablokowanie user-agent takich robotów bądź ich adresów IP
  • należy również pamiętać, że wyszukiwarka Google nie będzie pobierać ani indeksować zawartości stron internetowych, które zostały zablokowane w pliku robots.txt. Może jednak indeksować te adresy URL, jeżeli zostaną znalezione na innych stronach internetowych w sieci

Reasumując, plik robots.txt stanowi istotny element strategii SXO, gdyż umożliwia kontrolowanie sposobów, w jakie roboty wyszukiwarek przeglądają stronę internetową. Ponadto, może to również wpływać na jej widoczność w wynikach wyszukiwania Google. Jeżeli zależy Ci na weryfikacji poprawności wdrożenia pliku robots.txt – skorzystaj z kompleksowych usług COOLONE. Wybór naszej oferty to gwarancja i pewność w kwestii wykorzystania potencjału sprzedażowego Twojej strony!

Darmowa konsultacja