Robot txt disallow, allow i user agent

seo i plik robots txt

W pliku robot txt możesz zamieszczać rozmaite dyrektywy. Niemniej w zdecydowanej większości są to ich dwa rodzaje:

  • robots txt disallow – kod informujący o nie podążaniu za daną witryną. Wpis zawiera wspomnianą fraz i adres podstrony
  • robots txt allow – zapis oznacza zgodę na wejście na daną podstronę. Wpis zawiera wspomnianą frazę i adres podstrony. Należy przy tym zaznaczyć, że komenda zezwalająca na wejście jest domyślna, przez co dyrektywy allow w zasadzie nie trzeba używać.

Powyższe komendy, podobnie jak wszystkie pozostałe, mogą przyjąć charakter ogólny. Niemniej przeważnie przypisuje się je określonym botom. Tym samym po komendzie User-agent należy zapisać nazwę bota. Po wejściu na stronę i odnalezieniu robota txt, robotics Google rozpoznają skierowane do siebie dyrektywy, po czym zwykle podporządkowują im się. Przy pozycjonowaniu strony wiedza na ten pliku robot txt jest z zakresu SEO wiedzy podstawowej, potrzebnej, do zrozumieć działania robotów google. Podsumowując, grupę dyrektyw tworzą zwykle: User-agent, robot txt disallow i robot txt allow, ewentualnie komendy dodatkowe, których wykorzystywanie jest już jednak zdecydowanie rzadsze. 

Dobrze przygotowany robot txt for WordPress i innych CMS

Pliki robots.txt są przygotowywane głównie pod robotics Google. Obecnie Google zajmuje niemal cały rynek wyszukiwarek w Polsce, deklasując rywali. Dlatego też robot txt for WordPress, jak i w przypadku każdego innego CMS, powinien być przygotowany z myślą o specyfice działania robota Google. Sprawdzającego zaindeksowane strony internetowe, aby  przeszedł on przez witrynę bez trudu i docenił ją, odwdzięczając się wysokimi pozycjami w wynikach wyszukiwań. Pozycjonowanie strony wordpress bez włączonej indexacji jest niemożliwe, to jest podstawowa zasada, którą trzeba znać. Warto mieć świadomość najważniejszych zasad dotyczących charakterystyki samego pliku, jak również miejsca jego umieszczenia.

Najważniejsze kwestie robot txt for WordPress, to:

  • robots.txt to plik tekstowy, który powinien być zakodowany w UTF-8
  • istotna jest nazwa pliku, która zawsze powinna wyglądać następująco: robots.txt
  • w pliku może się znaleźć dowolna liczba grup dyrektyw, jednak jedna to absolutne minimum
  • plik musi być unikalny – w domenie nie może znaleźć się więcej plików robots.txt
  • plik należy umieścić w folderze głównym domeny.

Warto zauważyć, że chcąc wprowadzać rozwiązania typu robot txt no index, czy też aby zamieścić nowe dyrektywy robots txt disallow, należy samodzielnie modyfikować plik. Niemniej wiele CMS-ów oferuje automatyczne generowanie podstawowego pliku robots.txt. Przykładowo, użytkownik nie musi tworzyć robot txt for WordPress, ponieważ jest on domyślnie obecny w folderze głównym domeny. Jednak w przypadku wielu stron, zwłaszcza rozbudowanych, warto przyjrzeć się jego zawartości i wprowadzić odpowiednie modyfikacje.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *