Rok założenia: 2008Kontakt
Systemy Obsługi Treści, czyli CMS (Content Management System): Joomla!, WordPress, phpBB i inne
Poinformuj znajomych o tym wątku
Poinformuj znajomych na Facebook-u o tym wątku Poinformuj innych ludzi na Wykopie o tym wątku Poinformuj znajomych na Twitter-ze o tym wątku Poinformuj znajomych na Blip-ie o tym wątku Poinformuj znajomych na Buzz-ie o tym wątku Poinformuj znajomych na GG o tym wątku
 
Chcę, żeby gogle nie indeksowały odnośników do stron, czyli np. takiego http://blog.pl/page/3 . Co mam zrobić? Wpisać coś w robots.txt?

Awatar użytkownika
Kamil 'seven' Lubelski
 
Posty: 681
Rejestracja: 31 Mar 2009
Miejscowość: Łódź


Blokowanie poprzez robots.txt

Postprzez Paweł Landzberg
napisane: 15 Lut 2010, o 16:48

  • Poinformuj znajomych na Facebook-u o tym wątku
  • Poinformuj innych ludzi na Wykopie o tym wątku
  • Poinformuj znajomych na Twitter-ze o tym wątku
  • Poinformuj znajomych na Blip-ie o tym wątku
  • Poinformuj znajomych na Buzz-ie o tym wątku
  • Poinformuj znajomych na GG o tym wątku
 
Spróbuj przykładowo dać do robots.txt taki fragment:
Kod: Zaznacz wszystko
User-agent: *
Disallow: /page/3


Możesz też w narzędziach dla webmasterów Google stworzyć plik robots.txt. Wchodzisz do Konfiguracja witryny -> Dostęp dla robotów

Awatar użytkownika
Paweł Landzberg
 
Posty: 2428
Rejestracja: 14 Wrz 2008
Miejscowość: Brzeźno Wielkie

 
Hmm, a coś innego? Bo pewności 100% nie ma, że robot zechce skorzystać z mojego robots.txt :P

Awatar użytkownika
Kamil 'seven' Lubelski
 
Posty: 681
Rejestracja: 31 Mar 2009
Miejscowość: Łódź

 
Nie wiem, jaką ilość linków chcesz zablokować, ale jeśli masz możliwość, to możesz dopisać do odnośników >>rel="nofollow"<<.
Jest to zgodne ze standardami.

http://www.w3schools.com/tags/att_a_rel.asp


Pozdrawiam
lapti

Awatar użytkownika
lapti
 
Posty: 611
Rejestracja: 04 Lis 2009

 
Ale ja znam oczywiście atrybut nofollow, tylko, że w tym przypadku nie jest on raczej przydatny, bo nie chodzi o odnośniki, które są w kodzie stronki.
Chodzi mi o to, żeby żadna strona wpisów /page/ się nie indeksowała.

Awatar użytkownika
Kamil 'seven' Lubelski
 
Posty: 681
Rejestracja: 31 Mar 2009
Miejscowość: Łódź

.htaccess - blokowanie katalogów

Postprzez lapti
napisane: 15 Lut 2010, o 18:57

  • Poinformuj znajomych na Facebook-u o tym wątku
  • Poinformuj innych ludzi na Wykopie o tym wątku
  • Poinformuj znajomych na Twitter-ze o tym wątku
  • Poinformuj znajomych na Blip-ie o tym wątku
  • Poinformuj znajomych na Buzz-ie o tym wątku
  • Poinformuj znajomych na GG o tym wątku
 
Kamil 'seven' Lubelski napisał(a):Chcę, żeby gogle nie indeksowały odnośników do stron, czyli np. takiego http://blog.pl/page/3 .

Kamil 'seven' Lubelski napisał(a):bo nie chodzi o odnośniki
No to ja już nie wiem za bardzo o co chodzi. :niewiem2:


Jeśli chodzi Ci o nieindeksowanie zawartości katalogu /page/to można to zrobić za pomocą .htaccess
http://httpd.apache.org/docs/2.0/mod/co ... #directory
i tam blokujesz google po adresie domeny/IP

domena:
:kijemgrozi: deny from .googlebot.com
:kijemgrozi: deny from .google.com
itd.

IP: http://www.spiders.pl/baza-ip_1.php

Tutaj masz dokładne przykłady
http://wiki.joomla.pl/Jak_u%C5%BCywaj%C ... nego_IP%3F

Znalazłem jeszcze takie coś w necie:
Kod: Zaznacz wszystko
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Googlebot
RewriteRule .* - [F,L]
Ale nie wiem jakie to będzie niosło skutki.
Ja bym to spróbował umieścić w tej definicji <directory>, by jednak całkiem nie obrazić robocika :P

Pozdrawiam
lapti

Awatar użytkownika
lapti
 
Posty: 611
Rejestracja: 04 Lis 2009

 
Ja naprawdę jakoś dziwnie pisze? :D Podałem przykład i opisałem.
Kamil 'seven' Lubelski napisał(a):Ale ja znam oczywiście atrybut nofollow, tylko, że w tym przypadku nie jest on raczej przydatny, bo nie chodzi o odnośniki, które są w kodzie stronki.
Chodzi mi o to, żeby żadna strona wpisów /page/ się nie indeksowała.

Awatar użytkownika
Kamil 'seven' Lubelski
 
Posty: 681
Rejestracja: 31 Mar 2009
Miejscowość: Łódź

 
Kamilu,

Kamil 'seven' Lubelski napisał(a):Hmm, a coś innego? Bo pewności 100% nie ma, że robot zechce skorzystać z mojego robots.txt :P


A o jakiego robota chodzi? Bo jeśli Google, to respektuje zasady robots.txt

Możesz jeszcze umieścić w kodzie stronie, której nie chcesz indeksować znacznik:
Kod: Zaznacz wszystko
<meta name="robots" content="noindex" />


Jeśli strona została już zaindeksowana, to musisz "poprosić" Google o jej usunięcie z indeksu w Google Webmaster Tools. Możesz wnioskować o usunięcie wszystkich stron w katalogu /page serwisu.
Aby wniosek usunięcia został rozpatrzony pozytywnie, to musisz wcześniej zrobić przynajmniej 1 z 3 rzeczy:
1) dopisać regułę Disallow w robots.txt
2) zablokować treści mod_rewrite'm (przekierowanie na błąd 404 lub 410 protokołu HTTP)
3) usunąć treści z serwera (wyłączyć publikację).
Ja już kilka razy wysyłałem taki automatyczny wniosek (przebudowa struktury serwisu), i zawsze skutek był widoczny w ciągu kilku dni (max. do 10):
Webmaster Tools -> Konfiguracja witryny -> Dostęp dla robotów -> Usuń adres URL -> Nowa prośba o usunięcie.

Podsumowując:
1) blokada w robots.txt skutkuje dla Google i Yahoo - te pająki respektują robots.txt - masz rację, że nie ma gwarancji, że inne wyszukiwarki też. Użytkownicy mogą przeglądać te strony.
2) <meta name="robots" content="noindex" /> powinny respektować pająki wszystkich wyszukiwarek
3) blokada treści mod_rewrite'm lub usunięcie z serwera - zablokujesz zarówno roboty, jak i użytkowników, ale będziesz mieć 100% pewności, że nic tego nie zaindeksuje. Oczywiście, jeśli strony już zostały zaindeksowane, to trzeba trochę poczekać (1-3 miesiące) zanim zostaną usunięte.

Może podałeś przykład i opisałeś, ale krótko bardzo - nie napisałeś jaki cel chcesz uzyskać. Poza tym zakwestionowałeś gotowe i skuteczne rozwiązania chłopaków - jeśli Tobie nie odpowiadają, to sam możesz próbować szukać w Sieci..
Może gdybyś napisał tutaj DLACZEGO blokada w robots.txt nie spełnia Twoich oczekiwań, albo PO CO chcesz uzyskać ten efekt, to było by nam łatwiej.

Jeśli chcesz uniknąć duplikowania treści we własnym serwisie, to do każdej strony w nagłówgu XHTML dopisz:
Kod: Zaznacz wszystko
<link rel="canonical" href="http://twoja-domena/tutaj-należy-wpisać-właściwy-adres-strony-do-indeksowania" />

Wtedy jak pająk trafi na daną podstronę /page, to nie doda jej do indeksu, jeśli jest już zaindeksowana http://twoja-domena/tutaj-należy-wpisać-właściwy-adres-strony-do-indeksowania.
Canonicalem można wskażać treści w obrębie tej samej domeny, (a ponoć nawet w obrębie subdomen tej samej domeny głownej. Nie zadziała jednak dla różnych domen, tzn. nie zadziałają canonicale w domenie bbb.pl odwołujące się do aaa.pl

Jeśli o to chodzi, to jest nawet wtyczka dla Wordpressa do dołączania canonical URL.
Przypuszczam, że oprócz URL-i typu "/page/..." masz jeszcze przyjazne adresy? Nie napisałeś tego.

Możesz w plku .htaccess dać wpis:
Kod: Zaznacz wszystko
<Location /page>
  Order Deny,Allow
  Deny from .google.com
  Deny from .googlebot.com
  Allow from all
</Location>


lub

Kod: Zaznacz wszystko
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Googlebot.*$ [OR]
RewriteCond %{REMOTE_HOST} ^.*google(bot)?\.com$
RewriteRule ^/page.*$ - [G,L]


(Tutaj proponuję flagę "G-410 gone") zamiast "F-403 forbidden", zaproponowaną przez Lapti'ego).

Musisz jednak pamiętać, że Google nie lubi kiedy się ogranicza jego pająki. Prawdopodobnie sprawdza też serwisy z nieopublikowanych adresów IP i również z innym HTTP_USER_AGENT niż Googlebot (na pewno) - w ten sposób wykrywa cloaking.
Dlatego (jeśli celem jest odpowiednia indeksacja serwisu, a nie zupełne ukrycie opublikowanych treści) zalecam Tobie (mimo wszystko) zastosowanie robots.txt i narzędzi Google Webmaster Tools.

Awatar użytkownika
Tomasz Fabiszak
 
Posty: 443
Rejestracja: 29 Sie 2009
Miejscowość: Poznań



Wróć do Joomla! i inne CMSy

 


  • Podobne tematy
    Odpowiedzi
    Wyświetleń
    Ostatni post

Kto jest na forum

Użytkownicy przeglądający to forum: Brak zarejestrowanych użytkowników oraz 2 gości