Rok założenia: 2008Kontakt
co nowego na blogu Krzywego ebiznesy.pl: Adresy URL na blogu: jak przygotować optymalną strukturę
Jeśli chodzi Ci o nieindeksowanie zawartości katalogu /page/to można to zrobić za pomocą .htaccess
http://httpd.apache.org/docs/2.0/mod/co ... #directory
i tam blokujesz google po adresie domeny/IP
domena:
deny from .googlebot.com
deny from .google.com
itd.
IP: http://www.spiders.pl/baza-ip_1.php
Tutaj masz dokładne przykłady
http://wiki.joomla.pl/Jak_u%C5%BCywaj%C ... nego_IP%3F
Znalazłem jeszcze takie coś w necie:
Ja bym to spróbował umieścić w tej definicji <directory>, by jednak całkiem nie obrazić robocika
Pozdrawiam
lapti
8 posty(ów)
• Strona 1 z 1
Chcę, żeby gogle nie indeksowały odnośników do stron, czyli np. takiego http://blog.pl/page/3 . Co mam zrobić? Wpisać coś w robots.txt?
-

Kamil 'seven' Lubelski - Posty: 681
- Rejestracja: 31 Mar 2009
- Miejscowość: Łódź
Spróbuj przykładowo dać do robots.txt taki fragment:
Możesz też w narzędziach dla webmasterów Google stworzyć plik robots.txt. Wchodzisz do Konfiguracja witryny -> Dostęp dla robotów
- Kod: Zaznacz wszystko
User-agent: *
Disallow: /page/3
Możesz też w narzędziach dla webmasterów Google stworzyć plik robots.txt. Wchodzisz do Konfiguracja witryny -> Dostęp dla robotów
-

Paweł Landzberg - Posty: 2428
- Rejestracja: 14 Wrz 2008
- Miejscowość: Brzeźno Wielkie
Hmm, a coś innego? Bo pewności 100% nie ma, że robot zechce skorzystać z mojego robots.txt 
-

Kamil 'seven' Lubelski - Posty: 681
- Rejestracja: 31 Mar 2009
- Miejscowość: Łódź
Nie wiem, jaką ilość linków chcesz zablokować, ale jeśli masz możliwość, to możesz dopisać do odnośników >>rel="nofollow"<<.
Jest to zgodne ze standardami.
http://www.w3schools.com/tags/att_a_rel.asp
Pozdrawiam
lapti
Jest to zgodne ze standardami.
http://www.w3schools.com/tags/att_a_rel.asp
Pozdrawiam
lapti
-

lapti - Posty: 611
- Rejestracja: 04 Lis 2009
Ale ja znam oczywiście atrybut nofollow, tylko, że w tym przypadku nie jest on raczej przydatny, bo nie chodzi o odnośniki, które są w kodzie stronki.
Chodzi mi o to, żeby żadna strona wpisów /page/ się nie indeksowała.
Chodzi mi o to, żeby żadna strona wpisów /page/ się nie indeksowała.
-

Kamil 'seven' Lubelski - Posty: 681
- Rejestracja: 31 Mar 2009
- Miejscowość: Łódź
Kamil 'seven' Lubelski napisał(a):Chcę, żeby gogle nie indeksowały odnośników do stron, czyli np. takiego http://blog.pl/page/3 .
No to ja już nie wiem za bardzo o co chodzi.Kamil 'seven' Lubelski napisał(a):bo nie chodzi o odnośniki
Jeśli chodzi Ci o nieindeksowanie zawartości katalogu /page/to można to zrobić za pomocą .htaccess
http://httpd.apache.org/docs/2.0/mod/co ... #directory
i tam blokujesz google po adresie domeny/IP
domena:
deny from .googlebot.com
deny from .google.com itd.
IP: http://www.spiders.pl/baza-ip_1.php
Tutaj masz dokładne przykłady
http://wiki.joomla.pl/Jak_u%C5%BCywaj%C ... nego_IP%3F
Znalazłem jeszcze takie coś w necie:
- Kod: Zaznacz wszystko
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Googlebot
RewriteRule .* - [F,L]
Ja bym to spróbował umieścić w tej definicji <directory>, by jednak całkiem nie obrazić robocika
Pozdrawiam
lapti
-

lapti - Posty: 611
- Rejestracja: 04 Lis 2009
Ja naprawdę jakoś dziwnie pisze?
Podałem przykład i opisałem.
Kamil 'seven' Lubelski napisał(a):Ale ja znam oczywiście atrybut nofollow, tylko, że w tym przypadku nie jest on raczej przydatny, bo nie chodzi o odnośniki, które są w kodzie stronki.
Chodzi mi o to, żeby żadna strona wpisów /page/ się nie indeksowała.
-

Kamil 'seven' Lubelski - Posty: 681
- Rejestracja: 31 Mar 2009
- Miejscowość: Łódź
Kamilu,
A o jakiego robota chodzi? Bo jeśli Google, to respektuje zasady robots.txt
Możesz jeszcze umieścić w kodzie stronie, której nie chcesz indeksować znacznik:
Jeśli strona została już zaindeksowana, to musisz "poprosić" Google o jej usunięcie z indeksu w Google Webmaster Tools. Możesz wnioskować o usunięcie wszystkich stron w katalogu /page serwisu.
Aby wniosek usunięcia został rozpatrzony pozytywnie, to musisz wcześniej zrobić przynajmniej 1 z 3 rzeczy:
1) dopisać regułę Disallow w robots.txt
2) zablokować treści mod_rewrite'm (przekierowanie na błąd 404 lub 410 protokołu HTTP)
3) usunąć treści z serwera (wyłączyć publikację).
Ja już kilka razy wysyłałem taki automatyczny wniosek (przebudowa struktury serwisu), i zawsze skutek był widoczny w ciągu kilku dni (max. do 10):
Webmaster Tools -> Konfiguracja witryny -> Dostęp dla robotów -> Usuń adres URL -> Nowa prośba o usunięcie.
Podsumowując:
1) blokada w robots.txt skutkuje dla Google i Yahoo - te pająki respektują robots.txt - masz rację, że nie ma gwarancji, że inne wyszukiwarki też. Użytkownicy mogą przeglądać te strony.
2) <meta name="robots" content="noindex" /> powinny respektować pająki wszystkich wyszukiwarek
3) blokada treści mod_rewrite'm lub usunięcie z serwera - zablokujesz zarówno roboty, jak i użytkowników, ale będziesz mieć 100% pewności, że nic tego nie zaindeksuje. Oczywiście, jeśli strony już zostały zaindeksowane, to trzeba trochę poczekać (1-3 miesiące) zanim zostaną usunięte.
Może podałeś przykład i opisałeś, ale krótko bardzo - nie napisałeś jaki cel chcesz uzyskać. Poza tym zakwestionowałeś gotowe i skuteczne rozwiązania chłopaków - jeśli Tobie nie odpowiadają, to sam możesz próbować szukać w Sieci..
Może gdybyś napisał tutaj DLACZEGO blokada w robots.txt nie spełnia Twoich oczekiwań, albo PO CO chcesz uzyskać ten efekt, to było by nam łatwiej.
Jeśli chcesz uniknąć duplikowania treści we własnym serwisie, to do każdej strony w nagłówgu XHTML dopisz:
Wtedy jak pająk trafi na daną podstronę /page, to nie doda jej do indeksu, jeśli jest już zaindeksowana http://twoja-domena/tutaj-należy-wpisać-właściwy-adres-strony-do-indeksowania.
Canonicalem można wskażać treści w obrębie tej samej domeny, (a ponoć nawet w obrębie subdomen tej samej domeny głownej. Nie zadziała jednak dla różnych domen, tzn. nie zadziałają canonicale w domenie bbb.pl odwołujące się do aaa.pl
Jeśli o to chodzi, to jest nawet wtyczka dla Wordpressa do dołączania canonical URL.
Przypuszczam, że oprócz URL-i typu "/page/..." masz jeszcze przyjazne adresy? Nie napisałeś tego.
Możesz w plku .htaccess dać wpis:
lub
(Tutaj proponuję flagę "G-410 gone") zamiast "F-403 forbidden", zaproponowaną przez Lapti'ego).
Musisz jednak pamiętać, że Google nie lubi kiedy się ogranicza jego pająki. Prawdopodobnie sprawdza też serwisy z nieopublikowanych adresów IP i również z innym HTTP_USER_AGENT niż Googlebot (na pewno) - w ten sposób wykrywa cloaking.
Dlatego (jeśli celem jest odpowiednia indeksacja serwisu, a nie zupełne ukrycie opublikowanych treści) zalecam Tobie (mimo wszystko) zastosowanie robots.txt i narzędzi Google Webmaster Tools.
Kamil 'seven' Lubelski napisał(a):Hmm, a coś innego? Bo pewności 100% nie ma, że robot zechce skorzystać z mojego robots.txt
A o jakiego robota chodzi? Bo jeśli Google, to respektuje zasady robots.txt
Możesz jeszcze umieścić w kodzie stronie, której nie chcesz indeksować znacznik:
- Kod: Zaznacz wszystko
<meta name="robots" content="noindex" />
Jeśli strona została już zaindeksowana, to musisz "poprosić" Google o jej usunięcie z indeksu w Google Webmaster Tools. Możesz wnioskować o usunięcie wszystkich stron w katalogu /page serwisu.
Aby wniosek usunięcia został rozpatrzony pozytywnie, to musisz wcześniej zrobić przynajmniej 1 z 3 rzeczy:
1) dopisać regułę Disallow w robots.txt
2) zablokować treści mod_rewrite'm (przekierowanie na błąd 404 lub 410 protokołu HTTP)
3) usunąć treści z serwera (wyłączyć publikację).
Ja już kilka razy wysyłałem taki automatyczny wniosek (przebudowa struktury serwisu), i zawsze skutek był widoczny w ciągu kilku dni (max. do 10):
Webmaster Tools -> Konfiguracja witryny -> Dostęp dla robotów -> Usuń adres URL -> Nowa prośba o usunięcie.
Podsumowując:
1) blokada w robots.txt skutkuje dla Google i Yahoo - te pająki respektują robots.txt - masz rację, że nie ma gwarancji, że inne wyszukiwarki też. Użytkownicy mogą przeglądać te strony.
2) <meta name="robots" content="noindex" /> powinny respektować pająki wszystkich wyszukiwarek
3) blokada treści mod_rewrite'm lub usunięcie z serwera - zablokujesz zarówno roboty, jak i użytkowników, ale będziesz mieć 100% pewności, że nic tego nie zaindeksuje. Oczywiście, jeśli strony już zostały zaindeksowane, to trzeba trochę poczekać (1-3 miesiące) zanim zostaną usunięte.
Może podałeś przykład i opisałeś, ale krótko bardzo - nie napisałeś jaki cel chcesz uzyskać. Poza tym zakwestionowałeś gotowe i skuteczne rozwiązania chłopaków - jeśli Tobie nie odpowiadają, to sam możesz próbować szukać w Sieci..
Może gdybyś napisał tutaj DLACZEGO blokada w robots.txt nie spełnia Twoich oczekiwań, albo PO CO chcesz uzyskać ten efekt, to było by nam łatwiej.
Jeśli chcesz uniknąć duplikowania treści we własnym serwisie, to do każdej strony w nagłówgu XHTML dopisz:
- Kod: Zaznacz wszystko
<link rel="canonical" href="http://twoja-domena/tutaj-należy-wpisać-właściwy-adres-strony-do-indeksowania" />
Wtedy jak pająk trafi na daną podstronę /page, to nie doda jej do indeksu, jeśli jest już zaindeksowana http://twoja-domena/tutaj-należy-wpisać-właściwy-adres-strony-do-indeksowania.
Canonicalem można wskażać treści w obrębie tej samej domeny, (a ponoć nawet w obrębie subdomen tej samej domeny głownej. Nie zadziała jednak dla różnych domen, tzn. nie zadziałają canonicale w domenie bbb.pl odwołujące się do aaa.pl
Jeśli o to chodzi, to jest nawet wtyczka dla Wordpressa do dołączania canonical URL.
Przypuszczam, że oprócz URL-i typu "/page/..." masz jeszcze przyjazne adresy? Nie napisałeś tego.
Możesz w plku .htaccess dać wpis:
- Kod: Zaznacz wszystko
<Location /page>
Order Deny,Allow
Deny from .google.com
Deny from .googlebot.com
Allow from all
</Location>
lub
- Kod: Zaznacz wszystko
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Googlebot.*$ [OR]
RewriteCond %{REMOTE_HOST} ^.*google(bot)?\.com$
RewriteRule ^/page.*$ - [G,L]
(Tutaj proponuję flagę "G-410 gone") zamiast "F-403 forbidden", zaproponowaną przez Lapti'ego).
Musisz jednak pamiętać, że Google nie lubi kiedy się ogranicza jego pająki. Prawdopodobnie sprawdza też serwisy z nieopublikowanych adresów IP i również z innym HTTP_USER_AGENT niż Googlebot (na pewno) - w ten sposób wykrywa cloaking.
Dlatego (jeśli celem jest odpowiednia indeksacja serwisu, a nie zupełne ukrycie opublikowanych treści) zalecam Tobie (mimo wszystko) zastosowanie robots.txt i narzędzi Google Webmaster Tools.
-

Tomasz Fabiszak - Posty: 443
- Rejestracja: 29 Sie 2009
- Miejscowość: Poznań
8 posty(ów)
• Strona 1 z 1
-
- Podobne tematy
- Odpowiedzi
- Wyświetleń
- Ostatni post
-
- Wordpress - strona z opisem kategorii (jak to zrobić?)
przez Lorca » 18 Lut 2012, o 23:53 - 4 Odpowiedzi
- 343 Wyświetleń
- Ostatni post przez Lorca

17 Mar 2012, o 23:09
- Wordpress - strona z opisem kategorii (jak to zrobić?)
-
- Linki follow i nofollow w wordpress
1, 2, 3przez Ola Żuławińska » 27 Kwi 2009, o 22:57 - 25 Odpowiedzi
- 956 Wyświetleń
- Ostatni post przez bartekmedon

15 Wrz 2009, o 07:47
- Linki follow i nofollow w wordpress
-
- Dostęp do artykułów Joomla! Jak to zrobić?
1, 2przez Krzysztof 'Junior' Trybulski » 19 Cze 2009, o 13:58 - 15 Odpowiedzi
- 1616 Wyświetleń
- Ostatni post przez MateuszKowalski

22 Cze 2009, o 13:03
- Dostęp do artykułów Joomla! Jak to zrobić?
-
- Jak zrobić z WordPressa portal/strone statyczną?
przez Karol Ż » 24 Sty 2011, o 15:05 - 0 Odpowiedzi
- 343 Wyświetleń
- Ostatni post przez Karol Ż

24 Sty 2011, o 15:05
- Jak zrobić z WordPressa portal/strone statyczną?
-
- Wordpress - tłumaczenia
przez Elżbieta Kalinowska » 1 Paź 2009, o 23:48 - 3 Odpowiedzi
- 516 Wyświetleń
- Ostatni post przez Tomasz Fabiszak

9 Paź 2009, o 10:06
- Wordpress - tłumaczenia
Kto jest na forum
Użytkownicy przeglądający to forum: Brak zarejestrowanych użytkowników oraz 2 gości













