2012. április 13., péntek

Googlebot tippek trükkök


Mi az a Googlebot?

A Googlebot nem más, mint a Google internetet feltérképező robotja. A feltérképezés az a folyamat, amelynek során a Googlebot megkeresi a Google indexébe felvehető új és frissített oldalakat.
Számítógépek egész hadát vetjük be az interneten található oldalak milliárdjainak beolvasásához (feltérképezéséhez). A Googlebot algoritmikusan működik, ami azt jelenti, hogy a számítógépes programok határozzák meg, hogy mely webhelyeket milyen gyakran térképezzen fel a keresőrobot, illetve, hogy az adott webhelyről hány oldalt olvasson be.
->folytatódik a következő oldalon



A Googlebot a feltérképezési folyamatot a korábbi feltérképezések során talált weboldalak URL-címeivel, valamint a webmesterektől kapott webhelytérképekkel kezdi. A Googlebot végiglátogatja ezeket a webhelyeket, és az oldalakon talált linkeket (SRC és HREF) felveszi a feltérképezésre váró oldalak listájára. Ezután megkeresi az új és a megváltozott webhelyeket, valamint az inaktív linkeket, majd ezek alapján frissíti a Google indexét.

Webmestereknek: A Googlebot és webhelyeik

Hogyan éri el a Googlebot a webhelyet

A legtöbb webhely esetében a Googlebot általában néhány másodperces gyakoriságnál többször nem kezdeményez hozzáférést a webhelyhez. Azonban a hálózati késedelmek miatt rövid időszakokra a feltérképezési gyakoriság egy kicsit magasabbnak tűnhet. A Googlebot általában egyszerre egy oldalnak csak egy másolatát tölti le. Ha azt veszi észre, hogy a Googlebot egy oldalt többször tölt le, az valószínűleg azért történt, mert a feltérképezés leállt, majd újraindult.
A Googlebotot úgy terveztük, hogy több gépre is ellátogathasson, és így az internet növekedésével javuljon a teljesítménye is. A sávszélesség kímélése érdekében sok robotot olyan számítógépeken futtatunk, amelyek közel vannak az éppen feltérképezett webhelyekhez. Ennélfogva a naplókban google.com több számítógépéről érkező látogatások jelenhetnek meg, amelyek mindegyikénél a Googlebot a user-agent. Az a célunk, hogy minden látogatás során a lehető legtöbb oldalt feltérképezzük a webhelyén, ugyanakkor ne vegyük túlságosan igénybe a sávszélességét. Módosítás kérése a feltérképezés gyakorisága tekintetében.

A webhelyen lévő tartalom letiltása a Googlebot elől

Majdhogynem lehetetlen úgy titokban tartani egy szervert, hogy nem tesz közzé rá mutató linkeket. Amint valaki követ egy linket az Ön "titkos" szerveréről egy másik szerverre, akkor a "titkos" URL megjelenhet a "referrer" címkében, és a másik szerver tárolhatja és közzéteheti azt "referrer" naplójában. Ugyanígy, az interneten számos elavult és nem működő link található. Amikor valaki közzétesz egy, az Ön webhelyére mutató hibás linket, vagy nem frissíti a linkeket, igazodva a szerveren történt változtatásokhoz, akkor a Googlebot egy helytelen linket akar majd letölteni az Ön webhelyéről.
Amennyiben szeretné megakadályozni a webhelyén lévő tartalom feltérképezését, több lehetősége is van, például a robots.txt használata, amellyel letilthatja a szerveren levő fájlok és könyvtárak elérését.
Miután létrehozta a robots.txt fájlt, elképzelhető egy kis késés, mielőtt a Googlebot észreveszi a változtatást. Ha a Googlebot továbbra is feltérképezi a robots.txt-ben letiltott tartalmat, ellenőrizze, hogy jó helyre tette-e a fájlt. A robots.txt-nek a szerver legfelső szintű könyvtárában kell lennie (pl. www.sajatszerver.hu/robots.txt), alkönyvtárba téve nem befolyásol semmit.
Ha csak a "fájl nem található" hibaüzeneteket szeretné elkerülni a szervernaplóban, létrehozhat egy üres fájlt is robots.txt néven. Ha meg szeretné akadályozni, hogy a Googlebot kövessen bármilyen linket webhelyének oldalain, használhatja a nofollow metataget. Ha csak egy link követését nem szeretné, adja hozzá a linkhez a rel="nofollow" attribútumot.
Íme, néhány további tanács:
  • A robots.txt megfelelő működésének tesztelése. A Google Webmestereszközök robots.txt fájlokat elemző eszköze segítségével megtekintheti, hogy pontosan miként elemzi a Googlebot robots.txt fájljának tartalmát. A Google user-agentje (nem túl meglepő módon) a Googlebot.
  • A Google Webmestereszközök Megtekintés Googlebotként eszköze segítségével pontosan úgy láthatja webhelyét, ahogyan az a Googlebot számára megjelenik. Ez rendkívül hasznos lehet a webhelye tartalmával kapcsolatos hibák, illetve a webhelye keresési eredményekben való felfedezhetőségével kapcsolatos problémák elhárítása során.

A webhely feltérképezhetősége

A Googlebot a webhelyeket a linkek oldalról oldalra történő követésével térképezi fel. A Google Webmestereszközök Feltérképezési hibák oldalán megjelennek mindazok a problémák, amelyeket a Googlebot webhelye feltérképezése során észlelt. A webhellyel kapcsolatos problémák felderítése érdekében javasoljuk ezeknek a hibáknak a rendszeres ellenőrzését.
Ha AJAX alkalmazást futtat olyan tartalommal, amit szeretne megjeleníteni a keresési találatok között, azt javasoljuk, hogy tekintse meg ajánlatunkat az AJAX-alapú tartalom feltérképezhetőségéről és indexelhetőségéről.
Amennyiben a robots.txt megfelelően működik, ám a webhelyen nincs forgalom, leírtunk néhánylehetséges okot, amiért a webhely rosszul teljesíthet a keresések során.

Probléma a spammerekkel és más user-agentekkel

A Googlebot által használt IP-címek időről időre változnak. A Googlebot általi hozzáférések meghatározásához a legjobb, ha a keresőrobotot, vagyis a user-agentet (Googlebot) használja.Ellenőrizheti, hogy a szerveréhez hozzáférő robot valóban a Googlebot-e -- a fordított DNS-lekérés módszerével.
A Googlebot és minden más megbízható keresőmotor tiszteletben tartja a robots.txt-ben megadott direktívákat, ám a spammerek és más rosszindulatú emberek nem. Spam jelentése a Google-nak.
A Google több más user-agenttel is rendelkezik, ilyen a Feedfetcher (user-agent Feedfetcher-Google) is. Mivel a Feedfetcher-kérések kifejezetten olyan, emberek által kezdeményezett műveletek, akik a hírcsatornát hozzáadták Google-kezdőlapjukhoz vagy a Google Olvasóhoz, nem pedig automatizáltak és robotoktól származók, ezért a Feedfetcher nem veszi figyelembe a robots.txt utasításait. A Feedfetchert úgy tudja megakadályozni a webhely feltérképezésében, hogy a Feedfetcher-Google user-agent számára 404, 410 vagy más hibát jelző állapotüzenetet ad meg a szerver konfigurációjában. További információk a Feedfetcherről.

Nincsenek megjegyzések:

Megjegyzés küldése