724 Shares 9491 views

Czym jest robot? Narzędzie gąsienicowy „Yandex” i Google

Każdego dnia w Internecie jest ogromna ilość nowych materiałów do stworzenia strony internetowej aktualizowane starych stron internetowych, przesyłanie zdjęć i filmów. Bez ukrytych z wyszukiwarek nie można znaleźć w sieci World Wide Web, żaden z tych dokumentów. Alternatywne, takie jak programy robotów w danym momencie nie istnieje. Co to robot wyszukiwarki, dlaczego jest to potrzebne i jak działają?

Co jest robotem wyszukiwania

site gąsienicowe (wyszukiwarka) – jest to automatyczny program, który jest w stanie odwiedzić miliony stron internetowych, szybko przechodząc przez internet bez interwencji operatora. Boty są stale przestrzeń skanowania World Wide Web, znalezienie nowych stron internetowych i regularnie odwiedzają już indeksowane. Inne nazwy dla robotów indeksujących pająki, roboty, boty.

Dlaczego roboty wyszukiwarek

Główne funkcje, które wykonują roboty-pająki – stron zaindeksowanych, a także tekst, obrazy, pliki audio i wideo, które są na nich. Boty sprawdzić referencje, mirrorów (kopie) i aktualizacji. Roboty wykonać również kontrolę HTML-kodu dla standardów zgodności Światową Organizację, która rozwija i wdraża standardy technologiczne dla World Wide Web.

Co jest indeksowanie i dlaczego jest to potrzebne

Indeksowanie – jest w rzeczywistości, to proces odwiedzenie określonej strony WWW przez wyszukiwarki. Program skanuje tekst na tej stronie, zdjęcia, filmy, linki wychodzące, wówczas strona pojawi się w wynikach wyszukiwania. W niektórych przypadkach, na stronie nie mogą być skanowane automatycznie, to może być dodany do wyszukiwarki ręcznie webmaster. Zazwyczaj występuje to w przypadku braku połączeń zewnętrznych, do danego (często dopiero ostatnio stworzony) strony.

Jak szukać roboty

Każda wyszukiwarka ma własny bot z robota wyszukiwarki Google może się znacznie różnić w zależności od mechanizmu działa na podobnej programu „Yandex” lub innych systemów.

Generalnie, zasada działania robota jest następująca: program „chodzi” w miejscu i linki zewnętrzne od strony głównej, „czyta” Web zasobów (w tym tych, którzy szukają napowietrznych, że nie widzi użytkownika). Łódź jest jak poruszać się między stronami witryny i przejść do innych.

Program będzie wybrać, które strony do indeksu? Częściej niż nie „potknąć” pająk zaczyna się serwisy informacyjne lub głównych katalogów zasobów i agregatorów o dużej masie odniesienia. Gąsienicowy ciągły skanuje strony jedna po drugiej, na szybkości i spójności indeksowania następujące czynniki:

  • Wewnętrzne: perelinovka (wewnętrzne powiązania między stronami tego samego zasobu), wielkość terenu, poprawnego kodu, przyjazny dla użytkownika i tak dalej;
  • Zewnętrzna: całkowita masa referencyjna, która prowadzi do witryny.

Pierwszą rzeczą wyszukuje wyszukiwania robota na każdej stronie w pliku robots.txt. Dalsze indeksowanie zasobów odbywa się na podstawie otrzymanych informacji, że jest z tego dokumentu. Plik ten zawiera szczegółowe instrukcje dla „pająki”, które mogą zwiększyć szanse odwiedzin strony przez wyszukiwarki, a co za tym idzie, w celu osiągnięcia wczesnego witryny trafiony w „Yandex” lub Google.

Program analogi roboty

Często termin „szukaj robota” jest mylone z inteligentnym, użytkownika lub czynników autonomicznych, „mrówki” czy „robaki”. Zanurzone tylko znaczne różnice w porównaniu ze środkami, inne definicje odnoszą się do podobnych typów robotów.

Na przykład środki mogą być:

  • intelektualnej: program, które są przenoszone z miejsca na miejsce, niezależnie podejmowaniu decyzji, jak postępować; nie są one bardzo popularne w Internecie;
  • Autonomiczny: środki te pomagają użytkownikowi w wyborze produktów, przeszukiwanie lub wypełnianie formularzy, tak zwane filtry, które są mało związane z programami sieciowymi;.
  • użytkownik: program przyczyni się do interakcji użytkownika z sieci World Wide Web, w przeglądarce (na przykład, Opera, IE, Google Chrome, Firefox), posłańcy (Viber, telegramu) lub programy e-mail (MS Outlook i Qualcomm).

„Mrówki” i „Robaki” są bardziej zbliżone do wyszukiwarki „pająki”. Pierwsza forma pomiędzy siecią i konsekwentnie współdziałać jak ten kolonii mrówek, „robaki” jest zdolny do replikacji pod innymi względami taka sama jak standardowego robota.

Różnorodność robotów

Rozróżnić wiele rodzajów robotów. W zależności od celów programu, są to:

  • „Zwierciadło” – Duplikaty przeglądania stron internetowych.
  • Komórka – koncentrują się na mobilnych wersji stron internetowych.
  • Quick – ustalić nowe informacje szybko przeglądając najnowsze aktualizacje.
  • Reference – indeks odniesienia, liczyć swoje numery.
  • Podziałowe różnego rodzaju treści – specyficzne programy dla tekstu, audio, video, zdjęć.
  • „Spyware” – patrząc na stronach, które nie są jeszcze wyświetlane w wyszukiwarce.
  • „Dzięcioł” – okresowo odwiedzać witryn, aby sprawdzić ich przydatność i efektywność.
  • Narodowy – przeglądanie zasobów sieci WWW znajduje się na jednej z domen krajowych (np .mobi lub .kz .ua).
  • Globalny – indeks wszystkich krajowych stronach.

Roboty głównych wyszukiwarek

Istnieją również pewne roboty. W teorii, ich funkcjonalność może się znacznie różnić, ale w praktyce programy są niemal identyczne. Główne różnice indeksowanie stron internetowych prace dwóch głównych wyszukiwarek są następujące:

  • Surowość testów. Uważa się, że mechanizm robota „Yandex” nieco bardziej rygorystyczne szacunki miejsce dla zgodności ze standardami World Wide Web.
  • Zachowanie integralności miejscu. Indeksy gąsienicowe Google Cała strona (w tym treści multimedialnych), „Yandex” może także wyświetlać treść wybiórczo.
  • Test prędkości nowych stron. Google dodaje nowy zasób w wynikach wyszukiwania w ciągu kilku dni, w przypadku „Yandex” przez proces może trwać dwa tygodnie lub więcej.
  • Częstość występowania ponownego indeksowania. Gąsienicowe „Yandex” Sprawdź aktualizacje dwa razy w tygodniu, a Google – jeden raz na 14 dni.

Internet, oczywiście, nie ogranicza się do dwóch wyszukiwarek. Inne wyszukiwarki mają swoje roboty, które podążają własne parametry indeksowania. Ponadto, istnieje kilka „pająki”, które mają na nie znaczne środki wyszukiwanie, a poszczególne zespoły lub webmasterów.

wspólne nieporozumień

Wbrew powszechnemu przekonaniu, „pająki” nie przetwarzają informacje. Program skanuje i zapisuje tylko stron internetowych i dalsze przetwarzanie odbywa zupełnie różne roboty.

Również wielu użytkowników uważa, że roboty mają negatywny wpływ i „szkodliwe” Internet. W rzeczywistości, niektóre wersje „pająki” może znacząco przeciążenie serwera. Istnieje także czynnik ludzki – webmaster, który stworzył program, mogą popełniać błędy w konfiguracji robota. Jednak większość z istniejących programów są dobrze zaprojektowane i profesjonalnie zarządzane, a wszelkie pojawiające się problemy natychmiast usunięte.

Jak zarządzać indeksowaniem

roboty wyszukiwarek są zautomatyzowane programy, ale proces indeksowania może być częściowo kontrolowana przez webmastera. To znacznie ułatwia zewnętrznej i wewnętrznej optymalizacji zasobu. Ponadto, można ręcznie dodać nową witrynę do wyszukiwarki: duże zasoby mają specjalną formę stron internetowych rejestracji.