O que é um rastreador da Web e como ele funciona?

Uma aranha feita de uns e zeros.
Enzozo / Shutterstock

Você já pesquisou algo no Google e se perguntou: “Como ele sabe onde procurar?” A resposta é “rastreadores da web”, que pesquisam e indexam a web para que você possa encontrar coisas facilmente online. Vamos explicar.

Mecanismos de pesquisa e rastreadores

Quando você pesquisa usando uma palavra-chave em um mecanismo de pesquisa como Google ou Bing , o site vasculha trilhões de páginas para gerar uma lista de resultados relacionados a esse termo. Como exatamente esses mecanismos de busca têm todas essas páginas arquivadas, sabem como procurá-las e geram esses resultados em segundos?

A resposta são os rastreadores da web, também conhecidos como spiders. Esses são programas automatizados (geralmente chamados de “robôs” ou “bots”) que “rastreiam” ou navegam pela web para que possam ser adicionados aos mecanismos de pesquisa. Esses robôs indexam sites para criar uma lista de páginas que eventualmente aparecem em seus resultados de pesquisa.

Os rastreadores também criam e armazenam cópias dessas páginas no banco de dados do mecanismo, o que permite que você faça pesquisas quase que instantaneamente. É também a razão pela qual os mecanismos de pesquisa costumam incluir versões em cache de sites em seus bancos de dados.

Mapas e seleção do local

Uma ilustração de um homem na frente de um fluxograma.
Griboedov / Shutterstock

Então, como os rastreadores escolhem quais sites rastrear? Bem, o cenário mais comum é que os proprietários de sites desejam que os mecanismos de pesquisa rastreiem seus sites. Eles podem fazer isso solicitando ao Google, Bing, Yahoo ou outro mecanismo de busca para indexar suas páginas. Este processo varia de motor para motor. Além disso, os mecanismos de pesquisa freqüentemente selecionam sites populares e bem vinculados para rastreamento, rastreando o número de vezes que um URL é vinculado em outros sites públicos.

Recomendado:  Como atualizar seu Mac para High Sierra

Os proprietários de sites podem usar determinados processos para ajudar os mecanismos de pesquisa a indexar seus sites, como o
upload de um mapa do site. Este é um arquivo contendo todos os links e páginas que fazem parte do seu site. Normalmente é usado para indicar quais páginas você deseja indexar.

Depois que os mecanismos de pesquisa já rastrearam um site uma vez, eles rastrearão automaticamente esse site novamente. A frequência varia de acordo com a popularidade de um site, entre outras métricas. Portanto, os proprietários de sites freqüentemente mantêm mapas de sites atualizados para que os mecanismos saibam quais novos sites devem ser indexados.

Robôs e o fator polidez

Devenorr / Shutterstock

E se um site  não  quiser que algumas ou todas as suas páginas apareçam em um mecanismo de pesquisa? Por exemplo, você pode não querer que as pessoas pesquisem uma página exclusiva para membros ou vejam sua página de erro 404 . É aqui que a lista de exclusão de rastreamento, também conhecida como robots.txt, entra em ação. Este é um arquivo de texto simples que dita aos rastreadores quais páginas da web devem ser excluídas da indexação.

Outra razão pela qual o robots.txt é importante é que os rastreadores da web podem ter um efeito significativo no desempenho do site. Como os rastreadores estão basicamente baixando todas as páginas do seu site, eles consomem recursos e podem causar lentidão. Eles chegam em momentos imprevisíveis e sem aprovação. Se você não precisa que suas páginas sejam indexadas repetidamente, interromper os rastreadores pode ajudar a reduzir parte da carga do seu site. Felizmente, a maioria dos rastreadores para de rastrear certas páginas com base nas regras do proprietário do site.

Recomendado:  Como (possivelmente) salvar um laptop dos danos causados ​​pela água

Metadata Magic

HowToGeek da Pesquisa Google

Sob o URL e o título de cada resultado de pesquisa no Google, você encontrará uma breve descrição da página. Essas descrições são chamadas de fragmentos. Você pode notar que o snippet de uma página no Google nem sempre se alinha com o conteúdo real do site. Isso ocorre porque muitos sites têm algo chamado “ meta tags ”, que são descrições personalizadas que os proprietários de sites adicionam às suas páginas.

Os proprietários de sites costumam criar descrições de metadados atraentes, escritas para fazer você querer clicar em um site. O Google também lista outras meta-informações, como preços e disponibilidade de estoque. Isso é especialmente útil para aqueles que administram sites de comércio eletrônico.

Sua pesquisa

A pesquisa na web é uma parte essencial do uso da Internet. Pesquisar na web é uma ótima maneira de descobrir novos sites, lojas, comunidades e interesses. Todos os dias, os rastreadores da web visitam milhões de páginas e as adicionam aos mecanismos de pesquisa. Embora os rastreadores tenham algumas desvantagens, como ocupar recursos do site, eles são inestimáveis ​​para os proprietários e visitantes do site.