Wat is een crawler? [Uitleg]

Auteur Willem Nales

01 mrt 2021

Een crawler, of ook wel een spider genoemd, is een software dat het internet afstruint op zoek naar (nieuwe) pagina’s. Zoekmachines maken gebruik van spiders om een website te crawlen om een goed beeld te krijgen van deze website. Wist je dat elke zoekmachine een eigen crawler heeft? Zo heeft Google de Googlebot, en heeft Bing de Bingbot.

Het is bijzonder handig te weten hoe de crawler werkt zodat je jouw website hier op kan aanpassen. Benieuwd naar hoe een crawler precies te werk gaat? In deze blog leggen wij dit op een eenvoudige en begrijpelijke manier uit, dus lees snel verder!

Wat doet een crawler precies?

Een crawler bezoekt en leest elke website op het internet. Het maakt hierbij gebruik van een crawlbudget, hier vertellen we later meer over. Bij het website crawlen leest de spider de regels van de website. Het leest als het ware waar de website over gaat en probeert de website te begrijpen. Zo leest een crawler bijvoorbeeld de url en de headers op een pagina. De crawler volgt de structuur van een pagina door linkjes binnen de website te volgen. Wij adviseren daarom altijd een goede interne linkstructuur te hanteren. Wanneer een cralwer een link op een pagina tegenkomt wordt deze toegevoegd aan de lijst met URL’s die zullen worden bezocht.

Met een goede interne linkstructuur bedoelen wij dat belangrijke pagina’s binnen twee klikken van de website bereikbaar zijn.

Wij hanteren bijvoorbeeld:

homepagina –> landingspagina –> productpagina

Hierbij is het ook van belang dat je binnen het onderwerp van de landingspagina linkt. Dit wordt binnen de silo linken genoemd in online marketing termen.

Wat is een crawlbudget?

Wij hebben het net al even laten vallen, namelijk het ‘crawlbudget’. Per bezoek aan een website heeft de ‘crawler’ een bepaald budget voor de website, het zogenaamde crawl-budget. Als dit budget op is, zal de crawler de website verlaten en wordt de website niet verder geïndexeerd.

Google heeft aangegeven dat er een sterke relatie is tussen website autoriteit en crawlbudget. Hoe meer autoriteit een pagina heeft, hoe meer crawlbudget het heeft. Simpel gezegd, om je crawlbudget te vergroten, verhoog je de autoriteit van een website.

Hoe kunnen we het crawlbudget beter besteden?

Search Engine Optimization (SEO) is het optimaliseren van een website op het algoritme van bijvoorbeeld Google. De spider houdt zich bij het website crawlen aan de regels die het algoritme van Google de Googlebot meegeeft. Bij zoekmachine optimalisatie is het doel om elke pagina op een website te optimaliseren voor één of meerdere zoektermen. Pagina’s die niet zijn geoptimaliseerd wil je dan ook niet toegankelijk maken voor de Googlebot. Deze pagina’s van lage kwaliteit zijn op drie manieren uit te sluiten voor de Googlebot:

txt bestand
No-index tag
Canonical tag

Eenvoudig en begrijpelijke uitleg werd er gezegd? Hier lees je een korte uitleg van deze technische SEO factoren.

Robots.txt bestand
Om het crawl-budget zo effectief mogelijk te gebruiken is het mogelijk om bepaalde richtlijnen door te geven aan de crawler. Op die manier kunnen we zorgen dat de pagina’s die niet belangrijk zijn niet worden geïndexeerd. Deze richtlijnen kunnen we doorgeven met behulp van een robots.txt bestand.

Een robots.txt is een bestand dat direct in de www-directory van de website dient te staan. Het robots.txt bestand moet dus altijd te vinden zijn door de volgende URL in te typen:

(http(s)://www.){domein}.nl/robots.txt

Door bepaalde gedeeltes van de website een disallow label mee te geven zal de Googlebot deze overslaan bij het crawlen van de website.

No-index tag
Soms is het kwaad al geschied en is een pagina die je niet geïndexeerd wilde hebben inmiddels al zichtbaar in de zoekmachine resultaten. Dan is het tijd om voor een no-index tag. Met behulp van een no-index tag kunnen we per pagina doorgeven of we deze in de zoekresultaten getoond willen hebben of niet.

Canonical tag
Tot slot is het mogelijk een canonical tag in te stellen. Deze tag stel je in wanneer twee of meerdere pagina’s hetzelfde zijn of een groot percentage duplicate content bevatten, bijvoorbeeld wanneer een overzichtspagina met producten meerdere pagina’s bevat. Je geeft hier als het ware bij de Google bot aan dat de pagina’s hetzelfde zijn maar dat pagina X als enige geïndexeerd moet worden.

Neem gerust contact op

Het blijft misschien moeilijk voor te stellen hoe een spider jouw website bezoekt en deze rangschikt binnen de Google resultaten. Heb je nog vragen over de Googlebot of onze SEO diensten? Aarzel dan niet en neem contact met ons op!

Deel dit artikel

Kopieer deze URL

Vragen over deze blog? Neem contact op met

Willem Nales