27-02-2017

Robots.txt: hoe werkt het?

Robots.txt: wat is het en hoe werkt het?

Wie de blog van Webton regelmatig leest, weet dat sterke content en een mobielvriendelijk webdesign onontbeerlijk zijn voor een succesvolle website. Minder zichtbaar, maar minstens zo belangrijk zijn technische aspecten zoals robots.txt. Dit bestand helpt de crawlers van zoekmachines bij het indexeren van je website en is daarmee essentieel voor de positie ervan in de zoekresultaten.

In dit artikel vertellen we je alles wat je moet weten over robots.txt en leggen we uit hoe je dit relatief onbekende bestandje kunt benutten om je belangrijkste pagina’s sneller te laten indexeren.

Wat is robots.txt precies?

Robots.txt is een tekstbestand waarin instructies staan aangegeven voor crawlers. Dit zijn de bots die zoekmachines zoals Google gebruiken om de informatie op een website door te spitten. Ook indexeren crawlers de pagina’s op een site voor hun database van zoekresultaten. In robots.txt kun je de bots hier aanwijzingen voor geven.

Die aanwijzingen zijn handig voor beide partijen. Je kunt de crawler namelijk melden bepaalde gedeeltes op je website niet te indexeren. Hierdoor belanden ongewenste pagina’s niet in de zoekresultaten en bespaart de crawlbot veel tijd door niet onnodig pagina’s te indexeren. Het gebruik van een robots.txt is dan ook absoluut aan te raden, zeker als je bepaalde pagina’s op je site wilt blokkeren voor indexatie.

robots

Hoe werkt robots.txt?

Bij een bezoek aan je website zoekt een crawler standaard naar het robots.txt bestand in de hoofdmap van je website. Dit is dan ook de locatie waar je het bestand moet plaatsen. De crawlbot maakt gebruik van de zogenaamde Robots Exclusion Standard. Dit is als het ware de taal waarin je met de bot kunt communiceren en deze van instructies kunt voorzien.

In het robots.txt bestand gebruik je daarom ook de Robots Exclusion Standard. Dit vrij simpele protocol biedt communicatiemogelijkheden voor een relatief kleine hoeveelheid opdrachten. Hiermee kun je aangeven welke secties van je websites de crawlbot mag bezoeken en voor welk type crawlbot deze instructie geldt (bijvoorbeeld een mobiele crawler of juist een desktopcrawler).

Instructies volgens de Robots Exclusion Standard

In de afbeelding hieronder zie je het robots.txt bestand van de website van Webton:

robots-txt

Het eerste stukje code in het bestand is:

User-agent: *

Dit zegt dat elk type bot toegang krijgt tot de website, onafhankelijk van de zoekmachine waaraan deze gelieerd is. Een bot die deze regel leest, kan dus direct van start gaan met crawlen.

Op de eerstvolgende regel ziet de crawlbot:

Sitemap: https://www.webton.nl/sitemap.xml

Hiermee wordt de crawler doorverwezen naar de sitemap van de website. Het verwerken van deze verwijzing is sterk aan te bevelen, want de sitemap helpt de crawlbot bij de indexatie van je site. De sitemap is namelijk een soort routemap van je website. Hierdoor kan de crawler precies zien welke wegen hij moet bewandelen om jouw gehele site in kaart te brengen.

Een actuele sitemap is hiervoor wel een cruciale voorwaarde. Verwijst je sitemap nog naar pagina’s die inmiddels een andere URL hebben of helemaal niet meer bestaan? Dan maak je het de bot alleen maar moeilijker en krijg je een foutmelding in Google Webmaster Tools.

Onder de user-agent en de sitemap ziet de crawler de volgende regel:

Disallow: /admin/

Daaronder volgen nog vele andere Disallow regels met andere namen erachter. Deze namen zijn mapnamen. Dit stukje code vertelt de crawler dat deze gedeelten van je site niet geïndexeerd mogen worden.

Voor het niet toestaan van indexatie kun je verschillende redenen hebben. Zo is het bijvoorbeeld niet de bedoeling dat je administratiepagina in de zoekresultaten verschijnt en wil je bij een webshop niet dat je afrekenpagina indexeerbaar is. Ook als je nog bezig bent met het ontwikkelen van je site, kun je overwegen om de indexatie ervan tijdelijk te blokkeren.

Overigens adviseren we terughoudend te zijn met het gebruik van de Disallow regel in het robots.txt bestand. Het blokkeren van sommige secties op je website kan erin resulteren dat bepaalde CSS of script niet worden ingeladen. Hierdoor kan je site in sommige gevallen minder goed werken. Blokkeer de indexatie dus alleen waar echt nodig.

Crawlen selectief toestaan voor bepaalde bestanden

Wil je een bepaalde map blokkeren, maar een specifiek bestand toch toegankelijk maken voor indexatie? Voeg dan de volgende regels toe aan je robots.txt bestand:

User-agent: *

Allow: /voorbeeldmap/afbeelding.png

Disallow: /voorbeeldmap/

De crawlbot weet nu dat de map genaamd voorbeeldmap niet gecrawld mag worden, maar indexeert wel de door jou opgegeven afbeelding.png.

Zorg voor een veilig robots.txt bestand

Het robots.txt bestand is voor iedereen zichtbaar in de hoofdmap van je website. Verwerk er dan ook geen gevoelige informatie in en zeker geen wachtwoorden. Ook is het niet verstandig om rechtstreeks te verwijzen naar pagina’s met privacygevoelige informatie, zelfs niet als je deze wilt blokkeren voor indexatie.

Hou er daarnaast rekening mee dat niet alle bots afkomstig zijn van gerenommeerde zoekmachines zoals Google. Ook kwaadwillende partijen maken gebruiken van crawlbots, bijvoorbeeld in de vorm van virussen of malware. Hierdoor kan het zijn dat zij het robots.txt bestand simpelweg negeren en alle pagina’s op je website alsnog crawlen.

Meer weten over robots.txt? Lees dan hier aanvullende informatie van Google.

Vind je dit een interessant bericht? Deel het!