Hoe werkt een robots.txt?

Een SEO-aspect dat vaak over het hoofd wordt gezien is de optimalisatie van de zogenaamde robots.txt. Dit is een klein bestandje die je plaatst op de server van jouw website. Maar hoe werkt het eigenlijk en wat kun je er mee?

Wat is een robots.txt?

Google definieert de robots.txt als volgt: “Een robots.txt is een bestand dat toegang tot uw website voor zoekmachinerobots beperkt. Voordat deze crawlers een website bezoeken, controleren ze in de robots.txt of er restricties zijn omtrent het crawlen van enkele pagina’s.”

Je geeft in een robots.txt dus als het ware aan welke pagina’s wel en welke niet bezocht mogen worden. Je plaatst deze robots.txt in de root van je server. Per subdomein gebruik je overigens een andere robots.txt.

Waarom een robots.txt?

Een robots.txt geeft je dus de mogelijkheid om te vertellen waar crawlers mogen komen. Handig, voor als je bepaalde secties of pagina’s uit wil sluiten omdat er dubbele content op staat. Zo kun je bijvoorbeeld in je robots.txt opnemen dat categorieën als /author/ of /category/ niet geïndexeerd hoeven te worden. Bij WordPress zijn dit bijvoorbeeld categorieën die vaak als dubbele content worden gezien.

Maar hoe stel je een robots.txt op?

Stap 1: User Agent

De eerste stap is een nieuw bestand openen (of de bestaande robots.txt uit de server halen). Je noemt dit bestand robots.txt. De eerste regel die in de robots.txt dient te staan is de zogenaamde User Agent. Bij de User Agent geef je aan voor welke crawler de volgende regels gelden. Zo kun je bijvoorbeeld kiezen om Googlebot-images enkel aan te sturen. In de meeste gevallen vul je hier * in. Dit betekent dat het geldt voor iedere crawler.

Stap 2: Disallow & Allow

Na stap 1, begint het echte werk. Je gaat nu alle pagina’s opsommen die je uit wilt sluiten. Dit kun je op de volgende manier doen:
Disallow: /categorie/
Disallow: /index2.php

Tip: Wanneer je Disallow: /categorie gebruikt wordt enkel de hoofdpagina /categorie uitgesloten en niet alle onderliggende pagina’s. Deze onderliggende pagina’s kun je uitsluiten door er nog een / achter te plaatsen. Dus Disallow: /categorie/.

Je kunt vervolgens binnen deze /categorie/ er nog voor kiezen om bepaalde bestanden wel te indexeren. Dit kun je doen door middel van de Allow-functie. Deze noteer je als volgt:
Allow: /categorie/bestand.pdf/

Soms gaat het verder en wil je alle URL’s uitsluiten met bijvoorbeeld .php op het einde. Dit kun je als volgt doen:
Disallow: /*.php$

Of wanneer je alle .php wilt toestaan:
Allow: /*php$

Het dollarteken geeft in dit geval aan dat alle URL’s met desbetreffende opbouw mogen worden geïndexeerd door de crawlers.

Voorbeelden van wanneer je robots.txt moet inzetten

Er zijn diverse situaties voor wanneer je een robots.txt dient in te zetten. Het is dus niet altijd noodzakelijk, maar bij grotere websites en vooral webshops is het een must.

Een eerste situatie is wanneer je een webshop hebt die filters toevoegt aan de URL. Denk aan een URL-opbouw als “/kleur=groen” o.i.d. wanneer iemand bij het zoeken van een product filter kleur aan klikt. Je krijgt dan als het ware dezelfde content als bij de algemene productpagina, maar dan enkel toegespitst op groen. Dit moet je aangeven in je robots.txt, want je wilt nergens dubbele content tonen. Dit kun je als volgt doen:

Disallow: /*kleur=
Disallow: /*verzending=
Disallow: /*land=

Hierbij staat de ‘=’ op het einde van de zin, zodat alles hierna wordt uitgesloten.

Een ander bijkomend nadeel van het wel indexeren van deze pagina’s, is dat ze je crawlbudget opslurpen.

Een ander voorbeeld voor wanneer je robots.txt dient in te zetten is wanneer je webshop bijvoorbeeld Session ID’s toevoegt aan de website, zoals bij het inloggen om een sessie te kunnen onthouden. Je wilt niet dat deze worden geindexeerd door de zoekmachines, want dit is alleen maar dubbele content. Je ziet dit het vaakst voorkomen bij webshops van Magento, ZenCart etc. Je kunt deze als volgt uitsluiten:

Disallow: /*SID=
Disallow :/*SESSIONID=

Sitemap in robots.txt

Een ander punt dat crawlers kan helpen om al je pagina’s te vinden en te indexeren, is het toevoegen van de sitemap.xml in de robots.txt. Dit kun je als volgt doen:

Sitemap: https://websitenaam.nl/sitemap.xml

Vergeet ook niet de sitemap te uploaden in Google Webmaster Tools.

Test je robots.txt in Webmaster Tools

Ben je klaar en denk je alles voor elkaar te hebben, test de robots.txt dan in Google Webmaster Tools. Je kunt dit testen voordat je de robots.txt live zet. Handig toch?

Recent Posts