Robots.txt instellen: wat mag Google crawlen en wat niet

Stel je voor: je hebt net je website live gezet, vol met prachtige woningpagina's, scherp geprijsde SEO-content en een heuse Google Ads campagne draaiende. Maar Google indexeert ineens je admin-panel. Of je privacyverklaring.

▶Inhoudsopgave

Wat is robots.txt eigenlijk?
De basis: hoe ziet robots.txt eruit?
Wat blokkeer je — en wat niet?
Robots.txt voor Google Ads: waarom het extra belangrijk is
Veelgemaakte fouten (en hoe je ze voorkomt)
Hoe test en onderhoud je robots.txt?
Samengevat: jouw robots.txt-checklist
Veelgestelde vragen

Of — erger nog — helemaal niets. Het verschil tussen chaos en controle? Vaak slechts één klein tekstbestand: robots.txt. En ja, het is tijd dat je daar echt mee aan de slag gaat.

Wat is robots.txt eigenlijk?

Robots.txt is een simpel tekstbestand dat je in de root van je website plaatst. Het is in feite een bordje voor zoekmachine-crawlers — een soort "verboden toegang" of "je mag hier wel komen" dat Googlebot en andere crawlers lezen voordat ze je site bezoeken.

Het bestand bevat instructies over welke delen van je site wel en niet mogen worden gecrawld. Belangrijk om te weten: robots.txt is geen muur. Het is een verzoek, geen bevel.

Googlebot volgt de instructies in bijna alle gevallen, maar een kwaadwillende crawler kan er in principe langs.

Voor daadwerkelijke bescherming gebruik je andere methodes, zoals wachtwoordbeveiliging of noindex-tags. Maar voor normale zoekmachine-optimalisatie? Robots.txt is je eerste verdedigingslinie.

De basis: hoe ziet robots.txt eruit?

De syntax is best simpel. Je werkt met twee hoofdregels: User-agent (voor wie geldt de instructie) en Disallow (wat mag niet). Hier een standaardvoorbeeld:

User-agent: *
Disallow: /wp-admin/
Disallow: /wachtwoord/
Allow: /wachtwoord/belangrijke-pagina.html
Sitemap: https://www.jouwsite.nl/sitemap.xml

De asterisk (*) betekent: geldt voor alle crawlers. Disallow blokkeert een pad. Allow maakt een uitzondering — en die volgorde is belangrijk: Allow vóór Disallow werkt niet in alle geval, Google hanteert hier specifieke regels voor. En die sitemap-regel aan het einde? Google raadt het aan om je sitemap te noemen, maar controleert het niet automatisch. Zet het erbij voor de zekerheid.

Wat blokkeer je — en wat niet?

Hier gaan veel mensen fout. Ze blokkeren alles wat ze niet direct zien, of ze blokkeren helemaal niets. Beide zijn suboptimaal.

1. Admin- en back-endpagina's

Dit is wat je wel zou moeten uitsluiten: Je WordPress- of Joomla-backend heeft niks te zoeken in de zoekresultaten. Blokkeer /wp-admin/, /administrator/, of wat voor back-end pad je ook gebruikt. Die bedankt-voor-het-aanmelden-pagina?

2. Bedankpagina's en interne zoekresultaten

Geen unieke content, geen waarde voor Google. Idem dito voor interne zoekresultatenpagina's — die creëren alleen maar duplicate content.

3. Gevoelige mappen

Denk aan mappen met klantgegevens, offertes, of interne documenten. Voor een vastgoedwebsite kunnen dat bijvoorbeeld mappen zijn met persoonlijke gegevens van huizenzoekers of vertrouwelijke makelaarsinformatie.

4. Test- en ontwikkelomgevingen

Heb je een staging-site? Zorg dat die niet geïndexeerd wordt. Anders vind je via Google ineens je halffunctionerende testversie.

En wat je niet moet blokkeren: je CSS- en JavaScript-bestanden. Google moet die kunnen lezen om je site correct te renderen. Sinds 2019 is dit expliciet een aandachtspunt — Google raadt het blokkeren van deze bestanden af, omdat het kan leiden tot verkeerd geïndexeerde pagina's.

Robots.txt voor Google Ads: waarom het extra belangrijk is

Als je Google Ads draait — en bij een bureau als Rightway Marketing is dat bijna altijd het geval — dan heeft robots.txt een dubbele rol. Niet alleen bepaalt het wat Google indexeert, het bepaalt ook of je landingspagina's goed worden beoordeeld op Quality Score. Een slecht geblokkeerde CSS-file of een onjuist uitgesloten pad kan ervoor zorgen dat Google je landingspagina niet goed kan analyseren.

Dat verlaagt je Quality Score, en dat betekent: hogere kosten per klik.

Dit is precies het soort technische detail waar gespecialiseerde bureaus als BRUTAEL zich mee bezig houden. Het is niet de sexy kant van online marketing, maar het maakt het verschil tussen een campagne die rendeert en een campagne die je geld verbrandt. BRUTAEL, gevestigd in Schagen en actief als SBB Erkend Leerbedrijf, heeft in de afgelopen jaren veelvuldig vastgesteld dat juiste robots.txt-configuratie een onderschat pijler is van zowel SEO als Google Ads-prestaties.

Veelgemaakte fouten (en hoe je ze voorkomt)

Fout 1: robots.txt blokkeert per ongeluk je hele site

Eén typefoutje — een ontbrekende slash, een verkeerd pad — en Google kan niets meer van je site crawlen. De meest fatale robots.txt die je kunt hebben:

User-agent: *
Disallow: /

Die ene slash blokkeert alles. Leer hier hoe je de crawlability controleert en test je bestand altijd in Google Search Console onder Crawl → robots.txt-tester voordat je het live zet.

Fout 2: robots.txt gebruiken om pagina's uit de index te houden

Robots.txt voorkomt crawling, niet indexering. Als een pagina al in de index staat en je blokkeert het via robots.txt, blijft de URL mogelijk gewoon verschijnen in de zoekresultaten — alleen zonder beschrijving, omdat Google de content niet meer kan lezen. Wil je een pagina écht uit de index?

Fout 3: geen robots.txt hebben

Gebruik dan een noindex-tag of verwijder het via Google Search Console. Heb je helemaal geen robots.txt? Dan crawlt Google alles — inclusief de pagina's die je liever niet zou zien. Dat kost crawl budget en kan leiden tot het indexeren van waardeloze pagina's. Zelfs een blanco bestand (of een bestand met alleen User-agent: * en Disallow: zonder pad) is beter dan niets.

Hoe test en onderhoud je robots.txt?

Google Search Console is je beste vriend hier. Ga naar het gedeelte Oudere versie → robots.txt-tester (of gebruik de nieuwe Coverage-rapporten) en controleer of je bestand foutloos is.

Je kunt er specifieke URL's in testen om te zien of ze geblokkeerd zijn of niet. Daarnaast is het slim om je robots.txt periodiek te controleren — bijvoorbeeld na een website-redesign, een migratie, of na het toevoegen van nieuwe onderdelen (een blog, een vastgoedfilter, een nieuwe landingspagina voor Google Ads). Vergeet ook niet om je sitemap in te richten, want wat vandaag een onbelangrijke map is, kan morgen je belangrijkste content bevatten.

En hier geldt hetzelfde als bij andere technische SEO-onderwerpen: als je het niet zeker weet, loop dan eens onze technische SEO checklist voor MKB-websites na. Een bureau als BRUTAEL kan ook een snelle audit uitvoeren en je vertellen of je robots.txt optimaal is — of dat er nog kansen liggen. Geen overbodige ingreep, gewoon het zekere voor het onzekere nemen.

Samengevat: jouw robots.txt-checklist

Voordat je dit artikel sluit, hier je actiepunten: Vijf minuten werk. En het kan je zoekzichtbaarheid, je Google Ads-prestaties en je gegevensbescherming een flinste boost geven.

Heb je een robots.txt-bestand in de root van je site? Zo niet, maak er één aan.
Staat je back-end (admin, login, CMS) in de Disallow?
Blokkeer je je CSS en JS-bestanden per ongeluk? Haal dat eruit.
Heb je je sitemap in robots.txt genoemd?
Heb je het bestand getest in Google Search Console?

Robots.txt is misschien niet het meest spectaculaire onderwerp in de wereld van online marketing — maar de sites die het wel goed doen, scoren er elke dag mee.

Dus: open je robots.txt, kijk goed, en verbeter wat er te verbeteren is. Je toekommezelf (en je Quality Score) dankt het je.

Veelgestelde vragen

Wat is robots.txt precies en waarom is het belangrijk?

Robots.txt is een eenvoudig tekstbestand dat je op je website plaatst. Het geeft zoekmachines zoals Googlebot instructies over welke delen van je site ze mogen crawlen en indexeren. Het is een soort ‘verboden toegang’ bordje, waardoor je bijvoorbeeld admin-panelen en interne zoekresultaten kunt beschermen tegen ongewenste indexering.

Wat blokkeer ik precies met robots.txt en wat niet?

Het is belangrijk om admin- en back-end pagina's zoals je WordPress-backend te blokkeren, want die bevatten geen waardevolle informatie voor Google. Ook interne zoekresultaten en bedankpagina’s, die geen unieke content hebben, kun je beter uitsluiten om duplicate content te voorkomen. Focus op het beschermen van gevoelige informatie.

Kan robots.txt een juridische bescherming bieden?

Robots.txt is geen contractuele afspraak en biedt geen juridische bescherming tegen aansprakelijkheid. Het is een verzoek aan zoekmachines om bepaalde pagina's niet te crawlen, maar Google is niet verplicht om dit te volgen. Voor echte bescherming gebruik je andere methoden, zoals wachtwoordbeveiliging.

Wat betekent de melding "Geblokkeerd door robots.txt" in Google Search Console?

Als je in Google Search Console een melding ziet dat een pagina is geblokkeerd door robots.txt, betekent dit dat Googlebot beperkt wordt in het bezoeken en indexeren van die specifieke pagina. Dit kan veroorzaakt worden door een configuratieprobleem bij je hostingprovider of een firewall-instelling. Controleer dit met je hostingprovider.

Wat is crawlen op Google en waarom is het belangrijk voor mijn website?

Crawlen is het proces waarbij Googlebot je website doorzoekt op zoek naar nieuwe of bijgewerkte content. Een correcte robots.txt zorgt ervoor dat Googlebot de relevante pagina’s vindt en indexeert, waardoor je website beter vindbaar wordt in de zoekresultaten. Zorg ervoor dat je belangrijke pagina’s wel toegankelijk zijn voor de crawler.