Softlink 1609142

Redactie

c't 9/2016, p.142

Hotline

Webcontent verstoppen voor Google

Voorbeeld van robots.txt

Offline-readers, geautomatiseerde mirror-programma's en zoekmachines bezoeken regelmatig bepaalde websites, bijvoorbeeld om hun actuele inhoud te spiegelen of om de html-pagina's te indexeren. Fatsoenlijke vertegenwoordigers van dit gilde houden zich aan de wensen van de websitebeheerder. In een configuratiebestand genaamd 'robots.txt' in de rootdirectory van de webserver kun je vastleggen, welke directory's de zogenaamde 'robots' mogen lezen, en welke niet. De inhoud van dit bestand heeft de volgende vorm:

# /robots.txt for www.xxx.nl

User-agent: *

# meaningless for others

Disallow: /bin/

Disallow: /cgi-bin/

Disallow: /icons/

Disallow: /xyz/

Allow: /xyz/data/

Via 'User-agent' kun je de toegang tot bepaalde webbrowsers beperken, waarbij '*' staat voor 'allemaal'. 'Disallow' verbiedt de toegang tot de daarachter opgegeven directory, terwijl 'Allow' op dezelfde manier de toegang toestaat.