Softlink 1609142
c't 9/2016, p.142
Hotline
Webcontent verstoppen voor Google
Voorbeeld van robots.txt
Offline-readers, geautomatiseerde mirror-programma's en zoekmachines bezoeken regelmatig bepaalde websites, bijvoorbeeld om hun actuele inhoud te spiegelen of om de html-pagina's te indexeren. Fatsoenlijke vertegenwoordigers van dit gilde houden zich aan de wensen van de websitebeheerder. In een configuratiebestand genaamd 'robots.txt' in de rootdirectory van de webserver kun je vastleggen, welke directory's de zogenaamde 'robots' mogen lezen, en welke niet. De inhoud van dit bestand heeft de volgende vorm:
# /robots.txt for www.xxx.nl
User-agent: *
# meaningless for others
Disallow: /bin/
Disallow: /cgi-bin/
Disallow: /icons/
Disallow: /xyz/
Allow: /xyz/data/
Via 'User-agent' kun je de toegang tot bepaalde webbrowsers beperken, waarbij '*' staat voor 'allemaal'. 'Disallow' verbiedt de toegang tot de daarachter opgegeven directory, terwijl 'Allow' op dezelfde manier de toegang toestaat.