Hoe Robots.txt correct in te stellen voor uw site

Hoe Robots.txt correct in te stellen voor uw site / Programming

Als je een website draait 10 manieren om een ​​kleine en eenvoudige website te maken zonder de overkill 10 manieren om een ​​kleine en eenvoudige website te maken zonder de overkill WordPress kan een overkill zijn. Zoals deze andere uitstekende services bewijzen, is WordPress niet het enige en het einde van het maken van websites. Als u eenvoudigere oplossingen wilt, is er een verscheidenheid om uit te kiezen. Meer lezen, je hebt waarschijnlijk gehoord van een robots.txt-bestand (of de “robots exclusion standaard”). Of je het nu hebt of niet, het is tijd om erover te leren, omdat dit eenvoudige tekstbestand een cruciaal onderdeel van je site is. Het lijkt misschien onbeduidend, maar je zult er versteld van staan ​​hoe belangrijk het wel is.

Laten we eens kijken wat een robots.txt-bestand is, wat het doet en hoe u het correct instelt voor uw site.

Wat is een robots.txt-bestand?

Om te begrijpen hoe een robots.txt-bestand werkt, moet u een beetje weten over zoekmachines Hoe werken zoekmachines? Hoe werken zoekmachines? Voor veel mensen is Google IS het internet. Het is misschien wel de belangrijkste uitvinding sinds het internet zelf. En hoewel zoekmachines sindsdien erg zijn veranderd, zijn de onderliggende principes nog steeds hetzelfde. Lees verder . De korte versie is dat ze verzenden “crawlers,” die programma's zijn die het internet doorzoeken op informatie. Vervolgens slaan ze een deel van die informatie op zodat ze later mensen naar die informatie kunnen leiden.

Deze crawlers, ook bekend als “bots” of “spiders,” vind pagina's van miljarden websites. Zoekmachines geven aanwijzingen over waar te gaan, maar individuele websites kunnen ook communiceren met de bots en vertellen op welke pagina's ze moeten kijken.

Meestal doen ze eigenlijk het tegenovergestelde en vertellen ze welke pagina's ze hebben moet niet kijk naar. Zaken als administratieve pagina's, backend portals, categorie- en tag-pagina's en andere dingen die site-eigenaren niet willen weergeven op zoekmachines. Deze pagina's zijn nog steeds zichtbaar voor gebruikers en ze zijn toegankelijk voor iedereen die toestemming heeft (wat vaak iedereen is).

Maar door die spiders te vertellen om sommige pagina's niet te indexeren, doet het robots.txt-bestand iedereen een plezier. Als je hebt gezocht naar “Gebruikmaken van” op een zoekmachine, wilt u dat onze administratieve pagina's hoog op de ranglijst verschijnen? Nee. Dat zou niemand goed doen, dus we vertellen zoekmachines om ze niet weer te geven. Het kan ook worden gebruikt om te voorkomen dat zoekmachines pagina's uitchecken die mogelijk niet helpen om uw site in de zoekresultaten te classificeren.

Kort gezegd vertelt robots.txt webcrawlers wat ze moeten doen.

Can Crawlers Igntain robots.txt?

Doen crawlers wel eens robots.txt-bestanden over? Ja. In feite veel crawlers do negeer het. Over het algemeen zijn deze crawlers echter niet van gerenommeerde zoekmachines. Ze komen van spammers, e-mailrooiers en andere soorten automatische bots die over het internet zwerven. Het is belangrijk om dit in gedachten te houden - het gebruik van de robotuitsluitingsstandaard om bots te waarschuwen, is geen effectieve beveiligingsmaatregel. Sommige bots kunnen zelfs begin met de pagina's die u zegt dat ze niet moeten gaan.

Zoekmachines zullen echter doen wat uw robots.txt-bestand zegt, zolang het maar correct is opgemaakt.

Hoe een robots.txt-bestand te schrijven

Er zijn een paar verschillende onderdelen die in een standaard voor robotuitsluiting gaan. Ik zal ze hier stuk voor stuk apart breken.

Verklaring van gebruikersagent

Voordat je een bot vertelt naar welke pagina's hij niet moet kijken, moet je opgeven met welke bot je praat. Meestal gebruik je een eenvoudige verklaring die dat betekent “alle bots.” Dat ziet er zo uit:

User-agent: *

Het sterretje staat in voor “alle bots.” U zou echter pagina's voor bepaalde bots kunnen specificeren. Om dat te doen, moet je de naam kennen van de bot waarvoor je richtlijnen opstelt. Dat kan er zo uit zien:

User-agent: Googlebot [lijst met pagina's die niet hoeft te worden gecrawld] User-agent: Googlebot-Image / 1.0 [lijst met te crawlen pagina's] User-agent: Bingbot [lijst met pagina's die niet moeten worden gecrawld]

Enzovoorts. Als u een bot ontdekt die u helemaal niet wilt crawlen, kunt u dat ook opgeven.

Raadpleeg useragentstring.com om de namen van gebruikersagenten te vinden.

Pagina's niet toestaan

Dit is het belangrijkste onderdeel van uw robot-uitsluitingsbestand. Met een eenvoudige verklaring vertel je een bot of groep bots om bepaalde pagina's niet te crawlen. De syntaxis is eenvoudig. Dit is hoe je de toegang tot alles in de “beheerder” directory van uw site:

Disallow: / admin /

Die regel zou voorkomen dat bots yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html doorzoeken en alles wat onder de beheerdersdirectory valt.

Als u een enkele pagina niet wilt toestaan, geeft u deze op in de regel voor niet toestaan:

Disallow: /public/exception.html

Nu de “uitzondering” pagina zal niet getekend worden, maar al het andere in de “openbaar” map zal.

Als u meerdere mappen of pagina's wilt opnemen, hoeft u ze alleen op volgende regels te vermelden:

Disallow: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /

Deze vier regels zijn van toepassing op elke user-agent die u boven in de sectie hebt opgegeven.

Als je wilt voorkomen dat bots naar een willekeurige pagina op je site kijken, gebruik je dit:

Disallow: /

Verschillende standaarden voor bots instellen

Zoals we hierboven hebben gezien, kunt u bepaalde pagina's opgeven voor verschillende bots. Combineer de vorige twee elementen, hier is hoe dat eruit ziet:

User-agent: googlebot Disallow: / admin / Disallow: / private / User-agent: bingbot Disallow: / admin / Disallow: / private / Disallow: / secret /

De “beheerder” en “privaat” secties zijn onzichtbaar op Google en Bing, maar Google ziet het “geheim” directory, terwijl Bing dat niet doet.

U kunt algemene regels voor alle bots opgeven met behulp van de asterisk-gebruikersagent en vervolgens in de volgende secties ook specifieke instructies geven aan bots.

Alles samenvoegen

Met bovenstaande kennis kunt u een volledig robots.txt-bestand schrijven. Start gewoon je favoriete teksteditor op (we zijn fans van Sublime 11 Sublime Text Tips voor productiviteit en een snellere workflow 11 Sublieme teksttips voor productiviteit en een snellere workflow Sublieme tekst is een veelzijdige teksteditor en een gouden standaard voor veel programmeurs. tips richten zich op efficiënte codering, maar algemene gebruikers zullen de sneltoetsen op het toetsenbord waarderen. Lees meer hier in de buurt) en laten bots weten dat ze niet welkom zijn in bepaalde delen van uw site.

Als u een voorbeeld van een robots.txt-bestand wilt zien, gaat u gewoon naar een site en voegt u toe “/robots.txt” naar het einde. Hier is een deel van het robots.txt -bestand van Giant Bicycles:

Zoals je ziet, zijn er nogal wat pagina's die ze niet op zoekmachines willen laten verschijnen. Ze hebben ook een aantal dingen toegevoegd waarover we nog niet hebben gesproken. Laten we eens kijken wat u nog meer kunt doen in uw robotuitsluitingsbestand.

Uw sitemap zoeken

Als uw robots.txt-bestand bots vertelt waar niet om te gaan, doet uw sitemap het tegenovergestelde Hoe een XML-sitemap maken in 4 eenvoudige stappen Een XML-sitemap maken in 4 eenvoudige stappen Er zijn twee soorten sitemaps: een HTML-pagina of een XML-bestand. Een HTML-sitemap is een enkele pagina die bezoekers alle pagina's op een website toont en meestal links naar die ... Lees meer heeft, en helpt hen te vinden waarnaar ze op zoek zijn. En hoewel zoekmachines waarschijnlijk al weten waar uw sitemap is, doet het geen pijn om hen dit opnieuw te laten weten.

De verklaring voor een sitemaplocatie is eenvoudig:

Sitemap: [URL van sitemap]

Dat is het.

In ons eigen robots.txt-bestand ziet het er als volgt uit:

Sitemap: //www.makeuseof.com/sitemap_index.xml

Dat is alles wat er is.

Een crawlvertraging instellen

De crawlvertragingsrichtlijn vertelt bepaalde zoekmachines hoe vaak ze een pagina op uw site kunnen indexeren. Het wordt gemeten in seconden, hoewel sommige zoekmachines het iets anders interpreteren. Sommigen zien een crawlvertraging van 5 omdat ze zeggen vijf seconden na elke crawl te moeten wachten om de volgende crawl te starten. Anderen interpreteren het als een instructie om slechts één pagina om de vijf seconden te crawlen.

Waarom zou je een crawler vertellen om niet zoveel mogelijk te crawlen? Bandbreedte behouden 4 manieren Windows 10 verspilt uw internetbandbreedte 4 manieren Windows 10 verspilt uw internetbandbreedte Verspilt Windows 10 uw internetbandbreedte? Hier leest u hoe u kunt controleren en wat u kunt doen om het te stoppen. Lees verder . Als uw server moeite heeft om het verkeer bij te houden, kunt u een crawlvertraging instellen. Over het algemeen hoeven de meeste mensen zich hier geen zorgen over te maken. Grote sites met veel verkeer willen misschien een beetje experimenteren.

U stelt als volgt een crawlvertraging in van acht seconden:

Crawlvertraging: 8

Dat is het. Niet alle zoekmachines zullen uw richtlijn gehoorzamen. Maar het kan geen kwaad om te vragen. Zoals met het niet toestaan ​​van pagina's, kunt u verschillende crawlvertragingen instellen voor specifieke zoekmachines.

Uw robots.txt-bestand uploaden

Zodra u alle instructies in uw bestand hebt ingesteld, kunt u deze naar uw site uploaden. Zorg ervoor dat het een gewoon tekstbestand is en heeft de naam robots.txt. Upload het vervolgens naar uw site zodat het te vinden is op uwsite.com/robots.txt.

Als u een inhoudbeheersysteem gebruikt 10 Meest populaire inhoudbeheersystemen online 10 Meest populaire inhoudbeheersystemen online De tijd dat HTML-pagina's met de hand zijn gecodeerd en CSS beheersen, is allang voorbij. Installeer een content management systeem (CMS) en binnen enkele minuten kun je een website hebben om te delen met de wereld. Lees meer zoals WordPress, er is waarschijnlijk een specifieke manier om dit aan te pakken. Omdat dit verschilt per inhoudsbeheersysteem, moet u de documentatie voor uw systeem raadplegen.

Sommige systemen kunnen ook online interfaces hebben voor het uploaden van uw bestand. Kopieer en plak hiervoor het bestand dat u in de vorige stappen hebt gemaakt.

Vergeet niet om uw bestand te updaten

Het laatste advies dat ik geef is om af en toe je robotuitsluitingsbestand te bekijken. Uw site wordt gewijzigd en mogelijk moet u aanpassingen aanbrengen. Als u een vreemde wijziging in uw zoekmachineverkeer opmerkt, is het een goed idee om ook het bestand te bekijken. Het is ook mogelijk dat de standaardnotatie in de toekomst kan veranderen. Net als al het andere op uw site, is het de moeite waard om er zo nu en dan eens naar te kijken.

Op welke pagina's sluit u crawlers van uw site uit? Heb je een verschil opgemerkt in het verkeer van zoekmachines? Deel uw advies en opmerkingen hieronder!

.