3 manieren om ongewenste blogpagina's van Google te verwijderen

Gelooft u in het idee dat als iets eenmaal op internet is gepubliceerd, het voor altijd is gepubliceerd? Welnu, vandaag gaan we die mythe verdrijven.

De waarheid is dat het in veel gevallen heel goed mogelijk is om informatie van internet te verwijderen. Natuurlijk is er een record van webpagina's die zijn verwijderd als je op de Wayback Machine zoekt, toch? Ja, absoluut. Op de Wayback-machine zijn er records van webpagina's die al vele jaren oud zijn - pagina's die u niet zult vinden met een Google-zoekopdracht, omdat de webpagina niet langer bestaat. Iemand heeft het verwijderd of de website is afgesloten.

Dus je kunt er niet omheen, toch? Informatie zal voor altijd worden gegraveerd in de steen van het internet, er voor generaties te zien? Nou, niet precies.

De waarheid is dat hoewel het moeilijk of onmogelijk kan zijn om grote nieuwsberichten weg te vegen die zich als een virus van de ene nieuwswebsite of blog naar de andere hebben verspreid, het eigenlijk best gemakkelijk is om een webpagina of meerdere webpagina's uit alle records volledig uit te roeien van het bestaan - om die pagina te verwijderen voor zowel zoekmachines als de Wayback-machine De New Wayback-machine laat je visueel terug reizen in internettijd De New Wayback-machine laat je visueel terugreizen in internettijd Het lijkt erop dat sinds de Wayback-machine wordt gelanceerd in In 2001 hebben de site-eigenaren besloten om de op Alexa gebaseerde back-end op te ruimen en opnieuw te ontwerpen met hun eigen open source-code. Na het uitvoeren van tests met de ... Lees meer. Er is natuurlijk een vangst, maar daar komen we aan.

3 manieren om blogpagina's van het net te verwijderen

De eerste methode is degene die de meerderheid van de website-eigenaren gebruikt, omdat ze niet beter weten - gewoon webpagina's verwijderen. Dit kan gebeuren omdat u zich realiseert dat u dubbele inhoud op uw site heeft of omdat u een pagina heeft die u niet in de zoekresultaten wilt weergeven.

Verwijder gewoon de pagina

Het probleem met het volledig verwijderen van pagina's van uw website is dat aangezien u de pagina al op het net hebt gevestigd, er waarschijnlijk links zijn van uw eigen site evenals externe links van andere sites naar die specifieke pagina. Wanneer u het verwijdert, herkent Google die pagina van u onmiddellijk als een ontbrekende pagina.

Dus bij het verwijderen van je pagina heb je niet alleen een probleem met gemaakt “Niet gevonden” crawlfouten voor uzelf, maar u hebt ook een probleem gecreëerd voor iedereen die ooit aan de pagina heeft gelinkt. Gewoonlijk zullen gebruikers die op uw site komen via een van die externe links uw 404-pagina zien, wat geen groot probleem is, als u iets als Google's aangepaste 404-code gebruikt om gebruikers nuttige suggesties of alternatieven te geven. Maar je zou denken dat er meer sierlijke manieren zijn om pagina's uit de zoekresultaten te verwijderen zonder al die 404's te hoeven starten voor bestaande inkomende links, juist?

Welnu, dat zijn er.

Een pagina verwijderen uit de zoekresultaten van Google

Eerst en vooral moet u begrijpen dat als de webpagina die u uit de zoekresultaten van Google wilt verwijderen, geen pagina is van uw eigen site, u geen geluk heeft tenzij er juridische redenen zijn of als de site uw persoonlijke gegevens heeft gepost informatie online zonder uw toestemming. Als dat het geval is, gebruikt u de probleemoplosser voor het verwijderen van Google om een verzoek in te dienen om de pagina uit de zoekresultaten te verwijderen. Als je een geldige zaak hebt, kan het zijn dat je enig succes zult hebben met het verwijderen van de pagina - je hebt natuurlijk nog meer succes door alleen maar contact op te nemen met de eigenaar van de website. Valse persoonlijke gegevens op het internet verwijderen Hoe valse persoonlijke informatie op het internet te verwijderen Lees meer zoals ik heb beschreven in 2009.

Als de pagina die u uit de zoekresultaten wilt verwijderen, zich op uw eigen site bevindt, heeft u geluk. Het enige dat u hoeft te doen is een maken robots.txt bestand en zorg ervoor dat u de specifieke pagina die u niet wilt in de zoekresultaten hebt geweigerd, of de hele map met de inhoud die u niet wilt laten indexeren. Dit is wat het blokkeren van een enkele pagina eruitziet.

User-agent: * Disallow: /my-deleted-article-that-i-want-removed.html

U kunt voorkomen dat bots als volgt door hele mappen van uw site crawlen.

User-agent: * Disallow: / content-about-personal-stuff /

Google heeft een uitstekende ondersteuningspagina waarmee u een robots.txt-bestand kunt maken als u nog nooit eerder een robots.txt-bestand heeft gemaakt. Dit werkt buitengewoon goed, zoals ik onlangs heb uitgelegd in een artikel over het structureren van syndicaatsovereenkomsten. Hoe kan ik overeenkomsten tussen syndicaten onderhandelen en uw zoekrangschikking beschermen Hoe kan ik onderhandelen over syndicaatsaanbiedingen en uw zoekrangschikking beschermen Syndicatie is tegenwoordig een rage. Maar opeens kon je merken dat de syndicatiepartner hoger in de lijst staat dan jij in de zoekresultaten voor een verhaal dat je oorspronkelijk hebt geschreven! Bescherm uw zoekrangschikking. Lees meer zodat ze u geen pijn doen (syndicatiepartners vragen indexering van hun pagina's waar u gesyndiceerd bent te weigeren). Toen mijn eigen syndicatiepartner ermee instemde om dit te doen, verdwenen de pagina's die gedupliceerde inhoud van mijn blog waren volledig uit de zoekresultaten.

Alleen de hoofdwebsite komt op de derde plaats voor de pagina waarop ze onze titel vermelden, maar mijn blog staat nu op zowel de eerste als de tweede plek; iets dat bijna onmogelijk was geweest als een website met een hogere autoriteit de gedupliceerde pagina had geïndexeerd.

Wat veel mensen zich niet realiseren is dat dit ook mogelijk is met het Internet Archive (de Wayback Machine). Hier zijn de regels die u aan uw robots.txt-bestand moet toevoegen om dit mogelijk te maken.

User-agent: ia_archiver Disallow: / sample-category /

In dit voorbeeld vertel ik het Internetarchief om alles in de submap sample-category op mijn site van de Wayback Machine te verwijderen. In het internetarchief wordt uitgelegd hoe dit moet worden gedaan op hun hulppagina over uitsluiting. Dit is ook waar ze dat uitleggen “Het internetarchief is niet geïnteresseerd in het aanbieden van toegang tot websites of andere internetdocumenten waarvan de auteurs hun materialen niet in de verzameling willen hebben.”

Dit druist in tegen de algemeen aanvaarde opvatting dat alles wat op het internet wordt gepost, voor eeuwig in het archief wordt meegevoerd. Nee, webmasters die eigenaar zijn van de inhoud kunnen specifiek de inhoud uit het archief verwijderen met behulp van de robots.txt-benadering.

Verwijder een individuele pagina met metatags

Als u slechts enkele afzonderlijke pagina's heeft die u uit de zoekresultaten van Google wilt verwijderen, hoeft u de robots.txt-benadering helemaal niet te gebruiken. U kunt gewoon de juiste “robots” metatag naar de individuele pagina's en vertel de robots om niet te indexeren of links op de hele pagina te volgen.

Je zou de kunnen gebruiken “robots” meta hierboven om te voorkomen dat robots de pagina indexeren, of je kunt specifiek aangeven dat de Google-robot niet moet indexeren, zodat de pagina alleen uit de zoekresultaten van Google wordt verwijderd en andere zoekrobots nog steeds toegang hebben tot de pagina-inhoud.

Het is helemaal aan jou hoe je wilt beheren wat robots met de pagina doen en of de pagina wordt vermeld. Voor slechts een paar afzonderlijke pagina's is dit misschien de betere aanpak. Als u een volledige inhoudsdirectory wilt verwijderen, gebruikt u de robots.txt-methode.

Het idee van “Verwijderen” Inhoud

Dit soort verandert het hele idee van “verwijderen van inhoud van internet” op zijn kop. Als u technisch al uw eigen links naar een pagina op uw site verwijdert en deze verwijdert uit Google Zoeken en het internetarchief met behulp van de robots.txt-techniek, is de pagina voor alle doeleinden bedoeld “verwijderde” van het internet. Het leuke is echter dat als er bestaande links naar de pagina zijn, die links nog steeds werken en u geen 404-fouten voor die bezoekers genereert.

Het is meer “teder” aanpak om inhoud van internet te verwijderen zonder de bestaande linkpopulariteit van uw site op internet volledig te verpesten. Uiteindelijk is het aan jou om te bepalen welke inhoud wordt verzameld door zoekmachines en het internetarchief, maar vergeet niet dat, ondanks wat mensen zeggen over de levensduur van dingen die online worden geplaatst, het echt volledig onder jouw controle valt.

Meer informatie over: Google, Google Zoeken, SEO, Webontwerp, Webmasterhulpprogramma's.

« 3 manieren waarop u uw online aanwezigheid in de gevangenis kunt behouden 3 manieren waarop u MS-DOS-spellen en -apps in Linux kunt uitvoeren »