Hoe werken zoekmachines?
Artikel bijgewerkt door Joel Lee op 10/10/2017
Voor velen, Google is het internet. Het is het startpunt voor het vinden van nieuwe sites en is misschien wel de belangrijkste uitvinding sinds het internet zelf. Zonder zoekmachines zou nieuwe webinhoud ontoegankelijk zijn voor de massa.
Maar weet u hoe zoekmachines werken? Elke zoekmachine heeft drie hoofdfuncties: crawlen (inhoud ontdekken), indexeren (inhoud bijhouden en opslaan) en ophalen (relevante inhoud ophalen wanneer gebruikers de zoekmachine bevragen)..
Kruipen
Crawling is waar het allemaal begint: het verzamelen van gegevens over een website.
Het gaat hierbij om het scannen van sites en het verzamelen van details over elke pagina: titels, afbeeldingen, sleutelwoorden, andere gekoppelde pagina's, enz. Verschillende crawlers kunnen ook andere details zoeken, zoals paginalay-outs, waar advertenties worden geplaatst, of links zijn volgepropt, enz..
Maar hoe is een website gecrawld? Een geautomatiseerde bot (genaamd a “spin”) bezoekt pagina na pagina zo snel mogelijk, met behulp van paginakoppelingen om te zoeken naar de volgende stap. Zelfs in de vroegste dagen konden de spiders van Google honderden pagina's per seconde lezen. Tegenwoordig is het in de duizenden.
Wanneer een webcrawler een pagina bezoekt, verzamelt deze elke link op de pagina en voegt deze toe aan de lijst met volgende pagina's die moet worden bezocht. Het gaat naar de volgende pagina in zijn lijst, verzamelt de links op dat pagina en herhaalt. Webcrawlers gaan ook af en toe terug naar vorige pagina's om te zien of er wijzigingen zijn opgetreden.
Dit betekent dat elke site die is gelinkt vanaf een geïndexeerde site uiteindelijk zal worden gecrawld. Sommige sites worden vaker gecrawld en sommige worden naar een diepere diepte doorzocht, maar soms kan een crawler opgeven als de paginahiërarchie van een site te ingewikkeld is.
Een manier om te begrijpen hoe een webcrawler werkt, is door er zelf een te bouwen. We hebben een zelfstudie geschreven over het maken van een eenvoudige webcrawler in PHP, dus controleer dat als je programmeerervaring hebt.
Merk op dat pagina's kunnen worden gemarkeerd als “noindex,” wat hetzelfde is als aan zoekmachines vragen om indexering over te slaan. Niet-geïndexeerde delen van het internet staan bekend als de “diep web” Wat is het Deep Web? Het is belangrijker dan u denkt Wat is het diepe web? Het is belangrijker dan je denkt Het deep web en het dark web zijn beide eng en gevaarlijk, maar de gevaren zijn overdreven. Dit is wat ze eigenlijk zijn en hoe je ze zelfs zelf kunt openen! Meer lezen en sommige sites, zoals die op het TOR-netwerk worden gehost, kunnen niet door zoekmachines worden geïndexeerd. (Wat is TOR en ui routing? Wat is Onion Routing, Precies? [MakeUseOf Explains] Wat is Onion Routing, Precies? [MakeUseOf Explains] Internetprivacy Anonimiteit was een van de grootste kenmerken van internet in zijn jeugd (of een van de de slechtste functies, afhankelijk van wie je het vraagt.) Afgezien van de soorten problemen die voortkomen ... Lees meer)
Indexeren
Indexeren is wanneer de gegevens uit een crawl worden verwerkt en in een database worden geplaatst.
Stel je voor dat je een lijst maakt van alle boeken die je bezit, hun uitgevers, hun auteurs, hun genres, hun paginatellingen, etc. Crawling is wanneer je door elk boek kamt terwijl indexeren gebeurt wanneer je ze op je lijst registreert.
Stel je nu voor dat het niet alleen een kamer vol met boeken is, maar elke bibliotheek in de wereld. Dat is een kleinschalige versie van wat Google doet, die al deze gegevens opslaat in enorme datacenters met duizenden petabytes aan schijven Geheugen Sizes Explained: Gigabytes, Terabytes en Petabytes in Context Memory Sizes Explained: Gigabytes, Terabytes en Petabytes in Context Het is gemakkelijk te zien dat 500 GB meer is dan 100 GB. Maar hoe verhouden verschillende grootten zich? Wat is een gigabyte naar een terabyte? Waar past een petabyte in? Laten we het opruimen! Lees verder .
Hier is een kijkje in een van de zoekgegevenscentra van Google:
Ophalen en rangschikken
Retrieval is wanneer de zoekmachine uw zoekopdracht verwerkt en de meest relevante pagina's retourneert die overeenkomen met uw zoekopdracht.
De meeste zoekmachines onderscheiden zich door hun ophaalmethoden: ze gebruiken verschillende criteria om te kiezen en kiezen welke pagina's het beste passen bij wat u zoekt. Dat is waarom zoekresultaten variëren tussen Google en Bing, en waarom Wolfram Alpha zo uniek nuttig is. 10 Cool gebruik van Wolfram Alpha als u leest en schrijft in het Engels 10 Cool gebruik van Wolfram Alpha als u leest en schrijft in het Engels Taal Het duurde me enige tijd om mijn hoofd rond Wolfram Alpha te wikkelen en de queries die het gebruikt om die resultaten te verspreiden. Je moet diep in Wolfram Alpha duiken om er echt gebruik van te maken ... Lees meer .
Ranking-algoritmen controleren uw zoekopdracht tegen miljarden van pagina's om ieders relevantie te bepalen. Bedrijven bewaken hun ranking-algoritmen als gepatenteerde industriële geheimen vanwege hun complexiteit. Een beter algoritme vertaalt zich naar een betere zoekervaring.
Ze willen ook niet dat webmakers het systeem spelen en oneerlijk naar de top van de zoekresultaten klimmen. Als de interne methodologie van een zoekmachine ooit zou uitkomen, zouden allerlei mensen die kennis zeker exploiteren ten koste van zoekers zoals jij en ik.
Exploitatie van zoekmachines is mogelijk, natuurlijk, maar is niet zo gemakkelijk meer.
Oorspronkelijk rangschikten zoekmachines sites op basis van hoe vaak zoekwoorden op een pagina verschenen, wat leidde tot “keyword stuffing” - vullen van pagina's met keyword-heavy onzin.
Toen kwam het concept van link-belang: zoekmachines waardeerden sites met veel inkomende links, omdat ze site-populariteit interpreteerden als relevantie. Maar dit leidde tot spammen via links over het web. Tegenwoordig wegen zoekmachines gewichten aan afhankelijk van de “autoriteit” van de koppelingssite. Zoekmachines geven meer waarde aan koppelingen van een overheidsinstantie dan links uit een koppelingsdirectory.
Vandaag de dag zijn ranking-algoritmen gehuld in meer mysterie dan ooit tevoren, en “zoek machine optimalisatie” Demystify SEO: 5 gidsen voor zoekmachine-optimalisatie die u helpen bij het demystificeren van SEO: 5 gidsen voor zoekmachine-optimalisatie die u helpen bij het begin van de beheersing van een zoekmachine, kennis, ervaring en veel vallen en opstaan. U kunt beginnen met het leren van de fundamenten en het voorkomen van veelvoorkomende SEO-fouten met behulp van vele SEO-gidsen die beschikbaar zijn op internet. Meer lezen is niet zo belangrijk. Goede zoekmachine rankings komen nu uit hoogwaardige content en geweldige gebruikerservaringen.
Wat is de toekomst voor zoekmachines??
Ah, nu is er een interessante vraag. Het antwoord is “semantiek”: de betekenis van de inhoud van de pagina. U kunt meer lezen in ons overzicht van semantische markup en de toekomstige impact ervan. Wat semantische markup is en hoe het het internet voor altijd zal veranderen [technologie uitgelegd] Wat semantische markup is en hoe het het internet voor altijd zal veranderen [uitleg over technologie] Meer lezen .
Maar hier is de kern van.
Op dit moment kun je zoeken naar “glutenvrije cookies” maar de resultaten kunnen recepten voor gluten-vrije koekjes terugkeren. In plaats daarvan vindt u misschien gebruikelijke cookierecepten “Dit recept is niet glutenvrij.” Het heeft de juiste zoekwoorden, maar de verkeerde betekenis.
Met semantiek kunt u zoeken naar cookierecepten en vervolgens bepaalde ingrediënten verwijderen: meel, noten, enz. U kunt de resultaten ook beperken tot alleen recepten met prep-tijden van minder dan 30 minuten en scores van 4/5 of hoger bekijken. Dat zou cool zijn, toch? Dat is waar we naartoe gaan!
Nog steeds in de war over hoe zoekmachines werken? Zie hoe Google het proces uitlegt:
Als je dit interessant vond, wil je misschien ook graag weten hoe beeld zoekmachines werken.
Beeldcredits: prykhodov / Depositphotos
Ontdek meer over: Google Analytics, Google Search, Web Search.