Hoe importeer ik Internet UFO-waarnemingen in een Google-spreadsheet

Hoe importeer ik Internet UFO-waarnemingen in een Google-spreadsheet / internet

Als het gaat om online databases en informatie die te vinden is in wat algemeen bekend staat als de “onzichtbaar web 10 Zoekmachines om het onzichtbare web te verkennen 10 Zoekmachines om het onzichtbare web te verkennen We kennen het web. Maar wist u dat er een enorm cachegeheugen aan informatie is dat zoekmachines als Google geen directe toegang hebben? Dit is het onzichtbare web. Lees verder “, Ik ben niet je typische gebruiker. Natuurlijk besteed ik een beetje te veel van mijn tijd aan het doorzoeken van online databases op plaatsen zoals het National Archives en de CIA FOIA-leeszaal, maar ik moet zeggen dat ik er niet blijer van word dan wanneer ik een op HTML gebaseerde tabel vind vol met volumes van schijnbaar complexe en niet-verbonden gegevens.

Feit is dat datatabellen een goudmijn zijn van belangrijke waarheden. Gegevens worden vaak verzameld door legers van gegeurde gegevensverzameling met laarzen op de grond. U hebt mensen uit de Amerikaanse Census die het hele land doorreizen voor familie- en gezinsinformatie. Je hebt milieuorganisaties zonder winstoogmerk die allerlei interessante informatie verzamelen over het milieu, vervuiling, het broeikaseffect en meer. En als je van het paranormale of de ufologische kennis houdt, zijn er ook voortdurend bijgewerkte tabellen met informatie over het waarnemen van vreemde voorwerpen in de lucht boven ons.

Ironisch genoeg zou je denken dat elke regering in de wereld geïnteresseerd zou zijn om te weten wat voor soort buitenlands handwerk er in de lucht wordt gespot over welk land dan ook, maar blijkbaar niet, althans niet in de Verenigde Staten. In Amerika is de verzameling ongewone waarnemingen van ambachten gedegradeerd tot teams van amateur-hobbyisten die zich masseren naar nieuwe UFO-waarnemingen zoals nachtvlinders tot een vlam. Mijn interesse in deze waarnemingen komt eigenlijk niet voort uit een fascinatie voor buitenaardse wezens of ambachten van andere planeten, maar uit een wetenschappelijke fascinatie met patronen - waar en waarom meer mensen dingen in de lucht zien en of die waarnemingen iets heel echts en veel kunnen weerspiegelen meer down-to-earth gebeurt eigenlijk.

Om de hoeveelheden gegevens te verkennen die zijn verzameld door teams van UFO-hobbyisten, heb ik eigenlijk een manier ontwikkeld om grote HTML-tabellen met gegevens in een Google-spreadsheet te importeren en die gegevens te manipuleren en te analyseren om zinvolle en belangrijke informatie te extraheren en te vinden. In dit artikel wil ik je laten zien hoe je hetzelfde kunt doen.

Belangrijke HTML-gegevens in Google-spreadsheet

In dit voorbeeld laat ik u zien hoe u gegevens die in een tabel op een website op internet zijn opgeslagen, in uw Google-spreadsheet kunt importeren. Denk aan de enorme hoeveelheid gegevens die vandaag op het internet beschikbaar is in de vorm van HTML-tabellen. Wikipedia alleen heeft gegevens in tabellen voor onderwerpen zoals opwarming van de aarde, het Amerikaanse Census Bureau heeft tonnen bevolkingsgegevensreeksen en een klein beetje Googlen zal je veel meer dan dat land opleveren.

In mijn voorbeeld begin ik met een database in het National UFO Reporting Center, die er in werkelijkheid uitziet als een diepgewortelde query-achtige database, maar als je de URL-structurering observeert, is het eigenlijk een semi-complexe website. gebaseerd rapportagesysteem bestaande uit statische webpagina's en statische HTML-tabellen - precies wat we willen bij het zoeken naar gegevens om te importeren.

NUForc.org is een van die organisaties die als een van de grootste meldpunten voor UFO-waarnemingen fungeert. Het is niet de enige, maar het is groot genoeg om elke maand nieuwe datasets te vinden met actuele waarnemingen. U kiest ervoor om de gegevens te bekijken op basis van criteria zoals Staat of Datum, en elk daarvan wordt aangeboden in de vorm van een statische pagina. Als u op datum sorteert en vervolgens op de meest recente datum klikt, ziet u dat de daar vermelde tabel een statische webpagina is met de naam van de datumindeling.

We hebben nu dus een patroon om regelmatig de nieuwste waarnemingen te extraheren uit deze HTML-gebaseerde database. Het enige wat u hoeft te doen is de eerste tabel importeren, de meest recente invoer (de bovenste) gebruiken om de nieuwste update te identificeren en vervolgens de datum van die posting gebruiken om de URL-koppeling te maken waar de nieuwste HTML-gegevenstabel bestaat. Om dit te doen zijn eenvoudigweg een paar exemplaren van de ImportHTML-functie nodig en vervolgens een paar creatieve gebruiken van tekstmanipulatiefuncties. Als u klaar bent, beschikt u over een van de coolste, zichzelf bijwerkende rapporteringsspreadsheets van uzelf. Laten we beginnen.

Tabellen importeren en gegevens manipuleren

De eerste stap is natuurlijk om de nieuwe spreadsheet te maken.

Dus, hoe importeer je HTML-tabellen? Het enige dat u nodig heeft, is de URL waar de tabel is opgeslagen en het nummer van de tabel op de pagina - meestal is de eerste die wordt weergegeven 1, de tweede is 2, enzovoort. Omdat ik de URL weet van die eerste tabel met lijstdatums en tellingen van waarnemingen, is het mogelijk om te importeren door de volgende functie in cel A1 te typen.

= ImportHTML (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”tafel”,1)

H2 heeft de functie “= Uur (nu ())“, dus de tabel wordt elk uur bijgewerkt. Dit is waarschijnlijk extreem voor gegevens die dit niet vaak bijwerken, dus ik zou waarschijnlijk wegkomen met het dagelijks doen. Hoe dan ook, de bovenstaande ImportHTML-functie haalt de tabel zoals hieronder getoond.

U moet een beetje gegevensmanipulatie op deze pagina uitvoeren voordat u de URL voor de tweede tabel kunt samenvoegen met alle UFO-waarnemingen. Maar ga door en maak het tweede blad in de werkmap.

Voordat u probeert dat tweede blad te maken, wordt het tijd om de postdatum uit deze eerste tabel te extraheren om de koppeling naar de tweede tabel te maken. Het probleem is dat de datum wordt ingevoerd als een datumindeling, niet als een tekenreeks. Dus u moet eerst de functie TEKST gebruiken om de rapportdatum in een tekenreeks om te zetten:

= Tekst (A2,”MM / DD / JJ”)

In de volgende cel rechts, moet u de SPLIT-functie gebruiken met de “/” begrenzer om de datum te splitsen in maand, dag en jaar.

= Split (D2,”/”)

Ziet er goed uit! Elk nummer moet echter tot twee cijfers worden gedwongen. Je doet dit in de cellen direct onder hen met de opdracht TEXT opnieuw.

= Tekst (E2,”00" )

Een indeling van “00” (dat zijn nullen) forceert twee cijfers, of een “0” als een tijdelijke aanduiding.

Nu bent u klaar om de volledige URL opnieuw te bouwen naar de nieuwste HTML-tabel met nieuwe waarnemingen. Je kunt dit doen door de CONCATENATE-functie te gebruiken en alle stukjes informatie samen te voegen die je zojuist uit de eerste tabel hebt gehaald.

= CONCATENATE (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)

Nu, op het nieuwe blad dat je hierboven hebt gemaakt (het lege blad), ga je een nieuw doen “ImportHTML” functie, maar dit keer voor de eerste URL-koppelingsparameter, dus u gaat terug naar de eerste spreadsheet en klikt op de cel met de URL-koppeling die u zojuist hebt gemaakt.

De tweede parameter is “tafel” en de laatste is “1” (omdat de waarnemingstabel de eerste en enige op de pagina is). Druk op enter en nu hebt u zojuist het volledige aantal waarnemingen geïmporteerd die op die specifieke datum zijn gepost.

Dus je denkt waarschijnlijk dat dit een leuke nieuwigheid is en zo - ik bedoel, tenslotte, wat je hebt gedaan, is bestaande informatie uit een tabel op internet halen en deze naar een andere tafel hebben gemigreerd, zij het een privé-tabel in je Google Docs-account. Ja dat klopt. Nu het echter in uw eigen privé-Google Documenten-account staat, hebt u binnen handbereik de tools en functies om die gegevens beter te analyseren en geweldige verbindingen te ontdekken.

Pivot-rapporten gebruiken om geïmporteerde gegevens te analyseren

Onlangs nog schreef ik een artikel over het gebruik van draaiboeken in Google Spreadsheet Een analyst van deskundige gegevens worden 's nachts met Google Spreadsheet-rapporttools Word een expert van gegevensanalisten' s nachts Google Spreadsheet-rapporthulpmiddelen gebruiken Wist u dat een van de beste tools van allemaal om gegevens uit te voeren analyse is eigenlijk Google Spreadsheet? De reden hiervoor is niet alleen omdat het bijna alles kan doen wat je zou willen ... Lees meer om allerlei coole data-analyseprestaties uit te voeren. Welnu, u kunt dezelfde verbluffende acrobatiek van gegevensanalyses uitvoeren op de gegevens die u van internet hebt geïmporteerd - waardoor u interessante verbindingen kunt ontdekken die niemand anders vóór u heeft ontdekt.

In de laatste waarnemingstabel zou ik bijvoorbeeld kunnen besluiten om een ​​spilrapport te gebruiken om het aantal verschillende unieke vormen te bekijken dat in elke staat is gerapporteerd, vergeleken met het totale aantal waarnemingen in die specifieke staat. Ten slotte filter ik ook alles wat vermeld staat “buitenaardse wezens” in de comments sectie, om hopelijk een aantal van de meer wingnut-inzendingen te verwijderen.

Dit onthult feitelijk enkele vrij interessante dingen, zoals het feit dat Californië duidelijk het hoogste aantal gerapporteerde waarnemingen van een andere staat heeft, samen met het onderscheid tussen het melden van het grootste aantal ambachtelijke vormen in het land. Het laat ook zien dat Massachusetts, Florida en Illinois ook grote hitters zijn in de UFO-waarnemingen (althans in de meest recente gegevens).

Een ander goed ding over Google Spreadsheet is de brede reeks diagrammen die voor u beschikbaar zijn, inclusief een geo-kaart waarmee u kunt lay-outen “hot spots” van gegevens in een grafisch formaat dat er echt uitspringt en die verbindingen binnen de gegevens vrij duidelijk maakt.

Als je erover nadenkt, is dit echt slechts het topje van de ijsberg. Als u nu gegevens van gegevenstabellen op elke pagina op internet kunt importeren, moet u gewoon denken aan de mogelijkheden. Ontvang de nieuwste aandelennummers, of de meest recente top 10 boeken en auteurs op de bestsellerlijst van de New York Times, of de best verkopende auto's ter wereld. Er zijn HTML-tabellen beschikbaar voor bijna elk onderwerp dat u maar kunt bedenken en in veel gevallen worden die tabellen vaak bijgewerkt.

ImportHtml biedt u de mogelijkheid om uw Google-spreadsheet op internet aan te sluiten en de gegevens die daar aanwezig zijn, in te voeren. Het kan je eigen persoonlijke informatiepunt worden dat je kunt gebruiken om te manipuleren en te masseren in een formaat waarmee je echt kunt werken. Het is nog iets leuker om van Google Spreadsheet te houden.

Heeft u ooit gegevens in uw spreadsheets geïmporteerd? Wat voor interessante dingen heb je in die gegevens ontdekt? Hoe hebt u de gegevens gebruikt? Deel uw ervaringen en ideeën in de opmerkingen hieronder!

Beeldcredits: zakelijke grafiek

Ontdek meer over: Google, Spreadsheet.