När det gäller online databaser och information som finns inom det som vanligtvis kallas "osynliga webben 10 sökmotorer för att utforska det osynliga webben 10 sökmotorer för att utforska den osynliga webben Vi är bekanta med webben. Men visste du att det finns en stor cache med information om att sökmotorer som Google inte har direkt tillgång till? Detta är den osynliga webben. Läs mer ", jag är inte din typiska användare. Visst, jag spenderar lite för mycket av min tid genom att sifta via online databaser på platser som National Archives och CIA FOIA-läsrummet, men jag måste säga att ingenting gör mig mer upphetsad än när jag hittar ett HTML-baserat bord fyllt med volymer av till synes komplexa och oanslutna data.
Faktum är datatabeller en guldgruva av viktiga sanningar. Data samlas ofta av arméer av datainsamlingstrålar med stövlar på marken. Du har folk från USA: s folkräkning som reser hela landet för information om hushåll och familj. Du har ideella miljögrupper som samlar in all slags intressant information om miljö, förorening, global uppvärmning och mer. Och om du är in i paranormala eller ufologi finns det också ständigt uppdaterade tabeller med information om observationer av konstiga föremål i himlen ovanför oss.
Ironiskt nog skulle du tro att någon regering i världen skulle vara intresserad av att veta vilken slags utländska båtar som ses i skien över något land, men tydligen inte - åtminstone inte i USA ändå. I Amerika har samlingen av ovanliga observationer av hantverk förvandlats till lag av amatörhobbyister som flockar till nya UFO-observationer som moths till en flamma. Mitt intresse för dessa observationer beror egentligen inte på en fascination med utomjordingar eller hantverk från andra planeter, utan från en vetenskaplig fascination med mönster - var och varför fler människor ser saker på himlen och om dessa observationer kan återspegla något mycket verkligt och mycket mer ned-till-jord faktiskt pågår.
För att undersöka volymerna av data som samlats in av grupper av UFO-hobbyister har jag faktiskt utvecklat ett sätt att importera stora HTML-tabeller med data till ett Google-kalkylblad och sedan manipulera och analysera den data för att extrahera och upptäcka meningsfull och viktig information. I den här artikeln tänker jag visa dig hur du gör detsamma.
Viktiga HTML-data i Google-kalkylbladet
I det här exemplet kommer jag att visa dig hur du importerar data som kan lagras i en tabell på vilken webbplats som helst på Internet, till ditt Google-kalkylblad. Tänk på den enorma datamängd som finns tillgänglig på Internet idag i form av HTML-tabeller. Wikipedia ensam har data i tabeller för ämnen som global uppvärmning, US Census Bureau har massor av befolkningsdataset, och en liten bit av Googling kommer att ge dig en hel del mer än det.
I mitt exempel börjar jag med en databas på det nationella UFO-rapporteringscentret som faktiskt ser ut att det kan vara en deep-web-databas med frågeformulär, men om du observerar URL-struktureringen är det faktiskt en semi-komplex webb- baserade rapporteringssystem som består av statiska webbsidor och statiska HTML-tabeller - exakt vad vi vill ha när vi letar efter data som ska importeras.
NUForc.org är en av de organisationer som fungerar som en av de största rapporteringscentralerna för UFO-observationer. Det är inte det enda, men det är tillräckligt stort för att hitta nya dataset med aktuella observationer varje månad. Du väljer att se data sorterade efter kriterier som stat eller datum, och var och en av dem tillhandahålls i form av en statisk sida. Om du sorterar efter datum och sedan klickar på det senaste datumet ser du att tabellen som listas där finns en statisk webbsida som heter enligt datumformatet.
Så vi har nu ett mönster för att regelbundet extrahera den senaste observationsinformationen från den här HTML-baserade databasen. Allt du behöver göra är att importera den första tabellen, använd den senaste inmatningen (den översta) för att identifiera den senaste uppdateringen och använd sedan datumet för den posten för att bygga URL-länken där den senaste HTML-tabellen finns. Om du gör det behöver du bara några exempel på ImportHTML-funktionen, och sedan fungerar några kreativa användningar av textmanipulation. När du är klar kommer du att ha en av de allra coolaste, självuppdaterande rapporteringsbladen av din egen. Låt oss börja.
Importera tabeller och manipulera data
Det första steget är förstås att skapa det nya kalkylbladet.
Så, hur importerar du HTML-tabeller? Allt du behöver är webbadressen där tabellen är lagrad och numret på tabellen på sidan - vanligtvis den första som anges 1 är den andra 2, och så vidare. Eftersom jag känner till URL: en för de första tabellens noteringsdatum och uppräkningsvärden, är det möjligt att importera genom att skriva följande funktion i cell A1.
= importhtml ( ”http://www.nuforc.org/webreports/ndxpost.html?” & H2, ”bord”, 1)
H2 håller funktionen " = timme (nu ()) ", så tabellen uppdateras varje timme. Det här är förmodligen extrema för data som uppdaterar detta sällan, så jag kunde nog komma undan med att göra det dagligen. Hur som helst kommer ovanstående ImportHTML-funktion i tabellen som visas nedan.
Du måste göra lite dataprofilering på den här sidan innan du kan sammanfoga webbadressen för den andra tabellen med alla UFO-observationer. Men fortsätt och skapa det andra arket på arbetsboken.
Innan du försöker bygga det andra arket är det dags att hämta postdatumet från den här första tabellen för att bygga länken till den andra tabellen. Problemet är att datumet införs som datumformat, inte en sträng. Så först måste du använda TEXT-funktionen för att konvertera rapportpostdatumet till en sträng:
= text (A2, ”mm / dd / yy”)
I nästa cell till höger måste du använda SPLIT-funktionen med "/" avgränsaren för att bryta upp datumet till månad, dag och år.
= split (D2, ”/”)
Ser bra ut! Varje nummer måste dock tvingas till två siffror. Du gör det i cellerna precis nedanför dem med hjälp av TEXT-kommandot igen.
= text (E2, ”00")
Ett format på "00" (det är nollor) tvingar två siffror, eller en "0" som en platshållare.
Nu är du redo att bygga upp hela webbadressen till den senaste HTML-tabellen över nya observationer. Du kan göra detta genom att använda CONCATENATE-funktionen och sammanfoga alla bitar av information du bara extraherade från den första tabellen.
= concatenate ( ”http://www.nuforc.org/webreports/ndxp”, G3, E3, F3, ”.html”)
Nu, på det nya arket du skapade ovan (det tomma arket), kommer du att göra en ny "importhtml" -funktion, men den här gången för den första URL-länkparametern så kommer du att navigera tillbaka till det första kalkylbladet och klicka på cellen med URL-länken du just skapat.
Den andra parametern är "tabell" och den sista är "1" (eftersom observationstabellen är den första och enda på sidan). Hit in, och nu har du just importerat hela volymen av observationer som publicerades på det aktuella datumet.
Så trodde du antagligen att det här är en fin nyhetshandling och allting - det betyder ju trots allt vad du har gjort är befintlig information från ett bord på Internet och migrerat det till ett annat bord, om än en privat i din Google Docs-konto. Ja det är sant. Men nu när det finns i ditt eget privata Google Docs-konto, har du nu tillgång till verktygen och funktionerna för att bättre analysera den data och börja upptäcka fantastiska anslutningar.
Använda pivotrapporter för att analysera importerade data
För en tid sedan skrev jag en artikel om hur du använder pivotrapporter i Google-kalkylblad Bli en expertdataanalyst över natten med hjälp av Google-kalkylarkrapporteringsverktyg Bli en expertdataanalyst över natten med hjälp av Google-kalkylarkrapporteringsverktyg Visste du att ett av de största verktygen för alla att utföra data analys är faktiskt Google kalkylblad? Anledningen till detta är inte bara för att det kan göra nästan allt du kanske vill ... Läs mer för att utföra alla typer av coola dataanalyser. Tja, du kan göra samma fantastiska dataanalys akrobatik på de data som du har importerat från Internet - vilket ger dig möjlighet att upptäcka intressanta anslutningar som eventuellt ingen annan har upptäckt före dig.
Till exempel, från den sista observationstabellen, kan jag bestämma mig för att använda en svängningsrapport för att titta på antalet olika unika former som rapporterats i varje stat jämfört med det totala antalet observationer i det aktuella tillståndet. Slutligen filtrerar jag också bort något som nämner "utomjordingar" i kommentarfältet, för att förhoppningsvis få ut några av de mer vingutgångarna.
Detta avslöjar faktiskt några ganska intressanta saker precis utanför flaggan, som det faktum att Kalifornien klart har det högsta antalet rapporterade observationer av någon annan stat, tillsammans med skillnaden att rapportera det högsta antalet hantverksformer i landet. Det visar också att Massachusetts, Florida och Illinois är stora hitters i UFO-observationsavdelningen också (åtminstone i de senaste uppgifterna).
En annan cool sak om Google Spreadsheet är det stora utbudet av diagram som är tillgängliga för dig, inklusive en Geo-Map som låter dig skapa "hot spots" av data i ett grafiskt format som verkligen sticker ut och gör de här anslutningarna inom data ganska uppenbara.
Om du tänker på det är det egentligen bara toppen av isberget. Om du nu kan importera data från datatabeller på vilken sida som helst på Internet, tänk bara på möjligheterna. Få de senaste aktienumren, eller de senaste 10 böckerna och författarna på New York Times bästsäljare lista, eller de största sålda bilarna i världen. Det finns HTML-tabeller där ute på nästan alla ämnen du kan tänka dig, och i många fall uppdateras dessa tabeller ofta.
ImportHtml ger dig möjlighet att ansluta Google-kalkylbladet till Internet och mata ut data som finns där ute. Det kan bli din egen personliga nav med information som du kan använda för att manipulera och massera i ett format som du faktiskt kan arbeta med. Det är bara en mycket väldigt cool sak att älska om Google Spreadsheet.
Har du någonsin importerat data till dina kalkylblad? Vilka intressanta saker upptäckte du i den data? Hur använde du data? Dela dina erfarenheter och idéer i kommentarfältet nedan!
Bildkrediter: Företagsgrafik