Hvordan starte med data

Kreditt: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Vi har alle hørt lyden bite.

"Verdens mest verdifulle ressurs er ikke lenger olje, men data" - The Economist

Kan være. Men hvis data er som olje, ligner datatilstanden hos mange organisasjoner dette:

Deepwater Horizon oljesøl

Utallige datastrømmer som går tapt for datahavet. Spør hvilken som helst dataforsker, så vil de fortelle deg at det vanskeligste med datavitenskap er å fange opp riktige data. Så hvordan starter vi?

1. Still de riktige spørsmålene

Det er både bortkastet og tidkrevende å fange data for det. Vi må finne ut beregningene våre, som skal være basert på virksomhetens mål. Hva er de bestselgende produktene? Hvor forlater brukere flerstegsprosessen? Hvor mange aktive brukere har vi? Mange organisasjoner presenterer beregninger for interessentene sine basert på ting som de er i stand til å måle (f.eks. Inntekter), ikke nødvendigvis hva som er best tilpasset selskapets retning.

Når vi vet hva vi prøver å måle, kan vi bestemme hvor vi skal begynne å lete etter dataene og planlegge trinn for å begynne å fange opp relevante data.

2. Gi en datadrevet kultur

Når en organisasjon vokser til en viss størrelse, kan de ikke lenger bare stole på "magefølelse". Avgjørelser bør baseres på data, og disse dataene må være tilgjengelige på alle nivåer.

Kan de ansatte få tilgang til dataene og beregningene, eller ligger de bak rundt 13 lag med sikkerhet og byråkrati? Ansatte bør ha fullmakt til å utføre datautforskning på datasett (som bør anonymiseres og sikres for å respektere personvern). En egen, selvbetjent analytisk plattform er ideell for dette. Dette arbeidet må være åpent og gjennomsiktig. Det er viktig å plassere arbeidet på et dashbord og dele det hele.

Organisasjoner må gi støtte, oppmuntring og ressurser for denne typen arbeid. Det betyr tid og penger, men en datadrevet kultur vil fremme mer informert beslutningstaking.

3. Ansett dataingeniører

Det er en vanlig mangel av organisasjoner å ansette dataforskere og ikke dataingeniører. Dataforskere er helt kritiske, de kan finne mønstre i data, forutsi utfall og skrive modeller som kan lære å forbedre seg selv. Advarsel er at det hele avhenger av kvalitetsdata. Data som bare kan hentes gjennom big data-infrastruktur, ETL og programmering av automatiserte arbeidsflyter. Dette er vanligvis rollen som dataingeniøren. Gi arbeidet til menneskene som er kvalifisert for det, og enda viktigere, glede av å gjøre det.

4. Start smått og billig

Det kan være veldig fristende å hoppe på big data-hype-toget, opprette et data science-team, kjøpe enterprise analytics-programvare og bruke en stor sum penger med veldig lite å vise til det. Det er mye som kan gjøres før du gjør en stor investering. Her er noen av verktøyene enhver organisasjon kan bruke:

  • Javascript analytics libs som Mixpanel eller Amplitude. Det er gratis opp til et visst antall månedlige brukere.
  • Luftstrøm for automatisk styring av arbeidsflyter. Opprettet av Airbnb og inkubert hos Apache Software Foundation, er den åpen kildekode og en de facto standard for dataingeniører.
  • Dashboards, diagrammer og datautforskning med Superset (også av Apache). Metabase er også et godt alternativ, og begge er åpen kildekode.
  • Databricks samfunnsutgave og Kaggle. Begge kan brukes til datavitenskapelige prosesser på skyen og gratis.
  • Amazon Web Services S3. Ikke gratis men inkludert her fordi det med teknologiene som utvikles i dag ikke alltid er nødvendig å ha et datavarehus. Lagring er billig, og tjenester som Databricks, MongoDB-datasjøen, AWS Athena betyr at du kan lese direkte fra din datasjø.

Disse ideene vil gi et godt grunnlag for at en organisasjon kan begynne å fange riktig data og innse verdien av dem.