Domov Posel Osnove velikih podatkov: kako sestaviti načrt upravljanja podatkov

Osnove velikih podatkov: kako sestaviti načrt upravljanja podatkov

Video: Excel za napredne 3 - Spustni seznam (November 2024)

Video: Excel za napredne 3 - Spustni seznam (November 2024)
Anonim

O vlogi podatkov v sodobnih podjetjih smo že veliko pisali. Od zagonskih in malih do srednjih podjetij do velikih podjetij so vpogledi v podatke in analize bolj dostopni podjetjem vseh velikosti kot kadar koli prej. To je deloma zahvaljujoč naraščanju poslovne inteligence (BI) in orodij za vizualizacijo podatkov.

Preden lahko uporabite BI orodja ali zaženete prediktivno analitiko na podatkovnem nizu, je veliko dejavnikov, ki se lahko oddaljijo od njega. Začne se s preprostim razumevanjem, kaj je Big Data, kaj ni (namig: ni kristalna kroglica) in kako upravljati shranjevanje podatkov, organizacijo, dovoljenja in varnost v svoji podjetniški arhitekturi podatkov. Tukaj prihaja upravljanje podatkov. Postopki, s katerimi zagotavljate upravljanje v podjetju, se razlikujejo glede na to, s kom govorite. Kljub temu pa upravljanje podatkov temelji na zaupanju podatkov in odgovornosti, poročenih s celovitimi najboljšimi praksami glede varnosti podatkov.

Pogovarjal sem se s Hortonworks in MapR, dvema največjima podjetjema Hadoop na trgu. Scott Gnau, glavni tehnološki direktor podjetja Hortonworks, in Jack Norris, višji podpredsednik za podatke in aplikacije pri MapR, sta pojasnila, kaj upravljanje podatkov pomeni za njihove organizacije. Govorili so o tem, kako se spoprijeti s kompleksnim izzivom zagotavljanja upravljanja podatkov v kompleksni arhitekturi podatkov in organizacijski hierarhiji velikega podjetja.

Kaj točno je Upravljanje podatkov in zakaj ga potrebujemo?

Upravljanje pomeni zagotoviti, da so podatki v podjetju dovoljeni, organizirani in dovoljeni v bazi podatkov s čim manj napakami, hkrati pa ohranjati zasebnost in varnost. Najti je ravnotežje enostavno, zlasti kadar je realnost, kje in kako se podatki hranijo in obdelujejo, stalno v toku. Norris MapR-a je pojasnil, zakaj morajo podjetja gledati na upravljanje podatkov z višje ravni in se osredotočiti na obsežnejši prenos podatkov.

"Ko začnete spreminjati raznolikost in hitrost velikih podatkov, s katerimi imamo opravka, morate imeti upravljanje podatkov, vendar gre v tem širšem kontekstu. Katere podatke imate, kdo ima dostop do njih in kako ste upravljanje časovnih vrst teh podatkov? " je rekel Norris. "Z vidika upravljanja podatkov lahko imate različne faze podatkov, ki obstajajo v sistemu, ki ga je mogoče posneti, tako da se lahko kadar koli vrnete v cevovod. Gre za gradnjo preglednosti in nadzor dostopa do podatkovne platforme, ki jo lahko naredite prepričani sta, da sta odkrivanje in analitika podatkov pregledna, ne glede na to, ali ste poslovni vodja, ki gleda nabore finančnih podatkov ali znanstvenik, ki dela s surovimi podatki v zgornjem toku."

Vir: Rimes Za celoten prikaz kliknite sliko.

Podobno točko je vložil Hortonworks 'Gnau. Ne glede na to, ali imate opravka s podatkovnim skladiščem ali arhitekturo podatkovnih jezer, upravljanje podatkov temelji na uravnoteženju nasprotnih sil. Gre za neomejen dostop do podatkov, ki spodbuja inovacije in pridobiva vpogled, natančna dovoljenja in zasebnost za istočasno zaščito teh podatkov do konca.

"Primerjajte in primerjajte stari svet tradicionalnega upravljanja v podatkovnem prostoru; nekoliko lažje je bilo, " je dejal Gnau. "Včasih so bili podatki dobro opredeljeni glede na vlogo ali vlogo dela. V novem svetu dobite največ vrednosti, ko imajo podatki znanstveniki dostop do čim več podatkov in ugotavljajo, da je srečen medij zelo pomemben.

"To je povsem nova paradigma v tem, kako morate pristopiti k upravljanju, " je dodal Gnau. "V tem novem svetu se mi zdijo teme upravljanja in varnosti, ki jih je treba zajeti skupaj. Veliko podjetij se še vedno bori, da bi svoje znanstvenike s podatki lahko učinkovito našli pri teh novih primerih uporabe, hkrati pa, razumevanje, kako ravnati z varnostjo, zasebnostjo, upravljanjem - vse stvari, ki so pomembne z vidika dna in tudi z vidika ugleda podjetja."

Kako naj bi načrt upravljanja podatkov o podjetju zajel in zadovoljil vse te nasprotne sile? Ko se vsako zahtevo lotimo metodično, korak za korakom.

Kako sestaviti načrt upravljanja podatkov

Hortonworks, MapR in Cloudera so trije največji neodvisni igralci v prostoru Hadoop. Podjetja imajo svoje sfere vpliva, ko gre za upravljanje podatkov. MapR je izdal več belih dokumentov o tej temi in zgradil upravljanje podatkov na celotni platformi za konvergenco podatkov, medtem ko ima Hortonworks lastno rešitev za varnost in upravljanje podatkov ter leta 2015 soustanovil pobudo za upravljanje podatkov (DGI). To je vodilo do odprtega -source Apache Atlas projekt, ki zagotavlja odprt okvir za upravljanje podatkov za Hadoop.

Ko pa gre za to, kako vsak prodajalec oblikuje celovito upravljanje podatkov in varnostnih strategij, sta Gnau in Norris govorila podobno. Sledijo kombinirani koraki, ki jih Hortonworks in MapR priporočajo podjetjem, da upoštevajo pri izdelavi načrta upravljanja podatkov.

The Big One: Granularni dostop do podatkov in avtorizacija

Obe podjetji se strinjata, da brez natančnega nadzora ne morete imeti učinkovitega upravljanja podatkov. MapR to dosega predvsem s pomočjo izrazov za nadzor dostopa (ACE). Kot je pojasnil Norris, ACE uporabljajo grupiranje in logično logiko za nadzor fleksibilnega dostopa do podatkov in avtorizacije, z dovoljenji na podlagi vlog in nastavitvami vidnosti.

Rekel je, naj o tem razmišlja kot o Gartnerjevem modelu. Na osi Y sta na spodnjem koncu stroga upravljanja in nizka okretnost, na osi X pa na višjem koncu višja okretnost in manj upravljanja.

"Na nizki ravni zaščitite občutljive podatke tako, da jih zatemnite. Na vrhu imate zaupne pogodbe za znanstvenike s podatki in BI analitike, " je dejal Norris. "To ponavadi počnemo z zmogljivostmi zakrivanja in različnimi pogledi, kjer čim bolj zaklenete neobdelane podatke na dnu in postopoma zagotovite več dostopa, dokler na zgornjem koncu skrbnikom ne omogočite širše prepoznavnosti. Toda kako to storite dostop do pravih ljudi?

"Če danes pogledate seznam nadzora dostopa, bo zapisano, kot je" vsi, ki imajo dostop do tega inženiringa, lahko ", " je dodal Norris. "Toda če želite, da ima nekaj izbranih direktorjev v projektu znotraj IT-ja dostop ali vsi, razen osebe, morate ustvariti posebno skupino. To je preveč zapleten in zmeden način gledanja na dostop."

Po besedah ​​Norrisa prihaja do odobritve pravic za dostop do različnih ravni in skupin. "Združili smo ACE z različnimi načini dostopa do podatkov - prek datotek, tabel, pretokov itd. In implementirali poglede brez ločenih kopij podatkov. Tako ponujamo poglede na enake neobdelane podatke in poglede lahko imajo različne ravni dostopa. To vam daje bolj integrirano varnost, ki je bolj neposredna."

Hortonworks na podoben način obravnava zrnat dostop. Z vključevanjem Apache Atlasa za upravljanje in Apache Ranger je Gnau dejal, da podjetje obravnava dovoljenje na ravni podjetij s pomočjo enega stekla. Ključno je, po njegovem mnenju, zmožnost kontekstnega odobritve dostopa do baze podatkov in določenih oznak metapodatkov s pomočjo pravilnikov, ki temeljijo na oznakah.

"Ko je nekdo v bazi, gre za vodenje po podatkih, do katerih bi morali imeti ustrezen dostop, " je dejal Gnau. "Rangerjeve varnostne politike na ravni predmetov, natančno in povsod vmes se lahko spoprimejo s tem. Vključitev te varnosti v upravljanje je stvar res zanimiva.

"Če želite povečati obseg v velikih organizacijah, morate te vloge vključiti v upravljanje in označevanje metapodatkov, " je dodal Gnau. "Če se prijavim iz Singapurja, morda obstajajo različna pravila, ki temeljijo na lokalnih zakonih o zasebnosti ali korporacijski strategiji. Ko podjetje določi, nastavi in ​​razume ta pravila s celostnega vidika od zgoraj navzdol, lahko dostop razdelite na podlagi določena pravila postavljajo med izvajanjem vsega v osnovni platformi."

Vir: IBM Big Data & Analytics Hub. Za celoten prikaz kliknite sliko.

2. Varnost po obodu, zaščita podatkov in integrirana overitev

Upravljanje se ne zgodi brez varnosti končne točke. Gnau je dejal, da je pomembno zgraditi dober obod in požarni zid okoli podatkov, ki se združujejo z obstoječimi avtentikacijskimi sistemi in standardi. Norris se je strinjal, da je za avtentikacijo pomembno, da se podjetja sinhronizirajo s preizkušenimi sistemi.

"Pri preverjanju pristnosti gre za to, kako se integrirate z LDAP, Active Directory in storitvami imenikov drugih proizvajalcev, " je dejal Norris. "Podpiramo tudi uporabniško ime in geslo Kerberos. Pomembno je, da ne ustvarite celotne ločene infrastrukture, ampak to, kako se vključite v obstoječo strukturo in sisteme vzvodov, kot je Kerberos."

3. Šifriranje in tokenizacija podatkov

Naslednji korak po zaščiti vašega oboda in preverjanju pristnosti vseh podrobnih dostopov do podatkov, ki jih podelite: Prepričajte se, da so datoteke in osebno prepoznavni podatki (PII) šifrirani in tokenizirani od konca do konca skozi podatkovni prenos. Gnau je razpravljal o tem, kako Hortonworks zavaruje podatke o PII.

"Ko pridete mimo oboda in imate dostop do sistema, je možnost zaščite podatkov PII izjemno pomembna, " je dejal Gnau. "Te podatke morate šifrirati in tokenizirati, tako da lahko, ne glede na to, kdo ima dostop do njih, izvajajo analitiko, ki jo potrebujejo, ne da bi pri tem izpostavili noben od teh podatkov PII."

Kar zadeva, kako varno dostopate do šifriranih podatkov tako v gibanju kot v mirovanju, je Norris MapR pojasnil, da je treba upoštevati tudi primere uporabe, kot sta varnostno kopiranje in obnova po nesrečah (DR). Govoril je o konceptu MapR-a, imenovanem logični zvezki, ki lahko uporabi politike upravljanja na rastoči kopici datotek in imenikov.

"MapR je na najnižji ravni izdelal WAP podvajanje za DR in časovno enakomerne posnetke vseh podatkov, ki jih je mogoče nastaviti v različnih frekvencah po imeniku ali obsegu, " je dejal Norris. "To je širše od samo upravljanja podatkov. Lahko imate fizično gručo z imeniki, potem pa je koncept logičnega obsega res zanimiva enota za upravljanje in način za združevanje stvari, medtem ko nadzorujete za zaščito podatkov in frekvenco. To je še ena puščica v podatkih skrbnika IT drveče za upravljanje."

4. Stalna revizija in analitika

Glede na širšo sliko upravljanja sta Hortonworks in MapR dejala, da strategija ne deluje brez revizije. Raven vsebilnosti in odgovornosti v vsakem koraku postopka je tista, ki omogoča, da IT dejansko „upravlja“ s podatki, ne pa zgolj s postavljanjem politik in nadzora dostopa ter upanjem na najboljše. Prav tako lahko podjetja ohranjajo svoje strategije v aktualnem okolju, v katerem se spreminjajo načini, kako vidimo podatke in tehnologije, ki jih uporabljamo za upravljanje in analizo.

"Zadnji del sodobne strategije upravljanja je beleženje in sledenje, " je dejal Gnau. "Trenutno smo v fazi Big Data in IoT. Ključnega pomena je, da lahko sledimo dostopu in prepoznamo vzorce v podatkih, tako da bomo, kot je treba strategijo posodabljati, že pred krivino."

Norris je dejal, da sta revizija in analiza tako preprosta kot sledenje datotekam JavaScript Object Notation (JSON). Vsakega podatka ne bo vredno spremljati in analizirati, vendar vaše podjetje nikoli ne bo vedelo, katero - dokler ne ugotovite, kakšen vpogled v spreminjanje iger ali se zgodi kriza in ne potrebujete revizijske sledi.

"Vsaka dnevnik datotek JSON se odpre za analizo in imamo Apache Drill, da poizvedujemo datoteke JSON s shemami, zato to ni ročni korak IT za nastavitev analize metapodatkov, " je dejal Norris. "Ko vključite vse dogodke za dostop do podatkov in vsako upravno dejanje, je možna široka paleta analitike."

5. Enotna arhitektura podatkov

Navsezadnje bi moral tehnološki uradnik ali IT skrbnik, ki nadzira strategijo upravljanja podatkov v podjetju, razmisliti o posebnostih podrobnega dostopa, overjanja, varnosti, šifriranja in revizije. Toda tehnološki uradnik ali IT skrbnik se ne bi smel ustaviti; raje bi morala ta oseba razmišljati o tem, kako se vsaka od teh komponent poda v svojo večjo podatkovno arhitekturo. Razmisliti mora tudi o tem, kako mora biti ta infrastruktura razširljiva in varna - od zbiranja in shranjevanja podatkov vse do BI, analitike in storitev tretjih oseb. Gnau je dejal, da upravljanje podatkov temelji toliko na ponovnem premisleku o strategiji in izvajanju kot o sami tehnologiji.

" To presega eno steklo ali zbirko varnostnih pravil, " je dejal Gnau. "Gre za eno samo arhitekturo, kjer ustvarite te vloge in se sinhronizirajo po celotni platformi in vseh orodjih, ki jih vnesete vanj. Lepota varno urejene infrastrukture je okretnost, s katero se ustvarjajo nove metode. Na vsaki ravni platforme ali celo v v hibridnem oblačnem okolju imate eno samo referenčno točko, da razumete, kako ste implementirali svoja pravila. Vsi podatki potekajo skozi to plast varnosti in upravljanja."

Osnove velikih podatkov: kako sestaviti načrt upravljanja podatkov