Video: Modeliranje epidemije - dr. Žiga Zaplotnik, Fakulteta za matematiko in fiziko, Sledilnik.org (November 2024)
Revolucija velikih podatkov je na novo določila način delovanja podjetij; podatki podpirajo vse. Ne le, da so orodja z odprto kodo, kot sta Apache Hadoop in Spark, olajšala zbiranje, obdelavo in shranjevanje ogromnih količin podatkov v realnem času, ampak so nam s pomočjo poslovne inteligence (BI) in orodij za vizualizacijo podatkov pomagali opraskati površino analize in preoblikovanje teh podatkov za obveščanje o ključnih poslovnih odločitvah.
Kljub temu, da se je razvijala tehnologija Big Data in BI, se še vedno ukvarjamo s tako veliko količino podatkov, ki se nenehno sestavljajo, da je iskanje pravih točk za analizo še vedno videti kot potapljanje igel v neskončnem senu. Rešitev? Preoblikujte seneni nahod.
Vnesite podatkovna jezera, novo vrsto poslovne arhitekture v oblaku, ki strukturira podatke na bolj prilagodljiv način, kar olajša eksperimentiranje; omogoča bolj odprtost za raziskovanje in manipulacijo, ne pa zaklenjeno v toge sheme in silose. Nasry Angel, raziskovalec arhitekture podjetja pri podjetju Forrester Research, je pojasnil, zakaj podjetja uporabljajo arhitekture podatkovnih jezer.
"Sliši se klišejsko, a ko pomisliš na učinkovito sodobno podatkovno okolje, je veliko bolj eksperimentalno, " je dejal Angel. "Morate se hitro naučiti in hitro odpovedovati. V preteklosti je bilo upravljanje podatkov, zlasti v skladišču, vse do kakovosti, vse do decimalne vejice; preverite, ali je vse povsem natančno in resnično. različica resnice. Nato ustvarite popolno poročilo o pikslih in ga razstreli 5.000 uporabnikom.
"Dandanes gre za bolj znanstveni postopek. Hodite s hipotezo o podatkih, ki jih želite preizkusiti, in se želite igrati s podatki, mešati in se ujemati, preizkusiti različne stvari, preden greste in producirate nekaj."
Kaj je v podatkovnem jezeru?
Podatkovno jezero je shramba. Čeprav je Angel, za razliko od podatkovnega skladišča ali "podatkovnega marta", razložil, da se podatkovna jezera porazdelijo po več vozlišč namesto v fiksnem, strukturiranem okolju podatkovnega skladišča, ki temelji na shemah (glej spodaj infografiko).
"Podatkovno jezero vam omogoča, da uporabite shemo, ko zapisujete podatke v podatkovno skladišče, ki od vas zahteva, da naredite shemo za branje. Torej v bistvu podatkovno skladišče zahteva, da podatke modelirate, preden razumete njegov kontekst, kar ne Resnično nima smisla, "je rekel Angel.
Vir: JustOne Database, Inc. (Za ogled celotne slike kliknite na zgornjo grafiko.)
"Običajno imate v skladišču strokovnjake za informacijsko tehnologijo, ki sestavljajo tisto, kar menijo, da so najboljši modeli podatkov in niso končni uporabniki podatkov. Hitro lahko vidite, kako to ovira produktivnost in poslovno vrednost, " je dodal. "Na koncu morate biti vi in poslovni uporabniki tisti, ki sprejemate odločitve o strukturi podatkov, in v podatkovnem jezeru lahko najprej raziščete in ugotovite, kaj je tam, nato pa oblikujete shemo, da jo najbolje organizirate."
Podatkovna jezera so navadno zgrajena na Hadoopu in podjetniške distribucije Hadoop, kot sta Hortonworks in MapR, ponujajo arhitekture podatkovnih jezer. Podjetja lahko gradijo tudi podatkovna jezera z uporabo oblakov Infrastructure as-a-Service (IaaS), vključno z Amazon Web Services (AWS) in Microsoft Azure. Amazonov Elastic Compute Cloud (EC2) podpira podatkovna jezera, medtem ko ima Microsoft namenjeno platformo Azure Data Lake za shranjevanje in analizo podatkov v realnem času. Angel je dejal, da podatkovna jezera dozorevajo do te mere v prostoru Big Data, kjer lahko podjetja z razumnim zaupanjem začnejo vlagati v njih.
"Pred nekaj leti je bil Hadoop ves bes. Zdaj smo prišli do točke, ko je Hadoop komodiziran, " je dejal Angel. "Vprašanje ni, če je Hadoop, ampak kdaj in kaj boste počeli z njim. Katere vrste aplikacij boste zgradili na vrhu Hadoopa, ko boste podatke spravili na skupno mesto, kot je podatkovno jezero? Na tej točki gre za uporabo podatkov za razvoj aplikacij za zadovoljevanje vaših posebnih poslovnih potreb."
Gradnja na vrhu akumulacije podatkov
Najbolj navdušujoč del Big Data je vsa možnost, ki jo odklene. Ko ste nastavili podatkovno jezero, v katerem se lahko igrate in eksperimentirate z različnimi kombinacijami podatkov in poslovnimi rezultati, lahko začnete plastenje inovativnih tehnik analize.
Algoritmi strojnega učenja (ML) že postajajo del strukture oblačne infrastrukture in raziskovalci nenehno izboljšujejo tehnike globokega učenja in nevronskih mrež, da bi usposobili stroje in podatkovne sisteme za prepoznavanje zapletenih vzorcev. Napovedna analitika je vključena v vse več podatkovnih orodij in podjetniških platform, ki se uporabljajo za vse, od napovedovalnega ocenjevanja in avtomatizirane segmentacije za upravljanje odnosov s strankami (CRM) do prepoznavanja trendov na finančnem trgu in preprečevanja mehanskih napak v strojih.
Vse to se dogaja poleg ne glede na shranjevanje podatkov, ki ga vaše podjetje hrani in spreminja v skladu z njegovimi potrebami. Angel je spregovoril o nekaterih primerih uporabe v resničnem svetu, v katerih je videl, da podatkovna jezera spreminjajo način delovanja organizacij.
"Sodeloval sem z založbo, ki ima portfelj različnih revij - imajo publikacijo za odvetnike, drugo za računovodje, drugo za svetovalce itd. - in vsaka publikacija je imela svoje podatkovno skladišče. Vsaka publikacija je imela svoje silos, "je razložil Angel.
"Tako smo vse podatke izvlekli iz skladišča in jih dali v podatkovno jezero, podatkovno jezero pa jim je omogočilo ogled čez silose. Bili so sposobni raziskati podatke in odkriti podatke ter ugotovili, da v vseh teh različnih publikacijah, stranke o vseh revijah so se zanimale za kibernetsko varnost. Bralstvo o kibernetski varnosti je bilo močno v vseh teh različnih vlogah. Torej, kaj so storili? Kibernetsko varnost so postale tema njihove letne konference."
Drug primer, o katerem je Angel govoril, je e-trgovina. Drugi odjemalec, spletni trgovec z umetninami, je v podatkovno jezero odmetaval tono informacij in jih uporabljal ne le kot shrambo, temveč kot platno, da bi sestavil poslovne vpoglede. Trgovec je s seboj v jezero prinesel podatke o transakcijah (naročila, račune, plačila itd.), Podatke o klikah (nasledstvo klikov in strani vsakega obiskovalca spletnega mesta) ter podatke iz skladišča podatkov prodajalca in jih skupaj uporabljal za boj proti nakupovalni košarici. opuščanje in pretvorbe.
"Želite graditi na vrhu podatkovnega jezera in ga uporabljati za oblikovanje zapletenih poslovnih vpogledov, " je dejal Angel. "Trgovci z umetninami so si lahko ogledali kupčeve podatke o klikih in se ujemali s kliki s profili kupcev, nato pa uporabili podatke transakcij, da bi videli, kaj je stranka kupila v preteklosti, in uporabila ta vpogled za izvajanje zelo specifičnih e-poštnih kampanj. Torej, če stranka opusti V nakupovalnem vozičku lahko prodajalec prodajalcu stopi dve uri pozneje in reče: "Videli smo, da preverjate to Picasso; tukaj je povezava, če jo želite še enkrat pogledati."
Podatkovna jezera so splošno uporabna v vseh vrstah primerov poslovne uporabe. Toda Angel je za glavnega tehničnega direktorja (CTO) ali glavnega uradnika za varnost informacij (CISO), ki se ukvarja s selitvijo na arhitekturo, poudaril, da skladišča podatkov še niso zastarela, prav tako ne. Za večino organizacij podjetij, ne glede na to, ali uporabljate ponudnika oblakov ali distribucijo po meri Hadoop, podjetja še vedno potrebujejo oboje.
Podatkovna jezera vam omogočajo dostop do neprimerljivih vpogledov, tako da odstranite meje skladnosti podatkov v določeni shemi in z veliko nižjimi skupnimi stroški lastništva glede na uporabo poceni, fleksibilnega shranjevanja v oblaku, kot je AWS, za povečanje navzgor in navzdol - plačilo za procesno moč, ki jo dejansko uporabljate. Vodenje podatkovnega skladišča je dražje in posledično IT strokovnjaki naredijo bolj selektivnost glede podatkov, ki vstopajo in izhajajo. Toda za najbolj kritične podatke podjetja ni to slabo.
"Skladišče podatkov ima prednosti glede varnosti in je zelo enostavno orodje za nadzor upravljanja podatkov, " je dejal Angel. "Torej še vedno želite hraniti svoje najbolj občutljive podatke v skladišču, kritične stvari. Toda ko gre za nove poslovne priložnosti in odkrivanje skritih vpogledov, želite izkoristiti podatkovno jezero."