Kazalo:
Video: Gender Equality Index 2020: Can we wait 60 more years? (November 2024)
Podatki in poslovna inteligenca (BI) sta dve strani istega kovanca. Napredek na področju shranjevanja, obdelave in analiz je demokratiziral podatke do te mere, da vam ni treba biti strokovnjak za podatkovne zbirke ali podatkovni znanstvenik, če želite delati z ogromnimi nabori podatkov in pridobiti vpogled. Še vedno obstaja krivulja učenja, vendar BI in samopostrežna BI orodja za vizualizacijo podatkov na novo definirajo način, kako podjetja izkoriščajo vse podatke, ki jih zbirajo, v analitično analitiko. Vendar pa obstaja razlika med podjetjem, ki se ukvarja z BI ali bazo podatkov, ki lovi napredno analitiko, in bazo umetne inteligence (AI), ki je zasnovana za namene strojnega učenja (ML) in modelov globokega učenja.
Algoritmi ML so vtkani v tkanino večine današnje programske opreme. Potrošniške izkušnje se združujejo z AI prek virtualnih pomočnikov, v poslovni programski opremi pa obstajajo primeri, kot je Salesforce Einstein, ki delujejo kot inteligentna plast pod celotnim portfeljem upravljanja odnosov s strankami podjetja (CRM). Tehnološki velikani, vključno z Googlom in Microsoftom, še bolj poganjajo našo inteligentno prihodnost, ne le z raziskavami, temveč s prepisovanjem, kako njihova tehnologija deluje od zgoraj navzdol z AI.
Eden od izzivov pri modelih vadbenih strojev in globinskega učenja je čist obseg podatkov in procesorska moč, ki jo potrebujete za usposabljanje nevronske mreže, na primer za zapleteno prepoznavanje vzorcev na področjih, kot sta klasifikacija slik ali obdelava naravnega jezika (NLP). Zato se na trgu začnejo pojavljati baze podatkov o AI kot način za optimizacijo procesa učenja in usposabljanja za AI za podjetja. Pogovarjali smo se s ponudnikom relacijskih baz podatkov Kinetica, ki ga pospešuje GPU, ki je vgradil lastno bazo podatkov AI, in rezidentom PCMag BI in strokovnjakom za baze podatkov Pam Bakerjem, da demistificira, kaj je baza podatkov AI in kako deluje v primerjavi s tradicionalnimi bazami podatkov. Še pomembneje je, da smo zaprosili za njihovo pomoč pri razvrščanju oglaševalskih oglasov in trženja, da bi ugotovili, ali ima ta nastajajoči tehnik resnično poslovno vrednost ali ne.
Kaj so AI baze podatkov?
Hitro spreminjajoča se narava AI prostora lahko oteži vzpostavitev terminologije. Pogosto slišite izraze, kot so ML, poglobljeno učenje in AI, ki se medsebojno uporabljajo zamenljivo, ko v resnici še vedno razvijajo tehnike pod večjim okriljem AI. Baker je dejal, da obstajata dve zelo različni definiciji, kaj je baza podatkov AI, odvisno s kom govorite: ena praktična, druga pa bolj enakomerna.
"V industriji obstaja nekakšen ohlapen konsenz, da bi bila baza podatkov AI tista, ki bi delovala povsem brez naravnih jezikovnih poizvedb. Uporabniški vmesnik bi bil tak, da se vam ne bi bilo treba zanašati na iskalne izraze in ključne stavke. informacije, ki jih potrebujete, kar omogoča uporabniku, da pokliče nabore podatkov z NLP, «je dejal Baker. "Lahko bi podali zelo omejen argument, da IBM Watson lahko v sistem postavlja naravne jezikovne poizvedbe, vendar morate biti že povezani s podatki in sami izbrati podatke. Torej, ta definicija je zdaj zelo raztegljiva."
Bolj praktična definicija in tema tega razlagala je v bistvu uporaba namenske baze podatkov za pospešitev usposabljanja za model ML. Številna tehnološka podjetja že razvijajo namenske AI čipe za ublažitev velike obremenitve pri obdelavi novih izdelkov strojne opreme, saj prodajalci uvajajo več funkcij, ki temeljijo na AI, ki zahtevajo znatno računalniško moč. Na strani podatkov vam lahko uporaba baze podatkov AI pomaga bolje rešiti obseg, hitrost in zapletene izzive pri upravljanju in upravljanju podatkov, povezanih s treniranjem ML in modeli poglobljenega učenja, s čimer prihranite čas in optimizirate vire.
Kreditna slika: Todd Jaquith na Futurism.com. Kliknite, če želite razširiti celotno infografiko
"Trenutno je veliko truda za pospešitev treningov ML s pomočjo različnih različnih taktik, " je pojasnil Baker. "Eno je ločiti infrastrukturo od raziskovalcev AI, ki delajo kodiranje, tako da avtomatizirane funkcije upravljajo z infrastrukturo in trenirajo model ML. Torej, namesto da bi porabili nekaj kot tri mesece, boste morda gledali 30 dni ali 30 minut."
Kinetica to idejo razdeli na integrirano platformo baze podatkov, optimizirano za ML in poglobljeno učenje. Baza podatkov AI združuje shranjevanje podatkov, napredno analitiko in vizualizacije v bazi podatkov v pomnilniku. Mate Radalj, podpredsednik in glavni inženir programske opreme skupine Kinetica Advanced Technology Group, je pojasnil, da bi morala AI baza podatkov biti sposobna istočasno zaužiti, raziskati, analizirati in vizualizirati hitro premikajoče se zapletene podatke v milisekundah. Cilj je znižati stroške, ustvariti nove prihodke in vključiti modele ML, da bi podjetja lahko sprejemala bolj učinkovite, na podlagi podatkov odločitve.
"AI baza podatkov je podmnožica splošne baze podatkov, " je dejal Radalj. "Trenutno so baze podatkov AI zelo priljubljene. Toda veliko rešitev uporablja porazdeljene komponente. Spark, MapReduce in HDFS se vedno vrtijo naprej in nazaj, ne pa v pomnilniku. Nimajo sotočja dejavnikov, kot je naša baza podatkov, ki je bil zgrajen od začetka navzgor s tesno integriranimi CPU-ji in GPU-ji na eni platformi. Prednost na visoki ravni so hitrejše zagotavljanje in nižji strojni odtis treninga na osnovi modelov, s hitrim preoblikovanjem in analitiko, integriranimi v isto platformo."
Kako deluje baza podatkov AI
V praksi je več primerov baz podatkov AI. Microsoft Batch AI ponuja infrastrukturo, ki temelji na oblaku, za usposabljanje modelov globokega učenja in ML, ki delujejo na Microsoftovih procesorjih Azure. Podjetje ima tudi svoj izdelek Azure Data Lake, ki podjetjem in podatkovnim znanstvenikom olajša obdelavo in analizo podatkov v porazdeljeni arhitekturi.
Drug primer je Googlov pristop AutoML, ki v osnovi prenovo načina usposabljanja modelov ML. Google AutoML avtomatizira načrtovanje modela ML za ustvarjanje novih arhitektur nevronskih omrežij na podlagi določenih podatkovnih nizov, nato pa tisočekrat preskusi in iterati na boljše sisteme. V resnici lahko Googlov AI zdaj ustvari boljše modele kot človeški raziskovalci.
"Poglejte Google AutoML: ML napiše ML kodo, da ljudi sploh ne potrebujete, " je dejal Baker. "To vam daje predstavo o tem, kakšna je izjemna razlika v tem, kaj počnejo prodajalci. Nekateri poskušajo prenesti napredne analitike kot ML - in to ne. Drugi pa ML počnejo na tako napredni ravni, ki presega večino podjetja lahko v tem trenutku razumejo."
Potem je tu še Kinetica. Zagon s sedežem v San Franciscu, ki je zbral 63 milijonov ameriških dolarjev financiranja tveganega kapitala (VC), ponuja visoko zmogljivo bazo podatkov SQL, optimizirano za hitro zaužitje podatkov in analitiko. Kinetica je tisto, kar je Radalj opisal kot množično vzporedno obdelano (MPP) porazdeljeno bazo podatkov in računalniško platformo, v kateri ima vsako vozlišče soodstavljene podatke v pomnilniku, CPU in GPU.
Po čem se baza podatkov AI razlikuje od tradicionalne baze, je pojasnil Radalj, kar se tiče treh glavnih elementov:
- Pospešeno zaužitje podatkov,
- So-lokacija podatkov v pomnilniku (vzporedna obdelava v vseh vozliščih baze podatkov) in
- Skupna platforma za znanstvenike podatkov, programske inženirje in skrbnike baz podatkov, da hitreje ponavljajo in testirajo modele ter rezultate uporabijo neposredno na analitiki.
Za vse strokovnjake, ki to berejo, niso bazo podatkov in strokovnjaki z modeli AI, je Radalj razčlenil vse te tri osnovne elemente in razložil, kako se baza podatkov AI povezuje z otipljivo poslovno vrednostjo. Razpoložljivost in zaužitje podatkov sta ključna, saj sposobnost obdelave pretočnih podatkov v realnem času omogoča podjetjem hitro ukrepanje na podlagi vpogleda v AI.
"Imamo maloprodajnega kupca, ki je želel vsakih pet minut spremljati prodajne cene po trgovinah, " je dejal Radalj. "Želeli smo uporabiti AI, da na podlagi zadnjih nekaj ur zgodovinskih podatkov napovemo, ali naj dopolnijo zaloge in optimizirajo ta postopek. Toda za to strojno dopolnjevanje zalog je potrebno podpreti 600-1200 poizvedb na sekundo. je baza podatkov SQL in baza podatkov AI, zato lahko s takšno hitrostjo zaužijemo podatke. Če smo se srečali s to poslovno misijo, smo ustvarili aplikacijo, ki je prinesla več ROI."
Baker se je strinjal, da ML zahteva ogromno podatkov, zato bi bilo zaužitje hitro zelo pomembno za bazo podatkov o AI. Drugi dejavnik, koncept "lokalizacije podatkov v pomnilniku", vzame nekoliko več razlage. Podatkovna zbirka v pomnilniku shranjuje podatke v glavni pomnilnik, ne pa v ločen disk. To omogoča hitrejšo obdelavo poizvedb, zlasti v bazah analitike in BI. Po lokalnem lokalu je Radalj pojasnil, da Kinetica ne ločuje računskih vozlišč CPU in GPU v primerjavi s vozlišči za shranjevanje.
Kot rezultat, podatkovna zbirka AI podpira vzporedno obdelavo - ki posnema človeške možgane zmožnosti predelave več dražljajev - hkrati pa ostaja razporejena po razširljivi infrastrukturi baze podatkov. To preprečuje večji odtis strojne opreme, ki je posledica tega, kar je Radalj imenoval "pošiljanje podatkov" ali potrebe po pošiljanju podatkov med različnimi komponentami baze podatkov.
"Nekatere rešitve uporabljajo orkestratorja, kot je IBM Symphony, za načrtovanje dela v različnih komponentah, medtem ko Kinetica poudarja delovanje pošiljanja na sosednje vire, z napredno optimizacijo za zmanjšanje prenosa podatkov, " je dejal Radalj. "Ta lokalnost se ponaša z vrhunsko zmogljivostjo in pretočnostjo, zlasti pri zelo hkratnih velikih poizvedbah na velikih zbirkah podatkov."
Glede dejanske strojne opreme baze podatkov je Kinetica partner z Nvidio, ki ima vse večjo ponudbo AI GPU-jev in raziskuje priložnosti z Intelom. Radalj je še dejal, da podjetje stalno spremlja nastajajočo AI strojno opremo in infrastrukturo v oblaku, kot so Googlove tenzorske procesne enote (TPU).
Končno obstaja ideja o enotnem modelu usposabljanja. Podatkovna zbirka AI je učinkovita le, če koristi hitrejšega zaužitja in predelave služijo večjim, poslovno naravnanim ciljem za ML in podjetjem ter poglobljenim učenjem. Radalj omenja bazo podatkov AI Kinetica kot "platformo modelnih cevovodov", ki izvaja gostovanje podatkov s pomočjo znanstvenih podatkov.
Vse to se prilagaja hitrejšemu testiranju in iteraciji za razvoj natančnejših ML modelov. Na tej točki je Baker dejal, da sodelovanje na enoten način lahko pomaga vsem inženirjem in raziskovalcem, ki delajo na usposabljanju ML ali model učenja globokega učenja, hitreje kombinirati, kar deluje, v nasprotju s stalnim izumljanjem vseh korakov v procesu usposabljanja. Radalj je dejal, da je cilj ustvariti delovni potek, v katerem hitrejše zaužitje, pretakanje in poizvedovanje pokažejo rezultate modela, ki jih je mogoče takoj uporabiti za BI.
"Podatkovni strokovnjaki, programski inženirji in skrbniki baz podatkov imajo enotno platformo, na kateri se lahko delo jasno razmeji na samem podatku o znanosti, pisanju programske programske opreme in SQL podatkovnih modelih in poizvedbah, " je dejal Radalj. "Ljudje delajo bolj čisto skupaj na tistih različnih področjih, kadar gre za skupno platformo. Cilj, ki je pogostejši kot ne pri vodenju ML in poglobljenem učenju, je, da želite uporabiti rezultate tega - koeficiente in spremenljivke - v povezavi z analitiko in izkoristite izhod za stvari, kot je točkovanje ali za napoved kaj koristnega."
Hype ali resničnost?
Vrednost spodnje vrstice baze podatkov AI, vsaj tako, kot jo definira Kinetica, je v optimizaciji računskih in podatkovnih virov. To pa vam omogoča, da ustvarite boljše modele ML in poglobljenega učenja, jih hitreje in učinkoviteje usposabljate in vzdržujete dober način, kako bo AI uporabljen v vašem podjetju.
Radalj je navedel primer upravljanja flote ali prevoznih podjetij. V tem primeru bi lahko baza podatkov AI obdelala ogromne tokove informacij v realnem času iz voznega parka. Potem bi lahko z modeliranjem teh geoprostorskih podatkov in kombiniranjem z analitiko bazo dinamično ponovno usmerili tovornjake in optimizirali poti.
"Lažje je hitro priskrbeti, prototipirati in preizkusiti. V AI se vrti beseda" modeliranje ", vendar gre za kolesarjenje po različnih pristopih - več podatkov, tem boljše - znova in znova, znova in znova, testiranje, primerjanje in prihajajo z najboljšimi modeli, «je dejal Radalj. "Nevronske mreže so dobile življenje, ker je več podatkov kot kadar koli prej. In učimo se, da bomo lahko izračunali po njem."
Konec koncev je Kinetica, ki se nahaja v zbirki podatkovnih baz in platforme plinovodov, le en pristop v prostoru, ki lahko pomeni veliko različnih stvari, odvisno od tega, koga vprašate. Baker je dejal, da je izziv za kupca na trgu, ki se še vedno razvija in je eksperimentalen, ugotoviti, kaj točno prodaja ponudnik baz podatkov AI.
"Kot poslovni koncept, poglobljeno učenje, ML, in vse to je trden koncept. Razvijamo tehnološka vprašanja, ki so rešljiva, čeprav jih še nismo rešili, " je dejal Baker. "To ne pomeni, da je to zrel prostor, ker ga vsekakor ni. Rekel bi, da" kupec bodi pozoren ", ker nekaj, kot je ML, ali pa tudi ne more biti. Morda je to le napredna analitika za vrtne sorte."
Glede tega, ali so v AI podatkovnih zbirkah trenutno vse hype ali pa predstavljajo pomemben trend za to, kje se dogaja, je Baker dejal, da gre za oboje. Povedala je, da Big Data kot marketinški izraz zdaj ni naklonjen. Baker je dejal, da zdaj obstaja nekaj tržne povezave med naprednimi, na osnovi podatkov usmerjenimi analitikami in resničnimi ML in algoritmi globokega učenja. Ne glede na to, ali govorite o zbirki podatkov za modeliranje ML ali o samozavednih AI, ki jih je pop kultura zasanjala, se vse začne in konča s podatki.
"Podatki se bodo uporabljali v poslu, dokler se čas ne konča; za poslovanje je ravno to ključno, " je dejal Baker. "Ko govorite v smislu znanstvene fantastike, je AI samoumevna inteligenca. Takrat začnete govoriti o posebnosti in robotih, ki prevzamejo svet. Ali se to zgodi ali ne, ne vem. Odšel bom to Stephenu Hawkingu."