Domov Posel 7 nasvetov za uspeh strojnega učenja

7 nasvetov za uspeh strojnega učenja

Kazalo:

Video: PLANTS VS ZOMBIES 2 LIVE (November 2024)

Video: PLANTS VS ZOMBIES 2 LIVE (November 2024)
Anonim

Prvi del našega poslovnega vodnika za strojno učenje (ML) je razložil, kako je krovni koncept ML v poslovnem okolju veliko bolj zasvežen. Najučinkovitejše strategije gledajo na ML v praktičnem smislu, saj uporabljajo tako zapleteno poglobljeno učenje kot tudi manj intenzivne tehnike "poceni učenja" za optimizacijo poslovnih procesov in pridobivanje oprijemljivih vpogledov v poslovno inteligenco (BI).

Cilj uvajanja ML v vaše poslovne aplikacije je izboljšati spodnjo vrstico ali pritisniti na konkurenčno prednost vašega podjetja. Toda v širši shemi vaše organizacije kar največ časa in sredstev, ki jih vložite v ta postopek, presega algoritme. Organi, ki sprejemajo odločitve v svojem podjetju, morajo poskrbeti, da vse, kar je povezano z vašo uveljavitvijo ML - od podatkov in logistike do tega, kako sodelujete z uporabniki - deluje skupaj, da bi dosegli največjo učinkovitost.

Ted Dunning, doktor znanosti, je glavni arhitekt aplikacij pri MapR, podjetniškem programskem podjetju, ki ponuja različne distribucije velikih podatkov in orodja za upravljanje podatkov. Dunning je tudi soavtor dveh knjig o tem, kar imenuje "Praktično strojno učenje", in razvil tehnologije ML za več podjetij v preteklih letih, vključno s sistemom za odkrivanje prevar ID Analytics (kupil ga je LifeLock) in programsko opremo Musicmatch Jukebox, ki je kasneje postal Yahoo Music. Trenutno je tudi podpredsednik inkubacije za programsko fundacijo Apache.

Dunning je opazoval, kako se ML prostor razvija skozi desetletja, in se naučil veliko o tem, kaj deluje in kaj ne v praktičnem poslovnem okolju. V nadaljevanju Dunning navaja sedem najboljših praks, ki jih je treba upoštevati pri razvijanju poslovnih rešitev, zakoreninjenih v ML.

1. Ne pozabite na logistiko

Uspešen ML ne gre samo za izbiro pravega orodja ali algoritma. Dunning je dejal, da morate tudi ugotoviti, kakšen pristop je primeren in ga oblikovati glede na situacijo, ki jo obravnavate. Dunning je na primer v spletni marketinški kampanji govoril o ML, v nasprotju s precej bolj zapletenimi scenariji, kot so algoritmi, ki vodijo avtonomni avtomobil. Poraba virov za izboljšanje postopnega izboljševanja algoritmov je za avtomobila težavna, v trženjskem scenariju pa bi videli veliko boljšo donosnost od optimizacije celotne logistike okoli njega.

"Pogosto za podjetja daje vrednost logistika in ne učenje. To je tisti del, na katerega bi morali porabiti svoj čas in vire, " je dejal Dunning. "Prilagoditev algoritma bi vam prinesla majhno izboljšanje. Toda prilagajanje teh podatkov, grafičnega vmesnika in tega, kako poslušate in sodelujete s svojimi uporabniki, bi vam lahko preprosto prineslo 100-odstotno izboljšanje. Poraba časa za spreminjanje algoritma je vredna le delčka, saj veliko za podjetja, kot poslušanje vaših uporabnikov."

Da bi ponazoril to točko, je Dunning razložil, kako je nekoč v zbirki podatkov o strankah zgradil model za prepoznavanje goljufij v aplikacijah (odpiranje ponarejenih računov z ukradeno identiteto). Model, ki ga je zgradil, je imel odlične rezultate, vendar je Dunning opazil, da je zelo močno tehtal spol prosilca.

Izkazalo se je, da je logistika izključena. Način delovanja prijavnega procesa je vlagatelj spola izpolnil šele po tem, ko je že postal stranka in je opravil več preglednih ukrepov za odstranjevanje goljufij. Torej je z uporabo polja spola model ML prevaral logistiko celotnega postopka goljufij. To nima nobene povezave z algoritmom in s tem, kako je podjetje pridobivalo svoje podatke.

2. Upoštevajte svoje podatke

Dunning je poln privlačnih sitnosti modrosti. Ko je začel z "logistiko in ne učenjem", je dejal, da je druga polovica te ideje "to so podatki, ne algoritmi." Velik del zagotavljanja, da vaši algoritmi za ML zagotavljajo dragocene vpoglede, zagotavlja, da jih hranite z ustreznimi podatki. Dunning je dejal, da če ne dobite rezultata, za katerega iščete, potem pogosteje ne, ker ne uporabljate pravih podatkov.

"Ljudje so vsi zviti in ego vezani na določene algoritme, danes pa lahko zaradi orodij, ki jih imajo tam, vsi in njihova mati naredijo vse vrste novih algoritmov, " je dejal Dunning. "Podatki so veliko pomembnejši in vam bodo omogočili veliko večjo težo kot neskončno prepletanje algoritmov. Če delate na težkih težavah, kot sta prepoznavanje govora ali računalniški vid, je to ena stvar. Ampak to je polje, ki temelji na podatkih. V večini scenarijev boste imeli veliko več koristi od prilagajanja podatkov, ki jih dobivate, in spreminjanja vprašanja."

To je storil Dunning sredi 2000-ih, ko je v podjetju, imenovanem Veoh Networks, zgradil mehanizem za video priporočila. Skupina je delala, da je prepoznala pare video posnetkov, ki so jih ustvarili uporabniki, na katere so ljudje kliknili več, kot je bilo pričakovano, vendar algoritem ni deloval. Razmišljali so o glasbi, kjer uporabniki svoje priljubljene izvajalce in pesmi poznajo po imenu. Torej so vprašanje spremenili tako, da so prilagodili uporabniški vmesnik, ne da bi se dotaknili samega algoritma.

"V videoposnetkih, ki jih ustvarijo uporabniki, nihče ne ve, da so izvajalci in številni videoposnetki imeli resnično neželene naslove, da bi dobili več ogledov. Kolesarjenje po poteh algoritma nam nikoli ne bi dalo dobrih rezultatov, " je dejal Dunning. "Kar smo storili, smo spremenili uporabniški vmesnik, da oddaja signal svetilnika vsakih 10 sekund. Ugotovili smo, da če za neobdelane podatke priporočila uporabimo beacon namesto klikov, dobimo odlične rezultate. Na tej spremembi je bilo več stoodstotno izboljšanje ukvarjanja zaradi priporočil, brez algoritmičnih sprememb."

3. Algoritmi niso čarobne metke

Izvedbe ML uspevajo v nenehnih poskusih in napakah. Ne glede na to, kako dobri so vaši algoritmi, če vaš sistem medsebojno deluje s človekom, ga bo treba sčasoma prilagoditi. Dunning je poudaril, da morajo podjetja nenehno meriti splošno učinkovitost njihovega izvajanja ter prepoznavati spremembe in spremenljivke, ki ga izboljšujejo in slabšajo. To morda zveni kot plavist, vendar je Dunning dejal, da kljub temu, kako očitno zveni, zelo malo ljudi to počne ali dela dobro.

"Veliko ljudi želi namestiti sistem ali sprejeti nekaj ukrepov in želi, da se njihov algoritem popolnoma večno zažene, " je dejal Dunning. "Noben algoritem ne bo čarobna krogla. Nobena zasnova uporabniškega vmesnika se ne bo večno držala. Nobena metoda zbiranja podatkov ne bo nikoli nadomeščena. Vse to se lahko zgodi in zgodi, podjetja pa morajo budno meriti, ocenjevati in ponovno ocenjevati, kako njihova sistem deluje."

4. Uporabite raznoliko nabor orodij

Na voljo je več deset orodij za ML, številna od njih lahko uporabite brezplačno. V številnih projektih Apache Software Foundation (ASF), vključno z Mahout, Singa in Spark, imate knjižnice odprtega izvora, kot so Caffe, H20, Shogun, TensorFlow in Torch ter ML. Nato so na voljo naročniške možnosti, vključno z Amazon Machine Machine, BigML in Microsoft Azure Machine Learning Studio. Microsoft ima tudi brezplačen kognitivni pripomoček.

Na voljo je nešteto virov. Dunning se je pogovarjal s številnimi podjetji, strokovnjaki s področja podatkov in strokovnjaki za ML in jih vedno vprašal, koliko različnih okvirov in orodij uporabljajo. Dunning je v povprečju povedal, da uporabljajo najmanj 5-7 orodij in pogosto veliko več.

"Ne morete se prilepiti na eno orodje. Uporabiti boste morali več in kot takšno je bolje, da zgradite svoj sistem na način, ki je agnostičen, " je dejal Dunning. "Vsak, ki vas skuša prepričati, da je to orodje edino, kar boste kdaj potrebovali, vam proda blagajno.

"Prihodnji teden se lahko zgodi nekaj, kar bo razjezilo voziček z jabolki, in s hitrostjo inovativnosti, ki jo opažamo, se bo to dogajalo vsaj še pet do 10 let, " je nadaljeval Dunning. "Poglejte si poceni primer učenja, kjer morda ponovno uporabljate obstoječi klasifikator slik za analizo slik v katalogu. To je globoko učenje z vrženim računalniškim vidom. Vendar pa obstajajo orodja, ki vse to vse zapakirajo. za merjenje, ocenjevanje in nihanje med različnimi orodji in vaša infrastruktura mora biti temu dobrodošla."

5. Eksperimentirajte s hibridnim učenjem

Dunning je dejal, da lahko poceni in poglobljeno učenje kombinirate tudi v nekaj hibridnega. Na primer, če vzamete obstoječi model računalniškega vida in znova zgradite zgornjih nekaj slojev, kjer se sprejema odločitev, potem lahko izberete obstoječi okvir za povsem nov primer uporabe. Dunning je opozoril na tekmovanje Kaggle, v katerem so tekmovalci storili prav to; vzeli so nabor podatkov in napisali nov algoritem, da bi računalniku pomagali razlikovati mačke od psov.

"Razlikovanje mačk in psov je zelo algoritem za algoritem ML. Razmislite o logiki: Mačke imajo koničasta ušesa, ampak tudi nemški ovčarji. Psi nimajo pik, razen Dalmatincev itd. To je lahko precej težko prepoznati samo po sebi, "je dejal Dunning. "Tip, ki je zmagal, je razvil sistem, ki je to naredil z 99-odstotno natančnostjo. Bolj pa me je navdušil človek, ki je prišel na tretje mesto. Namesto da bi gradil iz nič, je vzel obstoječi program za prepoznavanje slike iz druge naloge, vzel je zgornji sloj in vanj je postavil preprost klasifikator. Navedel je nekaj primerov in kmalu je bil 98-odstotno natančen pri razlikovanju mačk od psov. Celoten postopek je fantu trajal tri ure."

6. Poceni ne pomeni slabo

Kljub očitni konotaciji je Dunning dejal, da poceni učenje ne pomeni slabega učenja. Količina časa, ki ga porabite za izvajanje ML, neposredno ne ustreza njegovi poslovni vrednosti. Pomembnejša kakovost je, po njegovem mnenju, zagotoviti, da je postopek ponovljiv in zanesljiv. Če podjetje lahko to doseže, ne da bi vložilo neupravičeno količino sredstev, potem je to še toliko bolje.

"Poceni ne pomeni slabo. Če deluje, deluje, če je poceni in deluje, je to veliko. Toda trud, ki ga vložiš v gradnjo, ne določa vrednosti. To je neskladnost stroškov, " je dejal Dunning. "Vrednost določa, kako izboljša poslovanje. Če izboljša dobiček ali zmanjša stroške ali izboljša vaše konkurenčne razmere. To je učinek, ne trud."

7. Ne kliči AI

Dunning je poudaril, da morajo podjetja, ko govorijo o teh tehnikah, uporabljati natančno terminologijo: ML, računalniški vid ali poglobljeno učenje. Vse to ponavadi spada pod krovni izraz "umetna inteligenca", toda po Dunningu je definicija AI preprosto "stvari, ki še ne delujejo."

"Najboljša definicija, ki sem jo slišal za AI, je, da stvari, ki je še ne znamo razložiti. To, kar še nismo ugotovili, " je dejal Dunning. "Vsakič, ko se lotimo dela, ljudje rečejo:" Oh, to ni AI, ampak samo programska oprema. To je samo motor s pravili. To je res samo regresija logistike. " Preden nekaj ugotovimo, mu rečemo AI. Potem ga vedno poimenujemo še kaj drugega. V mnogih pogledih je AI bolje uporabiti kot besedo za naslednjo mejo in v AI vedno obstaja naslednja meja. kam gremo, ne tja, kamor smo že prispeli."

7 nasvetov za uspeh strojnega učenja