Kazalo:
Video: Razvoj umetne inteligence in načini strojnega učenja (Dr. Boris Cergol) — AIDEA Podkast #10 (November 2024)
Na tokratni konferenci SC16 Superračunalništvo sta izstopala dva trenda. Prva je pojavljanje Intelovega najnovejšega Xeon Phi-ja (Knights Landing) in Nvidijinega najnovejšega Tesla (P100 s sedežem v Pascalu) na seznamu Top500 najhitrejših računalnikov na svetu; oba sistema sta pristala na vrhu 20. Drugi je velik poudarek na tem, kako izdelovalci čipov in sistemov jemljejo koncepte iz sodobnih sistemov strojnega učenja in jih uporabljajo v superračunalnikih.
Na trenutni reviziji seznama Top500, ki se posodablja dvakrat letno, je vrh lestvice še vedno trdno v rokah računalnika Sunway TaihuLight iz kitajskega nacionalnega centra za računalništvo v Wuxiju in računalnika Tianhe-2 iz kitajskega nacionalnega super računalnika Center v Guangzhouu, kot že od junijske razstave ISC16. Noben drug računalnik nima skupnih rezultatov, tretje- in četrto uvrščeni sistemi - še vedno superračunalnik Titan v Oak Ridgeu in sistem Sequoia v Lawrence Livermore - oba, ki prinašajo približno polovico zmogljivosti Tianhe-2.
Prvi od njih temelji na edinstvenem kitajskem procesorju, 1, 45 GHz SW26010, ki uporablja 64-bitno jedro RISC. Ta ima neprekosljivih 10.649.600 jeder, ki zagotavljajo 125, 4 petaflopov teoretične najvišje prepustnosti in 93 petaflopov največje izmerjene zmogljivosti na Linpack referenčni vrednosti, pri čemer porabijo 15, 4 megavatov moči. Upoštevati je treba, da čeprav ta stroj z veliko maržo presega lestvice v Linpack izvedbi, pa pri drugih testih ne deluje tako dobro. Obstajajo tudi druga primerjalna merila, kot je primerjalno gradivo High Performance Conjugate Gradients (HPCG), kjer stroji ponavadi vidijo le 1 do 10 odstotkov svojih teoretičnih vrhunskih zmogljivosti in kjer zgornji sistem - v tem primeru stroj Riken K - še vedno zagotavlja manj kot 1 petaflop.
Toda Linpackovi testi so standard za pogovore o visokozmogljivem računalništvu (HPC) in o tem, kaj se uporablja za ustvarjanje seznama Top500. S preskusi Linpack je bil stroj številka 2, Tianhe-2, v zadnjih nekaj letih na lestvici in uporablja Xeon E5 in starejše Xeon Phi (Knights Corner) pospeševalnike. To ponuja 54, 9 petaflopov teoretične najvišje zmogljivosti in referenčnih vrednosti pri 33, 8 petaflopov v Linpacku. Številni opazovalci menijo, da je Kitajska k prepovedi izvoza novejših različic Xeon Phi-ja (Knights Landing) ustvarila lasten superračunalniški procesor.
Knights Landing, formalno Xeon Phi 7250, je imel veliko vlogo v novih sistemih na seznamu, začenši s superračunalnikom Cori iz Nacionalnega laboratorija Lawrence Berkeley, ki je bil na petem mestu, z najvišjo zmogljivostjo 27, 8 petaflops in izmerjeno zmogljivostjo 14 petaflopov. Gre za sistem Cray XC40, ki uporablja medsebojno povezavo Aries. Upoštevajte, da lahko Knights Landing deluje kot glavni procesor, pri čemer 68 jeder na procesor prinese 3 najvišje teraflope. (Intel navaja drugo različico čipa z 72 jedri pri 3, 46 teraflopov najvišje teoretične dvojne natančnosti v svojem ceniku, vendar noben od strojev na seznamu ne uporablja te različice, morda zato, ker je cenovno ugodnejši in porabi več energije.)
Prej je Xeon Phis lahko deloval kot pospeševalnike v sistemih, ki so jih nadzirali tradicionalni procesorji Xeon. Na šestem mestu je bil japonski sistem Oakforest-PACS skupnega Centra za napredni visokozmogljiv računalnik, ki je dosegel 24, 9 vršnih petaflopov. To gradi Fujitsu, ki uporablja Knights Landing in Intelov Omni-Path povezavo. Knights Landing se uporablja tudi v sistemu številka 12 (računalnik Marconi v italijanski CINECA, ki ga je zgradil Lenovo in uporablja Omni-Path) in sistem št. 33 (Kamfor 2 na japonski univerzi v Kjotu, ki ga je zgradil Cray in uporablja Oven medsebojno povezovanje).
Na novem seznamu je bila dobro zastopana tudi Nvidia. Sistem št. 8, Piz Daint v Švicarskem nacionalnem centru za superračunalništvo, je bil nadgrajen na Cray XC50 z Xeoni in Nvidia Tesla P100, zdaj pa ponuja nekaj manj kot 16 petaflopov teoretične vrhunske zmogljivosti in 9, 8 petaflopov zmogljivosti Linpack-a velik nadgradnja s 7, 8 petaflopov z največjo zmogljivostjo in 6, 3 petaflops zmogljivosti Linpack v svoji prejšnji iteraciji, ki temelji na Cray XC30 s pospeševalci Nvidia K20x.
Drugi sistem s seznama P100 na seznamu je bil Nvidijin lastni DGX Saturn V, ki temelji na lastnih sistemih DGX-1 podjetja in povezovalnem sistemu Infiniband, ki je na seznam prišel pri številki 28. Upoštevajte, da Nvidia zdaj prodaja tako procesorje kot tudi napravo DGX-1, ki vključuje programsko opremo in osem Tesla P100. Sistem DGX Saturn V, ki ga Nvidia uporablja za notranje raziskave AI, ima skoraj 4, 9 vršnih petaflopov in 3, 3 Linpack petaflopov. Kar pa Nvidia izpostavlja, je, da porabi le 350 kilovatov moči, zaradi česar je veliko bolj energetsko učinkovit. Kot rezultat tega je ta sistem na vrhu seznama Green500 najbolj energetsko učinkovitih sistemov. Nvidia opozarja, da je to bistveno manj energije kot sistem Xaon Phi, ki temelji na Camfor 2, ki ima podobne zmogljivosti (skoraj 5, 5 petaflops vrha in 3, 1 Linpack petaflops).
Zanimiva je primerjava, saj Nvidia kaže boljši energetski izkoristek na GPU-ju, Intel pa bolj znani programski model. Prepričan sem, da bomo v prihodnjih letih videli večjo konkurenco, saj se različne arhitekture tekmujejo, da bi kdo od njih prvi dosegel "izredno računalništvo" ali pa bo namesto tega prišel kitajski domači pristop. Trenutno projekt ameriškega ministrstva za energetiko za razveljavitev pričakuje, da bodo prvi stroji za podaljševanje nameščeni leta 2022 in začeli s prodajo naslednje leto.
Zanimivo se mi zdi, da kljub poudarku na več jedrnih pospeševalcih, kot sta Nvidia Tesla in Intel Xeon Phi, le 96 sistemov uporablja take pospeševalnike (vključno s tistimi, ki uporabljajo Xeon Phi samo); v nasprotju s 104 sistemi pred letom dni. Intel je še vedno največji ponudnik čipov s čipi v 462 od 500 najboljših sistemov, sledijo jim procesorji IBM Power v 22. Hewlett-Packard Enterprise je ustvaril 140 sistemov (vključno s tistimi, ki jih je zgradil Silicon Graphics, ki jih je HPE pridobil), Lenovo 92 in Cray 56.
Tekmovanje v strojnem učenju
Na šovu ali okoli njega je bilo objavljenih več objav, večina pa se je ukvarjala z neko obliko umetne inteligence ali strojnega učenja. Nvidia je napovedala partnerstvo z IBM-om na novem orodju za globoko učenje z imenom IBM PowerAI, ki poganja strežnike IBM Power s povezavo Nvidia NVLink.
AMD, ki je bil pozoren tako v HPC kot v strojnem učenju, si prizadeva, da bi to spremenil. Na tem področju se je podjetje osredotočilo na lastne Radeon GPU-je, potisnilo svoje strežnike GPP FirePro S9300 x2 in napovedalo partnerstvo z Googlovo platformo za oblak, da bi jo lahko uporabljali prek oblaka. Toda AMD ni vložil toliko v programsko opremo za programiranje GPU-jev, saj poudarja OpenCL nad lastniškim pristopom Nvidie. AMD je na razstavi predstavil novo različico svoje Radeon Open Compute Platform (ROCm) in predstavil načrte za podporo svojih GPU-jev v raznovrstnih računalniških scenarijih z več CPU-ji, vključno s svojimi prihajajočimi »Zen« x86 CPU-ji, ARM-arhitekturami, ki se začnejo s Cavium's ThunderX in Procesorji IBM Power 8.
Intel je na razstavi govoril o novi različici svojega trenutnega čipa Xeon E5v4 (Broadwell), uglašenem za delovne obremenitve s plavajočo točko, in o tem, kako bo prihodnje leto izšla naslednja različica, ki temelji na platformi Skylake. Toda pozneje v tem tednu je Intel objavil vrsto napovedi, namenjenih pozicioniranju svojih čipov v prostoru umetne inteligence ali strojnega učenja. (Tukaj gre za ExtremeTech.) Veliko tega ima posledice za visoko zmogljivo računalništvo, vendar je večinoma ločeno. Za začetek, poleg standardnih procesorjev Xeon, podjetje tudi promovira FPGAs za izvajanje večine vpletanja v nevronske mreže. To je en velik razlog, da je podjetje pred kratkim kupilo Altera, takšne FPGA pa zdaj uporabljajo podjetja, kot je Microsoft.
Toda poudarek na AI se je prejšnji teden ukvarjal z nekaj novejšimi žetoni. Najprej je tu Xeon Phi, kjer je Intel nakazal, da bo sedanjo različico Knights Landing naslednje leto dopolnil z novo različico, imenovano Knights Mill, namenjeno trgu "globokega učenja". Na IDF je napovedano, da gre za še eno 14nm različico, vendar s podporo za natančne izračune, ki se pogosto uporabljajo pri usposabljanju nevronskih mrež. Dejansko je ena od velikih prednosti sedanjih čipov Nvidia pri poglobljenem učenju njihova podpora za natančne izračune in 8-bitne celoštevilne operacije, ki jih Nvidia pogosto označuje kot globoko učenje "terapevtov". Intel je povedal, da bo Knights Mill dosegel do štirikrat večjo uspešnost Knights Landing za poglobljeno učenje. (Ta čip je še vedno predviden, da mu bo pozneje sledila 10nm različica z imenom Knights Hill, ki je verjetno bolj usmerjena na tradicionalni računalniški trg z visoko zmogljivostjo.)
Najbolj zanimivo za naslednje leto je zasnova podjetja Nervana, ki jo je pred kratkim pridobil Intel, ki uporablja niz obdelovalnih grozdov, zasnovanih za preproste matematične operacije, povezane s pomnilnikom visoke pasovne širine (HBM). Prvič v tej družini bo Lake Crest, ki je bil zasnovan, preden je Intel kupil podjetje in ga izdelal po 28nm postopku TSMC. Intel je zaradi testnih različic v prvi polovici prihodnjega leta zagotovil večjo zmogljivost računalništva kot GPU. Temu bo na koncu sledil Knights Crest, ki skupaj z Xeonom nekako izvaja tehnologijo Nervane, podrobnosti pa so še vedno nenapovedane.
"Pričakujemo, da bodo tehnologije podjetja Nervana v naslednjih treh letih prinesle prebojno 100-odstotno povečanje zmogljivosti za usposabljanje zapletenih nevronskih mrež, kar bo znanstvenikom s podatki omogočilo hitrejše reševanje njihovih največjih izzivov AI, " je zapisal izvršni direktor Intel Brian Krzanich.
Intel je prav tako nedavno objavil načrte za nakup Movidiusa, zaradi čipov, ki temeljijo na DSP, še posebej primeren za izboljšanje računalniškega vida - ponovno sprejemanje odločitev na podlagi predhodno usposobljenih modelov.
To je zapletena in razvijajoča se zgodba - vsekakor ne tako preprosta kot Nvidijina prizadevanja za svoje GPU povsod. Jasno je le, kako hitro se strojno učenje začne, in številni različni načini, ki jih podjetja načrtujejo rešiti s težavo, od GPU-jev, kot so Nvidia in AMD, do številnih procesorjev x86, kot je Xeon Phi, do FPGA, v specializirane izdelke za usposabljanje, kot so Nervana in IBM-ov TrueNorth, po meri DSP-jev podobnih motorjev, kot so Googlove Tensorjeve procesne enote. Zelo zanimivo bo videti, ali na trgu obstaja prostor za vse te pristope.