Video: Cloud TPU Pods: AI Supercomputing for Large Machine Learning Problems (Google I/O'19) (November 2024)
V zadnjih nekaj tednih je prišlo do številnih pomembnih predstavitev novih računalniških platform, zasnovanih posebej za delo v globokih nevronskih omrežjih za strojno učenje, vključno z Googlovimi novimi "oblačnimi TPU-ji" in Nvidijino novo zasnovo Volta.
Zame je to najbolj zanimiv trend v računalniški arhitekturi - še bolj kot AMD in zdaj Intel predstavlja 16-jedrne in 18-jedrne procesorje. Seveda obstajajo tudi drugi alternativni pristopi, vendar Nvidia in Google zasluženo pritegneta veliko pozornosti zaradi svojih edinstvenih pristopov.
Pri Googlovih V / I sem videl, kako predstavlja "oblak TPU" (za enoto za obdelavo tenzorja, kar pomeni, da je optimiziran za Googlov okvir za strojno učenje TensorFlow). TPU prejšnje generacije, predstavljen na lanski razstavi, je ASIC, zasnovan predvsem za obogatitev - izvajanje operacij strojnega učenja -, vendar je nova različica zasnovana za izboljšanje in usposabljanje takšnih algoritmov.
V nedavnem prispevku je Google navedel več podrobnosti o izvirnem TPU, ki ga je opisal, da vsebuje matrico enot MAC (256 na 256) (skupaj 65.536) z največjo zmogljivostjo 92 teraopov (trilijoni operacij na drugi). Navodila dobiva od gostiteljskega procesorja preko vodila PCIe Gen 3. Google je dejal, da gre za 28nm matrico, ki je manjša od polovice velikosti Intel Haswell Xeon 22nm procesorja, in da je ta procesor presegel kot Nnvidijin 28nm K80 procesor.
Nova različica, ki so jo poimenovali TPU 2.0 ali TPU v oblaku (glej zgoraj), dejansko vsebuje štiri procesorje na plošči, Google pa je dejal, da je vsaka plošča sposobna doseči 180 teraflopov (180 trilijonov operacij s plavajočo vejico na sekundo). Prav tako pomembno je, da so plošče zasnovane tako, da delujejo skupaj s prilagojenim omrežjem za visoke hitrosti, zato delujejo kot samodejno računalniško super računalništvo, ki ga Google imenuje "TPU pod".
Ta podlaga TPU vsebuje 64 TPU druge generacije in zagotavlja do 11, 5 petaflopov za pospešitev usposabljanja enega samega velikega modela strojnega učenja. Na konferenci je Fei Fei Li, ki vodi Googlovo raziskavo AI, dejal, da čeprav eden od obsežnih učnih modelov za prevajanje potrebuje cel dan za usposabljanje na 32 najboljših komercialno dostopnih GPU-jev, zdaj lahko usposabljanje za enaka natančnost popoldne z uporabo ene osmine TPU podstavka. To je velik skok.
Razumejte, da to niso majhni sistemi - Pod je videti, da je približno velikosti štirih običajnih računalniških stojal.
In zdi se, da ima vsak posamezen procesor zelo velike toplotne odtoke, kar pomeni, da plošč ni mogoče postaviti preveč tesno. Google še ni dal veliko podrobnosti o tem, kaj se je spremenilo v tej različici procesorjev ali medomrežnega povezovanja, vendar verjetno tudi to temelji na 8-bitnih MAC-jih.
Teden pred tem je Nvidia predstavila svoj zadnji vpis v to kategorijo, ogromen čip, znan kot Telsa V100 Volta, ki ga je označil kot prvi CPU s to novo arhitekturo Volta, zasnovan za vrhunske GPU-je.
Nvidia je dejal, da je novi čip sposoben 120 TensorFlow teraflopov (ali 15 32-bitnih TFLOPS ali 7, 5 64-bitnih.) Ta uporablja novo arhitekturo, ki vključuje 80 pretočnih večprocesorjev (SMs), od katerih vsak vključuje osem novih "tenzorskih jeder" in je niz 4x4x4, ki lahko izvaja 64 operacij FMA (Fused Multiply-Add) na uro. Nvidia je dejala, da bo ponudil čip v svojih delovnih postajah DGX-1V z 8 ploščami V100 v tretjem četrtletju, po predhodnem podjetju DGX-1, ki je uporabljalo prejšnjo arhitekturo P100.
Podjetje je povedalo, da naj bi ta 149.000 ameriških dolarjev prinesel 960 teraflopov zmogljivosti treninga, z 3200 W Kasneje bo prvi rekel, da bo osebno postajo DGX poslal s štirimi V100, v četrtem četrtletju pa je povedal, da bodo veliki prodajalci strežnikov dobavili V100 strežnike.
Ta čip je prvi napovedal, da bo uporabljal 12-nm procesor TSMC, in bo velik čip z 21, 1 milijarde tranzistorjev na 815 kvadratnih milimetrih umre. Nvidia je kot zgodnje stranke za čip navedla Microsoft in Amazon.
Upoštevajte, da so velike razlike med temi pristopi. Googlovi TPU-ji so resnično čipi po meri, namenjeni aplikacijam TensorFlow, medtem ko je Nvidia V100 nekoliko bolj splošen čip, ki omogoča različne vrste matematike za druge aplikacije.
Medtem pa drugi veliki ponudniki oblakov iščejo druge možnosti, pri čemer Microsoft uporablja oba GPU-ja za usposabljanje in poljubno programiranje matričnih vrat (FPGA) za izsiljevanje in ponuja obojega za stranke. Spletne storitve Amazon zdaj razvijalcem omogočajo uporabo primerkov GPU in FPGA. In Intel si prizadeva za FPGA in številne druge tehnike. Medtem pa številne nove ustanove delujejo na alternativnih pristopih.
Na nek način je to najbolj drastična sprememba, ki smo jo opazili pri delovnih postajah in strežniških procesorjih v zadnjih letih, vsaj odkar so razvijalci pred nekaj leti prvič začeli uporabljati "GPU compute". Fascinantno bo videti, kako se to razvija.