AMD lansează noile acceleratoare MI350X și MI355X pentru Inteligență Artificială. Mai multă putere și costuri mai mici

Pe măsură ce inteligența artificială devine mai competentă, e nevoie constantă de hardware capabil să țină pasul. Iar hardware-ul puternic lucrează cu o balanță fină între putere, eficiență și cost.
În timp ce noi sărim de la o generație la alta de modele de AI, arhitectura din spate se schimbă în același ritm, odată cu nevoile companiilor precum Google, Microsoft, OpenAI, Amazon sau Meta.
Centrele de date care stau în întreaga lume sunt îmbunătățite continuu, ca fiecare întrebare adresată lui ChatGPT, de exemplu, să coste cât mai puțin în rezolvare.
În același timp, această infrastructură este folosită de cercetători în căutarea celor mai bune rezolvări pentru probleme complicate.
Poate părea ciudat, dar ai nevoie de astfel de computere ca să afli care este cel mai bun tratament pentru un cancer complicat ori cum am putea să rezolvăm rapid încălzirea globală.
Scriu aceste rânduri din San Jose, California, în timpul zilelor dedicate AMD Advanced AI.
Nu întâmplător suntem în Silicon Valley, ci suntem aici pentru lansarea uneltei care va ajuta elevi și studenți să-și facă temele mai rapid, iar corporatiștii să rescrie mail-uri într-un format mai concis.
Așadar, vedem pentru prima dată acceleratoarele grafice din seria AMD Instinct MI350. Noua serie include MI350X și MI355X și sunt atent construite pentru eficientizarea rulării AI, fie GenAI ori LLM.
E un pic tehnic acum, dar e de 4x mai rapidă decât MI300X în antrenare și execuție, în formatele FP4 și FP6.
Aceste formate sunt susținute de Meta, de exemplu, pentru antrenarea eficientă a LLaMA 3 și 4.
Practic, permit să stochezi mai multă informație, sub formă de cifre, în spații mai mici — mai pe românește, poți procesa mai mulți parametri folosind aceeași memorie.
Aceste acceleratoare sunt doar pentru centre mari de date și necesită infrastructură serioasă, inclusiv pentru energie. O singură asemenea placă poate consuma până la 1400W energie.

Instinct MI350X și MI355X sunt GPU modulare, funcționează ca un mini-sistem care include atât Compute Units (256 CU și 1000 de nuclee matrice), cât și 288 GB memorie HBM3E, în locul memoriei RAM clasice.
AMD folosește aici bonding 3D pentru cipurile de calcul — adică le așază vertical, una peste alta, pentru a reduce distanțele interne și a crește viteza de comunicare.
Accesul la memorie e extrem de rapid: 8 TB/s lățime de bandă, o creștere de aproape 50% față de predecesorul MI300X.
Cifrele sunt impresionante, iar această creștere o vom vedea în rapiditatea cu care vom putea folosi cele mai populare modele AI. Sau, mai mulți oameni care se pot bucura în același timp de această infrastructură.
AMD susține că seria MI350 aduce un salt de până la 35x în procesarea AI (inferență) față de generația anterioară.
Nu e clar dacă e valabil doar pentru formate numerice compacte (FP4 și FP6) și nici în ce condiții de benchmark a fost obținută cifra, dar compania americană o menționează insistent.

Și revin la ideea costurilor: 40% mai mulți tokeni per dolar, comparativ cu B200 de la Nvidia. O altă unitate de măsură nouă, dar dă-mi voie să explic.
ChatGPT, LLaMA ori Claude nu „văd” propoziții, ca noi, ci tokeni — adică bucăți mici de text, ca niște silabe.
Spre exemplu, propoziția de față, dacă ar fi scrisă de un AI, ar costa cam 10-15 tokeni.
Fiecare întrebare, răspuns, linie de cod generată are un preț, iar cu cât poți procesa mai mulți tokeni per dolar, cu atât AI-ul devine mai eficient și mai accesibil.
Instinct MI350X este compatibil cu rack-uri standard (4U), în timp ce MI355X este gândit pentru servere OAM cu răcire lichidă.

Și când te gândești că un singur accelerator poate susține un model de 520 de miliarde de parametri, potrivit AMD, îți poți imagina ce poate realiza un rack echipat cu AMD Epyc X86, generația a 5-a, MI35XX și AMD Pollara — componenta hardware responsabilă de rețea.
Un singur rack DLC poate acomoda până la 128 GPU, 37 TB HBM3E (High Bandwidth Memory — extrem de importantă, pentru că AI-ul are nevoie de acces rapid la date).
Nu poți să pui un Ferrari să circule pe un drum neasfaltat — va merge încet.
Lisa Su a vorbit deja și despre generația următoare: MI400X, care vine anul viitor.

Cu dublă performanță pentru formatele FP4 și FP8 explicate mai sus, mai multă memorie totală — de la 288 GB HBM3E la 432 GB — și o lățime de bandă de 19.6 TB/s, față de 8 TB/s.

Tot în cadrul conferinței, am aflat și despre noua generație a platformei ROCm 7.
Recunosc, la început n-am fost atent, dar apoi am realizat cât de important este acest detaliu.
De acum, dacă ai un PC sau un laptop cu placă video AMD, poți rula local modele de AI.
E o schimbare importantă, pentru că înseamnă costuri mai mici, date mai sigure și un acces real la instrumente de inteligență artificială pentru toată lumea.
Poți folosi modele open-source precum LLaMA, DeepSeek sau alte GenAI pentru text, imagine ori video — direct de pe laptopul tău, fără cloud, fără abonamente.