Hva er sparsomhet? DeepSeek AIs hemmelighet, avslørt av Apple-forskere
AI-modellen som rystet verden er en del av en bred trend for å presse mer ut av brikker. Slik fungerer det.
Markedet for kunstig intelligens (AI) - og hele aksjemarkedet - ble rystet forrige måned av den plutselige populariteten til DeepSeek, åpen kildekode stor språkmodell (LLM) utviklet av et Kina-basert hedgefond som har overgått OpenAIs beste på noen oppgaver mens de har kostet langt mindre.
Som ZDNETs Radhika Rajkumar beskriver, fremhever R1s suksess en stor endring i AI som kan gi mindre laboratorier og forskere mulighet til å lage konkurransedyktige modeller og diversifisere tilgjengelige alternativer.
Hvorfor fungerer DeepSeek så bra?
Suksessen skyldes en bred tilnærming innen dyplæringsformer for AI for å presse mer ut av databrikker ved å utnytte et fenomen kjent som "sparsity".
Sparsitet kommer i mange former. Noen ganger innebærer det å eliminere deler av dataene som AI bruker når disse dataene ikke påvirker modellens utdata vesentlig.
Andre ganger innebærer sparsitet å kutte bort hele deler av et nevralt nettverk hvis det ikke påvirker resultatet.
DeepSeek er et eksempel på det siste: sparsommelig bruk av nevrale nett.
Det viktigste fremskrittet de fleste har identifisert i DeepSeek er at det kan slå store deler av nevrale nettverk "vekter" eller "parametere" av og på. Parametere former hvordan et nevralt nettverk kan transformere inndata - ledeteksten du skriver inn - til generert tekst eller bilder. Parametere har en direkte innvirkning på hvor lang tid det tar å utføre beregninger. Flere parametere betyr vanligvis mer datainnsats.
Sparsitet og dens rolle i AI
Muligheten til å bruke bare noen av de totale parametrene til en LLM og slå av resten er et eksempel på sparsomhet. Denne sparsomheten kan ha stor innvirkning på hvor stort eller lite databudsjettet er for en AI-modell.
Apple AI-forskere, i en rapport publisert 21.
Apple har ingen tilknytning til DeepSeek, men teknologigiganten gjør sin egen AI-forskning. Derfor er utviklingen av eksterne selskaper som DeepSeek i stor grad en del av Apples fortsatte engasjement i AI-forskning.
I artikkelen, med tittelen "Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models", lagt ut på arXiv pre-print-serveren, studerte hovedforfatter Samir Abnar og andre Apple-forskere, sammen med samarbeidspartner Harshay Shah fra MIT, hvordan ytelsen varierte da de utnyttet sparsomhet ved å slå av deler av det nevrale nettet.
Abnar og teamet gjennomførte studiene sine ved å bruke et kodebibliotek utgitt i 2023 av AI-forskere ved Microsoft, Google og Stanford, kalt MegaBlocks. De gjør det imidlertid klart at arbeidet deres kan brukes på DeepSeek og andre nylige innovasjoner.
Abnar og teamet spør om det er et "optimalt" nivå for sparsitet i DeepSeek og lignende modeller: for en gitt mengde datakraft, er det et optimalt antall av disse nevrale vektene å slå på eller av?
Forskningen antyder at du fullt ut kan kvantifisere sparsitet som prosentandelen av alle nevrale vekter du kan slå av, med den prosentandelen som nærmer seg, men aldri tilsvarer 100 % av nevrale nettet som er "inaktiv".
Grafer viser at for et gitt nevralt nett, på et gitt databudsjett, er det en optimal mengde nevrale nett som kan slås av for å nå et nøyaktighetsnivå. Den samme økonomiske tommelfingerregelen har vært gjeldende for hver nye generasjon personlige datamaskiner: enten et bedre resultat for de samme pengene eller det samme resultatet for mindre penger.
For et nevralt nettverk av en gitt størrelse i totale parametere, med en gitt mengde databehandling, trenger du færre og færre parametere for å oppnå samme eller bedre nøyaktighet på en gitt AI-referansetest, for eksempel matematikk eller spørsmålssvar.
Sagt på en annen måte, uansett datakraft, kan du i økende grad slå av deler av nevrale nettet og få samme eller bedre resultater.
Optimalisering av AI med færre parametere
Som Abnar og teamet uttalte i tekniske termer: "Å øke sparsomheten mens du proporsjonalt utvider det totale antallet parametere fører konsekvent til et lavere tap før trening, selv når det er begrenset av et fast treningsbudsjett." Begrepet "tap før trening" er AI-begrepet for hvor nøyaktig et nevralt nett er. Lavere treningstap betyr mer nøyaktige resultater.
Dette funnet forklarer hvordan DeepSeek kan ha mindre datakraft, men oppnå samme eller bedre resultater ganske enkelt ved å slå av flere nettverksdeler.
Sparsity er som en magisk skive som finner den beste matchen for AI-modellen din og tilgjengelig databehandling.
Den samme økonomiske tommelfingerregelen har vært gjeldende for hver nye generasjon personlige datamaskiner: enten et bedre resultat for de samme pengene eller det samme resultatet for mindre penger.
Det er noen andre detaljer å vurdere om DeepSeek. For eksempel er en annen DeepSeek-innovasjon, som forklart av Ege Erdil fra Epoch AI, et matematisk triks kalt "multi-head latent attention". Uten å gå for dypt inn i ugresset, brukes latent oppmerksomhet med flere hoder til å komprimere en av de største forbrukerne av minne og båndbredde, minnebufferen som inneholder den siste inntastede teksten til en ledetekst.
Fremtiden for sparsitetsforskning
Bortsett fra detaljer, er det mest dyptgripende poenget med all denne innsatsen at sparsomhet som fenomen ikke er nytt i AI-forskning, og det er heller ikke en ny tilnærming innen ingeniørfag.
AI-forskere har i mange år vist at eliminering av deler av et nevralt nett kan oppnå sammenlignbar eller enda bedre nøyaktighet med mindre innsats.
Nvidia-konkurrenten Intel har identifisert sparsomhet som en nøkkelvei for forskning for å endre den nyeste teknologien på feltet i mange år. Tilnærminger fra startups basert på sparsomhet har også fått høye poengsummer på bransjestandarder de siste årene.
Den magiske skiven av sparsitet barberer ikke bare databehandlingskostnadene, som i tilfellet med DeepSeek. Sparsity fungerer også i den andre retningen: det kan lage stadig mer effektive AI-datamaskiner.
Den magiske skiven til sparsomhet er dyp fordi den ikke bare forbedrer økonomien for et lite budsjett, som i tilfellet med DeepSeek, men den fungerer også i den andre retningen: bruk mer, og du vil få enda bedre fordeler via sparsitet. Når du skrur opp datakraften, forbedres nøyaktigheten til AI-modellen, fant Abnar og teamet.
De foreslo: «Etter hvert som sparsiteten øker, reduseres valideringstapet for alle databehandlingsbudsjetter, med større budsjetter som oppnår lavere tap på hvert sparsitetsnivå.»
I teorien kan du altså lage større og større modeller, på større og større datamaskiner, og få bedre valuta for pengene.
Alt det sparsomme arbeidet betyr at DeepSeek bare er ett eksempel på et bredt forskningsområde som mange laboratorier allerede følger - og mange flere vil nå hoppe på for å gjenskape DeepSeeks suksess.