Atrodo, kad naujasis „DeepSeek“ AI modelis yra vienas geriausių „atvirų“ varžovų

Kinijos laboratorija sukūrė, atrodo, vieną galingiausių iki šiol „atvirų“ AI modelių.

Modelį „DeepSeek V3“ sukūrė AI įmonė „DeepSeek“ ir jis buvo išleistas trečiadienį pagal leidžiamą licenciją, leidžiančią kūrėjams atsisiųsti ir modifikuoti jį daugeliui programų, įskaitant komercines.

„DeepSeek V3“ gali atlikti įvairius tekstu pagrįstus darbo krūvius ir užduotis, pvz., koduoti, versti ir rašyti esė bei el. laiškus pagal aprašomąjį raginimą.

Remiantis „DeepSeek“ vidiniu etaloniniu testavimu, „DeepSeek V3“ pranoksta tiek atsisiunčiamus, „atvirai“ prieinamus modelius, tiek „uždaruosius“ AI modelius, kuriuos galima pasiekti tik per API. Programavimo konkursų platformoje „Codeforces“ rengiamų kodavimo konkursų pogrupyje „DeepSeek“ pranoksta modelius, įskaitant „Meta’s Llama 3.1 405B“, „OpenAI“ GPT-4o ir „Alibaba“ Qwen 2.5 72B.

„DeepSeek V3“ taip pat sutriuškina konkurenciją „Aider Polgyglot“ – testu, skirtu, be kita ko, įvertinti, ar modelis gali sėkmingai parašyti naują kodą, kuris integruojamas į esamą kodą.

DeepSeek-V3!

60 žetonų per sekundę (3 kartus greičiau nei V2!)
API suderinamumas nepažeistas
Visiškai atvirojo kodo modeliai ir dokumentai
671B ŪM parametrai
37B aktyvuoti parametrai
Apmokytas 14,8T aukštos kokybės žetonų

Pranoksta Llama 3.1 405b beveik visuose etalonuose https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf

– Chubby♨️ (@kimmonismus) 2024 m. gruodžio 26 d

„DeepSeek“ teigia, kad „DeepSeek V3“ buvo apmokytas naudojant 14,8 trilijonų žetonų duomenų rinkinį. Duomenų moksle prieigos raktai naudojami neapdorotų duomenų bitams pavaizduoti; 1 milijonas žetonų yra lygus maždaug 750 000 žodžių.

Ne tik treniruočių rinkinys yra didžiulis. „DeepSeek V3“ yra milžiniško dydžio: 685 milijardai parametrų. (Parametrai yra vidinių kintamųjų modeliai, naudojami prognozėms ar sprendimams priimti.) Tai yra maždaug 1,6 karto daugiau nei Llama 3.1 405B, kuris turi 405 milijardus parametrų.

„DeepSeek“ (bendradarbiaujantis kinų AI), todėl šiandien tai atrodo lengva, nes yra atviras ribinio lygio LLM, parengtas juokaujant dėl biudžeto (2048 GPU 2 mėn., 6 mln. USD), leidimas.

Nurodoma, kad tokiam pajėgumų lygiui turėtų prireikti arčiau 16 000 GPU grupių, kurios yra… https://t.co/EW7q2pQ94B

– Andrejus Karpathy (@karpathy) 2024 m. gruodžio 26 d

Parametrų skaičius dažnai (bet ne visada) koreliuoja su įgūdžiais; modeliai su daugiau parametrų paprastai lenkia modelius su mažiau parametrų. Tačiau dideliems modeliams taip pat reikalinga galingesnė techninė įranga, kad jie veiktų. Neoptimizuotai „DeepSeek V3“ versijai reikės aukščiausios klasės GPU banko, kad būtų galima atsakyti į klausimus tinkamu greičiu.

Nors tai nėra pats praktiškiausias modelis, „DeepSeek V3“ tam tikrais atžvilgiais yra pasiekimas. „DeepSeek“ sugebėjo apmokyti modelį naudodamas „Nvidia H800“ GPU duomenų centrą per maždaug du mėnesius – GPU, kurių įsigijimą Kinijos įmonėms neseniai JAV prekybos departamentas apribojo. Bendrovė taip pat teigia, kad „DeepSeek V3“ mokymui išleido tik 5,5 mln. USD, tai yra dalis tokių modelių kaip „OpenAI GPT-4“ kūrimo išlaidų.

Neigiama yra tai, kad modelio politinės pažiūros yra šiek tiek filtruojamos. Pavyzdžiui, paklauskite „DeepSeek V3“ apie Tiananmenio aikštę ir jis neatsakys.

„DeepSeek“, kuri yra Kinijos įmonė, Kinijos interneto reguliavimo institucijos atlieka lyginamąją analizę, siekdama užtikrinti, kad jos modelių atsakymai „įkūnytų pagrindines socialistines vertybes“. Daugelis Kinijos AI sistemų atsisako reaguoti į temas, kurios gali sukelti reguliuotojų pyktį, pvz., spekuliacijas apie Xi Jinping režimą.

„DeepSeek“, kuri neseniai pristatė „DeepSeek-R1“, atsakymą į „OpenAI“ o1 „protavimo“ modelį, yra įdomi organizacija. Jį remia „High-Flyer Capital Management“, Kinijos kiekybinis rizikos draudimo fondas, kuris naudoja dirbtinį intelektą savo prekybos sprendimams informuoti.

„DeepSeek“ modeliai privertė konkurentus, tokius kaip „ByteDance“, „Baidu“ ir „Alibaba“, sumažinti kai kurių modelių naudojimo kainas, o kitus padaryti visiškai nemokamus.

„High-Flyer“ kuria savo serverių grupes, skirtas modelių mokymui, iš kurių viena iš naujausių, kaip pranešama, turi 10 000 „Nvidia A100“ GPU ir kainuoja 1 milijardą jenų (~ 138 mln. USD). Kompiuterių mokslų absolvento Liang Wenfeng įkūrė „High-Flyer“ per savo „DeepSeek“ org.

Anksčiau šiais metais duodamas interviu Liangas atvirąjį šaltinį apibūdino kaip „kultūrinį veiksmą“, o uždarojo kodo dirbtinį intelektą, pavyzdžiui, OpenAI, apibūdino kaip „laikiną“ griovį. „Net OpenAI uždarojo kodo metodas nesutrukdė kitiems pasivyti“, – pažymėjo jis.

Tikrai.

Source link

Susiję įrašai