"Kunskapsdestillering"-nyheter Nyhetsfilter

Sortera på relevans Sorterad på datum
Resultat 1 - 2 av 2

Störst inte alltid bäst – små språkmodeller kan vara det rätta valet

– Mönstret liknar snarare en bättre arbetsfördelning, säger Thomas Randall, forskningschef på Info-Tech Research Group. – En routingarkitektur skickar enkla eller väl avgränsade frågor till en specialiserad liten modell och komplexa frågor till en stor modell.

Sammanhang: ...Flera tekniker hjälper till att begränsa modellstorleken utan att kompromissa med prestandan. Bland annat dessa: Kunskapsdestillering : En större ”lärarmodell” tränar en liten ”elevmodell” så att den kan lära sig att efterlikna starka resonemangsförmågor, men i mycket mindre skala...

Omnämnda platser: Kunskapsdestillering. Omnämnda personer: Info-Tech Research Group, Thomas Randall, Sumit Agarwal.

idg.se - https://computerswed...tagen.html - Datum: 2026-05-12 07:15. - Utan betalvägg »

DeepSeeks AI-modell var "superbillig" att träna upp

Kostade bara lite över 2 miljoner kronor Det kinesiska företaget DeepSeek, som tagit fram den stora språkmodellen R1, skriver i en artikel i Nature att det bara kostade cirka 249.000 dollar, motsvarande cirka 2,3 miljoner kronor,

Sammanhang: ...Att DeepSeeks träningskostnad är så låg beror bland annat på att man utvecklar AI-modeller med det som kallas för "knowledge distillation" (kunskapsdestillering) där man använder en redan tillgänglig stor språkmodell för att träna upp en ny modell. Till R1 uppger DeepSeek att man använt Metas open source-modell Llama. ...

Omnämnda platser: USA. Omnämnda personer: Sam Altman.

feber.se - https://feber.se/sam...edium=feed - Datum: 2025-09-19 18:17. - Utan betalvägg »

Källa	Artiklar
feber.se	1
idg.se	1