I sidste nyhedsbrev fortalte vi, at vi migrerede den danske chatbot fra OpenAI til den open-source-baserede sprogmodel model, Gemma. Formålet med skiftet var at opnå større ejerskab over teknologien, beskytte vores egne og brugernes data samt reducere chatbottens klimabelastning.
Vi var på forhånd klar over, at skiftet ville påvirke chatbottens performance, men ikke præcist hvordan. Derfor bad vi jer i testpanelet om at dele jeres erfaringer og feedback. Sammen med vores egne målinger har jeres tilbagemeldinger gjort det muligt at evaluere konsekvenserne af modelskiftet.
Hvorfor kvaliteten blev påvirket
Ved overgangen til Gemma valgte vi en væsentligt mindre sprogmodel med færre parametre, hvilket reducerede modellens sproglige kapacitet og dermed dens performance.
Modellen bruges ikke alene til at generere svar baseret på de fundne kilder, men også til at vurdere, hvilke kilder der faktisk er anvendt i svaret, så kildelisten kan filtreres. Det er især denne vurdering, der har lidt under den reducerede modelstørrelse. Modellen er blevet mere tilbøjelig til at fastholde irrelevante kilder og samtidig frasortere relevante.
Derudover ser vi en øget tendens til helt eller delvist forkerte svar – særligt i længere samtaler.
Begge problemer illustreres i denne samtale (se illustration 1). Selvom et simpelt spørgsmål om en hanes levetid umiddelbart ser ud til at være forstået korrekt, er svaret forkert, og modellen svarer i praksis på et andet spørgsmål.

Problemet med fastholdelse af irrelevante kilder bliver særligt tydeligt i en anden samtale (se illustration 2) omhandlende (sprog)modeller, hvor kilder om (foto-)modeller, fotografer, trænere og træningsformer (i den idrætsmæssige forstand) beholdes, sandsynligvis grundet en misforståelse af ordene “model” og “træning”.

Vi overvejer nu, om det er nødvendigt at skifte til alternative og større modeller, såsom Qwen3 235b, Llama 3 70b, OSS 120b – eller eventuelt til nogle af de helt store modeller som DeepSeek v3.2 eller Mistral Large 3.
Samtidig vil vi fortsat bestræbe os på at anvende så effektiv en model som muligt for at holde systemets samlede klimabelastning på et minimum.