Språkmodeller – stokastiske papegøyer

Språkmodeller fungerer som «stokastiske papegøyer». Metaforen refererer til en gruppe av papegøyer som gjentar ord og setninger tilfeldig uten å forstå betydningen av det de sier. På samme måte kan et system som oppfører seg stokastisk synes å være tilfeldig eller kaotisk, men likevel følge visse mønstre eller statistiske regler. De lærer og gjentar menneskelig språk ved å gjenkjenne mønstre i store mengder treningsdata – for eksempel i form av tekster. De genererer derfor tekst ved å forutsi det neste sannsynlige ordet i en setning basert på sannsynligheter og tidligere eksempler. Du ville nok ganske raskt forstå hva som skal være neste ord i setningen «Hovedstaden i Norge er ….».

Imidlertid forstår de ikke alltid konteksten eller betydningen av det de «sier,» noe som kan lede til et fenomen kjent som hallusinering, hvor modellen produserer usann, misvisende eller fullstendig oppdiktet informasjon. Når du stiller spørsmål til en språkmodell så skjønner heller ikke den hva du spør om, men analyserer ordene du bruker og prøver å skape en mening av dem basert på treningsdata som er brukt.

Ett kritisk aspekt er åpenhet rundt hvilke algoritmer som brukes. Forståelsen av algoritmiske beslutningsprosesser er viktig for å sikre at systemene fungerer som de skal, og for å kunne identifisere og rette opp eventuelle feil eller skjevheter. Det er også viktig for å bygge tillit blant brukerne og for å sikre at systemene ikke misbrukes.

Videre er innsikt i hvilke treningsdata som er brukt avgjørende. Treningsdataene bestemmer i stor grad hvordan en språkmodell oppfører seg og responderer. Hvis disse dataene inneholder fordommer, feilaktigheter eller uønsket innhold, kan det føre til at modellen produserer skadelige, misvisende eller upassende svar. Å forstå og ha innsikt i disse datasettene er nødvendig for å vurdere en modells pålitelighet og for å foreta nødvendige justeringer.

Til slutt er det viktig å vite hvem som har trent opp modellen. Ulike organisasjoner og individer kan ha ulike intensjoner, standarder og tilnærminger til trening av modeller. Kunnskap om hvem som står bak en modell kan gi innsikt i modellens potensielle styrker, svakheter og forutinntatte holdninger.

Et regelverk som adresserer disse punktene vil bidra til å fremme et mer etisk og ansvarlig miljø for utvikling og bruk av språkmodeller. Det vil sikre at teknologien utvikles på en måte som er både nyskapende og i samsvar med samfunnsmessige verdier og normer. Et slikt regelverk vil også hjelpe med å dempe bekymringer knyttet til personvern, sikkerhet og rettferdighet, samtidig som det oppmuntrer til ansvarlig innovasjon.

Utfordringer knyttet til språkmodeller:

  1. Kvaliteten på treningsdata: Språkmodeller er avhengige av treningsdataene de matet med. Hvis disse dataene inneholder fordommer, feil eller støtende innhold, vil modellens output sannsynligvis reflektere disse problemene.
  2. Hallusinering: Modeller kan generere troverdig, men falsk eller irrelevant informasjon. Dette blir spesielt problematisk i situasjoner hvor nøyaktighet er avgjørende, som i medisinske, juridiske eller pedagogiske sammenhenger.
  3. Etiske utfordringer: Språkmodeller kan utilsiktet avsløre eller skape innhold som er sensitivt eller personlig, som opphavsrettsbeskyttet materiale eller personlig identifiserbar informasjon, spesielt hvis de har blitt trent på datasett som inneholder slike data.
  4. Manglende forståelse: Selv om modellene kan produsere tekst som virker kohesiv (at teksten henger sammen og gir mening), forstår de ikke det underliggende innholdet, noe som kan føre til misforståelser når mennesker samhandler med dem.
  5. Avhengighet av kontekst: Språkmodeller kan ha problemer med å håndtere kontekst som strekker seg over lange tekstavsnitt, noe som kan føre til inkonsistente eller sammenhengsløse svar.
  6. Ansvar og ansvarlighet: Når en språkmodell gir feilaktig eller skadelig råd, oppstår spørsmålet om hvem som er ansvarlig – utvikleren av modellen, brukeren eller selve modellen?

For å takle disse utfordringene må det investeres i å forbedre kvaliteten på treningsdata, utvikle metoder for å begrense og identifisere hallusinering, samt vurdere etiske retningslinjer for bruk og utvikling av språkmodeller.

Begrepet «stokastisk» refererer til noe som er tilfeldig eller inneholder et element av tilfeldighet. Det brukes ofte i statistikk, matematikk og forskjellige vitenskapsfelt for å beskrive systemer, prosesser eller fenomener der utfallet ikke er forutsigbart med absolutt sikkerhet, men derimot kan beskrives ved hjelp av sannsynlighetsfordelinger. Eksempler på stokastiske systemer inkluderer været, aksjemarkedet, og radioaktiv nedbrytning. Selv om disse systemene kan være vanskelige å forutsi på kort sikt, kan det likevel observeres visse statistiske trender og mønstre over lengre tid.

Stokastiske modeller brukes i språkmodeller for å gi datamaskiner muligheten til å forstå og generere naturlig språk. Stokastiske modeller kan brukes til å lære sannsynligheten for at en bestemt sekvens av ord eller setninger kan forekomme i naturlig språk. Disse modellene bruker en teknikk som kalles «n-gram-modellering», som går ut på å estimere sannsynligheten for at hvert ord i en sekvens oppstår gitt de foregående ordene. N-gram-modellering kan brukes til å generere tekst som ligner på naturlig språk ved å ta en bestemt startsetning eller et startord og bruke sannsynlighetsmodelleringen til å predikere de neste ordene i sekvensen. N-gram-modellering brukes i en rekke applikasjoner innenfor AI og datavitenskap, inkludert:

  • Språkmodellering: N-gram-modeller brukes til å modellere sannsynligheten for at en bestemt sekvens av ord forekommer i naturlig språk. Dette er nyttig for oppgaver som talegjenkjenning, maskinoversettelse, og automatisk tekstgenerering.
  • Informasjonsgjenfinning: N-gram-modeller brukes til å analysere store tekstkorpus og finne relevante dokumenter eller setninger basert på nøkkelord eller fraser som brukes i en søkeforespørsel.
  • Tekstanalyse: N-gram-modeller kan brukes til å identifisere mønstre og sammenhenger i tekstdata, for eksempel i sentimentanalyse, hvor man forsøker å forstå og kvantifisere følelser og meninger i tekstdata.
  • Anbefalingssystemer: N-gram-modeller kan brukes til å modellere brukeratferd og forutsi hva slags innhold brukere vil like basert på historisk atferd og liknende profiler.

Regulering

EU AI Act  er et forslag til en ny lov fra Europakommisjonen som tar sikte på å regulere bruk av kunstig intelligens (KI) i EU. Forslaget inneholder en rekke retningslinjer og krav for utvikling, bruk og import av AI-systemer i EU-landene. Noen av hovedpunktene i forslaget inkluderer krav om at visse kategorier av KI-systemer skal være forbudt, som for eksempel systemer som kan brukes til overvåking og sosial scoring. Sosial scoring er en praksis der enkeltpersoners eller bedrifters handlinger og atferd blir overvåket, vurdert og rangert av en tredjepart basert på bestemte kriterier. Slike kriterier kan inkludere alt fra personlig økonomi, kredittverdighet, yrkesstatus og utdanningsbakgrunn til sosiale medier-atferd, personlige relasjoner og politisk tilhørighet. I tillegg skal systemer som anses som høyrisiko, som for eksempel systemer for ansiktsgjenkjenning og medisinske diagnostiske verktøy, gjennomgå strenge tester og evalueringer før de kan tas i bruk.

Hallusinering

Språkmodeller blir «belønnet» gjennom å gi et svar – selv om svaret ikke trenger å være riktig. Det betyr at du får et svar, men det kan rett og slett være en «hallusinering» fra den kunstige intelligensen fordi den prøver å gi et svar som gir mening som setning – uten at innholdet er korrekt eller sant.

Her er et eksempel på svar fra KI på spørsmålet om hvem som er hovedkarakterene i Kardemomme by. Selv om det er fullt mulig å lese det som står er informasjonen som blir presentert helt feil. Ingen av karakterene som er nevnt hører hjemme i Kardemomme by – men hvis du ikke kjenner til fortellingen så er det også vanskelig for deg å avgjøre om du faktisk kan bruke dette svaret eller ikke.

Woke

«Woke» er et slanguttrykk som har sin opprinnelse i begrepet «stay woke», som oppfordrer til årvåkenhet og bevissthet om sosiale og politiske saker, spesielt de som omhandler rase og sosial rettferdighet. Å være «woke» innebærer en bevissthet om og motstand mot ulike former for urettferdighet og undertrykkelse, som rasisme, sexisme, homofobi og andre diskriminerende praksiser.

Men det fører også til at man ønsker å være «politisk korrekt» – og i språkmodeller kan dette føre til at man ikke får alle perspektiver i en sak fordi modellen har en algoritme som tilsier at den skal være politisk korrekt – og hva dette innebærer kan variere fra land til land og mellom kulturer. Dette er en stor utfordring for kildekritikk. Her kan det være politiske agendaer som gir retningslinjer for hva du faktisk får av informasjon.

Skroll til toppen