Heste-nettet kan blive grundlag for kunstig intelligens på dansk

Forskere har lavet en database, der kan bruges til at træne en kunstig intelligens på dansk. Over en femtedel af dataene stammer fra det sociale netværk Heste-nettet.

Samtalerne på heste-nettet.dk er gode til at træne en kunstig intelligens på dansk, mener forskere. (© ColourBox)

Hvilket el-selskab, skal jeg vælge? Og hvor finder jeg Sveriges hyggeligste bed and breakfast?

Siden 1997 er det sociale netværk Heste-nettet blevet brugt af danskere til at diskutere alt mellem himmel og jord. Og det er guf, når man skal finde materiale til at træne en kunstig intelligens på dansk.

I denne uge har det amerikanske nyhedsmedie Bloomberg opsnappet en overset detalje om Heste-nettet i en dansk forskningsartikel fra 2021.

Kort fortalt har forskere fra blandt andet IT-Universitet i København lavet et datasæt, som kan bruges til at skabe en kunstig intelligens – en såkaldt sprogmodel - på dansk. Sådan en sprogmodel kan blandt andet bruges til chatbotter a la den populære ChatGPT.

I forskningsartiklen fremgår det, at 22 procent af datasættet er baseret på heste-nettet.dk.

Så hvis nogle bruger forskernes datasæt til at udvikle en sprogmodel, så vil den kunstige intelligens i et vist omfang lære at skrive og kommunikere ud fra, hvad brugere på Heste-nettet har diskuteret gennem tiden.

- Det er fantastisk, at der eksisterer sådan et sted, som vi kan bruge, lyder det fra Leon Derczynski i DR’s podcast Prompt.

Han er professor på IT-Universitetet i København og er en af dem, der står bag datasættet, som har navnet Danish Gigaword.

Svært at finde materiale på dansk

Når sprogmodeller trænes, kræver det enorme mængder data. Men det kan være vanskeligt at finde nok dansk materiale på nettet. Og meget af det, som eksisterer, er under stramme ophavsregler.

Noget af det materiale som var tilgængeligt, da forskerne gik i gang med deres projekt, var danske lovtekster. Men sådanne tekster repræsenterer ikke almindeligt talesprog blandt danskere. Derfor var Heste-nettet en gave, forklarer Leon Derczynski:

- Der er mange meninger og mange forskellige folk, der skriver om alt muligt i en spontan stil. Og det gør det meget værdifuldt set fra et lingvistisk (sprogvidenskabeligt, red.). synspunkt, siger han og fortsætter:

- Og så gør de meget ud af at holde en god tone, hvilket man ikke ser i samme grad på for eksempel det sociale medie Reddit.

Artiklen fortsætter under storien her.

DR’s techkorrespondent og medvært på podcasten Prompt Henrik Moltke vurderer også, at heste-nettet.dk er et godt sted at hente data:

- Det er jo ægte, levende, talt sprog. Det er rigtige mennesker, der har været derinde i en meget lang periode. Og derfor kan jeg sagtens se, hvorfor det kunne være et velegnet stykke træningsdata. Det er en af de tidligste former for sociale netværk, og det kommer længe før bølgen af kendte sociale medier som Facebook og Instagram.

- Og Heste-nettet er forblevet det samme. Det er bare samtaler, hvor folk kan kommentere på hinandens poster og have en samtale i en tråd, fortsætter Henrik Moltke.

Er ChatGPT blevet trænet på Heste-nettet?

Læser man artiklen på Bloomberg, får man et indtryk af, at der lige nu er sprogmodeller, som faktisk bliver trænet på Danish Gigaword og dermed Heste-nettet.

Og inde på Heste-nettet selv skriver de, at Heste-Nettet udgør en væsentlig del af de danske tekster, der ligger til grund for den dansksprogede del af den populære ChatGPT.

Men det kan Leon Derczynski hverken be- eller afkræfte:

- Det kan vi ikke vide. For de fortæller ikke, hvad de bruger og ikke bruger. Og det er også problematisk, siger han.

Folkene bag Heste-nettet: ’Vi vidste ikke noget om det’

Medstifter af Heste-Nettet Henrik Biering, som i dag arbejder i firmaet Peercraft, der står for den tekniske drift af Heste-Nettet, var overrasket over nyheden.

- Vi var ikke klar over det. Og vi var ikke blevet kontaktet, siger Henrik Biering.

- Men nu er jeg selv bekendt med kunstig intelligens, og fra et etisk perspektiv har jeg egentlig ikke noget imod brugen. For hele formålet med sitet er, at man har en offentlig debat til gavn og læring for alle. Og dataene bliver jo blot brugt til at lære kunstig intelligens at skrive ord og formulere sætninger, fortsætter han.

Hør mere om Hestenettet i DRs nye podcast om kunstig intelligens, Prompt: