Nasjonalbiblioteket i Norge har udviklet en norsk sprogmodel, der er bedre til dansk, end de danske modeller er

Nasjonalbiblioteket i Oslo
Nasjonalbiblioteket i Oslo Illustration: Gorm K. Gaare, Nasjonalbiblioteket. Se større version
En sprogmodel baseret på data fra de sidste 150 år, har andre egenskaber end en model bygget på data fra sociale medier, mener norsk NLP-forsker.
Løsninger 18. november kl. 05:02

I Nasjonalbiblioteket i Norge har man gennem et årelangt digitaliseringsarbejde opbygget en enorme samling af norsk tekstdata. 

Ved at kombinere tekster, som har været digitale fra starten, og tekster, der er digitaliseret gennem OCR - eller optical character recognition, skabt ensamling, som har givet bibliotekets eget AI-lab en unik mulighed for at træne en sprogmodel på en bred palette af tekstdata produceret over de sidste 150 år.

Den første publicerede model fra laboratoriet er NB-BERT, og den er ikke bare den bedste prætrænede model på norsk. Den klarer sig også bedre på dansk end nogen generelle sprogmodeller udviklet i Danmark. 

Det nye skandinaviske NLP-benchmark - ScandEval -  placerer modellen i toppen af leaderboardet for prætrænede modeller på dansk - kun overgået af den multilinguale RoBERta, der sidste år blev udviklet af Facebook AI.

Få fuld adgang til DataTech

DataTech skriver til dig, der arbejder professionelt med data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra machine learning-modeller til dataetik.

Abonnementsfordele
vpn_key
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
drafts
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
thumb_up
Adgang til debatten
Deltag i debatten med andre professionelle.
Debatten
Du har ikke tilladelse til at deltage i debatten. Kontakt support@ing.dk hvis du mener at dette er en fejl.
Forsiden