Ikke-dybe neurale netværk, en AI-dirigeret dans og millioner af skråstreger fylder NLP-datasæt

Ikke-dybe neurale netværk, en AI-dirigeret dans og millioner af skråstreger fylder NLP-datasæt
Illustration: DataTech. Se større version
Vi ser tilbage på ugen, der er gået. 
29. oktober kl. 03:43
errorÆldre end 30 dage

OSCAR - eller Open Super-large Crawled ALMAnaCH coRpus - er et kæmpe sprogkorpus til træning af store sprogmodeller. Det er baseret på tekstdata fundet på internettet - herunder en overraskende stor mængde skråstreger. 

Udviklere ved HuggingFace opdagede - som en del af selskabets BigScience forskningsprojekt - rækker i databasen med ekstremt mange skråstreger. Da de undersøgte omfanget fandt de tusindvis af rækker med skråstreger - nogle af dem med mere end 1 million skråstreger. 

Hvordan skråstregerne er havnet i datasættet er ikke helt klart, men HuggingFaces Stas Bekman, der har været med til gøre fundet, har en teori: 

Få fuld adgang til DataTech

DataTech skriver til dig, der arbejder professionelt med data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra machine learning-modeller til dataetik.

Abonnementsfordele
vpn_key
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
drafts
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
thumb_up
Adgang til debatten
Deltag i debatten med andre professionelle.
Debatten
Du har ikke tilladelse til at deltage i debatten. Kontakt support@ing.dk hvis du mener at dette er en fejl.
Forsiden