Kæmpe multimodalt træningssæt er fyldt med pornografi, vold og racisme

12. oktober 2021 kl. 03:44
Affald
Illustration: zlikovec / BigStockPhoto.
Det er nemt at samle gigantiske datasæt, men det kan tage år at finde og fjerne deres problematiske indhold, advarer forskere.  ​​​​​
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Med over 400 millioner datapar er LAION-400M verdens største åbne datasæt med billeder og tilhørende fritekst. Målet med datasættet, der blev frigivet i september, er at gøre det muligt at træne multimodale systemer ala OpenAI's CLIP og DALL-E. 

Få fuld adgang til DataTech

DataTech er til professionelle, der arbejder med data og analytics.

Få 3 uger gratis prøve abonnement til DataTech. Betalingskort er ikke påkrævet, og du vil ikke blive flyttet til et betalt abonnement efterfølgende.

Du kan også få tilsendt et tilbud til dig.

Abonnementsfordele
vpn_key
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
drafts
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
Adgang til andre medier
Hver måned får du 6 klip, som kan bruges til permanent at låse op for indhold på vores andre medier.
thumb_up
Adgang til debatten
Deltag i debatten med andre professionelle.
Ingen kommentarer endnu.  Start debatten
Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger