Kæmpe multimodalt træningssæt er fyldt med pornografi, vold og racisme

Foto : zlikovec / BigStockPhoto

Kæmpe multimodalt træningssæt er fyldt med pornografi, vold og racisme

Det er nemt at samle gigantiske datasæt, men det kan tage år at finde og fjerne deres problematiske indhold, advarer forskere.  ​​​​​
Med over 400 millioner datapar er LAION-400M verdens største åbne datasæt med billeder og tilhørende fritekst.
Få fuld adgang til DataTech?
DataTech skriver til dig, der arbejder professionelt med data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra Machine Learning-modeller til dataetik.
Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her