Data-augmentering: ’Lade cykler’, den grønbuede figenfugl og hvorfor det er sværere end som så at manipulere sig til mere tekstdata
Kan vi manipulere os til mere data, i stedet for at den eneste løsning er at scrape løs og annotere som gale?
En ny teknik begynder at gøre sit indtog inden for NLP: Data-augmentering. Det er en teknik, der har til formål at automatisere produktionen af nye sætninger ved at kopiere og tilføje små forandringer til det originale data. Denne augmentering sker dog hele tiden sådan, at de nye sætninger stadig er meningsfulde. På den måde øges datamængden, og de ændrede sætninger gør, at der er mere data at træne modeller på.
Vil du have fuld adgang til DataTech?
DataTech skriver til dig, der arbejder professionelt med data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra Machine Learning-modeller til dataetik.