Data-augmentering: ’Lade cykler’, den grønbuede figenfugl og hvorfor det er sværere end som så at manipulere sig til mere tekstdata

Kan vi manipulere os til mere data, i stedet for at den eneste løsning er at scrape løs og annotere som gale?
En ny teknik begynder at gøre sit indtog inden for NLP: Data-augmentering. Det er en teknik, der har til formål at automatisere produktionen af nye sætninger ved at kopiere og tilføje små forandringer til det originale data. Denne augmentering sker dog hele tiden sådan, at de nye sætninger stadig er meningsfulde. På den måde øges datamængden, og de ændrede sætninger gør, at der er mere data at træne modeller på.
Vil du have fuld adgang til DataTech?

DataTech skriver til dig, der arbejder professionelt med data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra Machine Learning-modeller til dataetik.

Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her
DaNLP

Hvis man vil vide mere om Alexandra Instituttets NLP-ressourcer, kan man starte på hjemmesiden danlp.alexandra.dk.

Organisationen har også startet en blog, der løbende skriver om udviklingen af sprogteknologierne.

Og endelig kan man holde øje med Github, hvor modeller lægges ud til fri afbenyttelse.

Referencer

[1] Luque, F. M. (2019). Atalaya at tass 2019: Data augmentation and robust embeddings for sentiment analysis. arXiv preprint arXiv:1909.11241;
Zhang, X., Zhao, J., & LeCun, Y. (2015). Character-level convolutional. networks for text classification. In Advances in neural information processing systems (pp. 649–657);
Sun, X., & He, J. (2020). A novel approach to generate a large scale of supervised data for short text sentiment analysis. Multimedia Tools and Applications79 (9), 5439–5459.

[2] Wei, J., & Zou, K. (2019). Eda: Easy data augmentation techniques for boosting performance on text classification tasks. arXiv preprint arXiv:1901.11196.