When Does Synthetic Data Generation Work?


Topal A. , Amasyalı M. F.

29. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, İstanbul, Turkey, 9 - 11 June 2021

  • Publication Type: Conference Paper / Unpublished
  • City: İstanbul
  • Country: Turkey

Abstract

Synthetic data generation is one of the methodsused in machine learning to increase the performance of algorithms on datasets. However, these methods do not ensure success on each dataset. In this study, it has been investigated that which type of synthetic data generation algorithms are useful in which datasets by examining the effects of SMOTE, Borderline-SMOTE and Random data generation algorithms on 33 datasets. For this, each dataset has been fully balanced as a result of synthetic data generation. In order to evaluate the results, datasets are divided into three groups as balanced, partially balanced-unbalanced and unbalanced in accordance with the unbalance ratio. The datasets formed as a result of the data generation of the algorithms and the original datasets have been trained with an ANN models and their performance has been evaluated on the test set. Experimental results have shown that adding synthetic data to the datasets with the abovementioned algorithms generally increases the success in balanced and partially balanced-unbalanced datasets, but generally does not work in unbalanced datasets. Borderline-SMOTE, which produces border samples in balanced datasets, and SMOTE in partially balanced-unbalanced datasets have been more successful.
Yapay örnek üretimi makine öğrenmesinde algoritmaların veri kümeleri üzerindeki performansını artırmak için kullanılan yöntemlerdendir. Ancak bu yöntemler her veri kümesi üzerinde başarı sağlamamaktadır. Bu çalışmada SMOTE, Borderline-SMOTE ve Rastgele veri üretim algoritmalarının 33 veri kümesi üzerindeki etkileri incelenerek hangi tür veri kümelerinde hangi tür yapay veri üretimi algoritmalarının faydalı olduğu araştırılmıştır. Bunun için her bir veri kümesi yapay veri üretimi sonucunda tamamen dengeli hale getirilmiştir. Sonuçları değerlendirmek için veri kümeleri dengesizlik oranına göre dengeli, kısmen dengeli-dengesiz ve dengesiz olmak üzere üç gruba ayrılmıştır. Algoritmaların örnek üretimleri sonucunda oluşan veri kümeleri ile orijinal veri kümeleri yapay sinir ağı modelleri ile eğitilmiş ve test kümesi üzerinde performansları karşılaştırılmıştır. Deneysel sonuçlar veri kümelerine anılan algoritmalarla yapay veri eklemenin, dengeli ve kısmen dengeli-dengesiz veri kümelerinde genellikle başarıyı artırdığını, dengesiz veri kümelerinde ise genellikle işe yaramadığını göstermiştir. Dengeli veri kümelerinde sınırlarda örnekler üreten Borderline-SMOTE, kısmen dengeli-dengesiz veri kümelerinde ise SMOTE daha başarılı olmuştur.