Handling Method of Imbalance Data for Machine Learning : Focused on Sampling

Recently, more and more attempts have been made to solve the problems faced by academia and industry through machine learning. Accordingly, various attempts are being made to solve non-general situations through machine learning, such as deviance, fraud detection and disability detection. A variety of attempts have been made to resolve the non-normal situation in which data is distributed disproportionately, generally resulting in errors. In this paper, we propose handling method of imbalance data for machine learning. The proposed method to such problem of an imbalance in data by verifying that the population distribution of major class is well extracted. Performance Evaluations have proven the proposed method to be better than the existing methods. ■ keyword :∣Imbalance Data∣Machine Learning∣Under Sampling∣Over Sampling∣Anomaly Detection∣ * 이 논문은 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단-차세대정보・컴퓨팅기술개발사업(No. NRF-2017M3C4A7069432), 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(No. 2019R1A2C2084257), 그리 고 2019년도 정부(과학기술정보통신부)의 재원(No.B0101-15-0266, 실시간 대규모 영상 데이터 이해·예측을 위한 고성능 비 주얼 디스커버리 플랫폼 개발)의 지원을 받아 수행된 연구임 접수일자 : 2019년 08월 23일 수정일자 : 2019년 10월 11일 심사완료일 : 2019년 10월 11일 교신저자 : 유재수, e-mail : yjs@chungbuk.ac.kr 한국콘텐츠학회논문지 '19 Vol. 19 No. 11 568 라 머신러닝은 점점 더 중요해지고 있다. 특히, 머신러 닝에 기반을 두어서 분류 예측하는 문제는 산업계에서 널리 사용되고 있다. 분류 예측 문제에서 가장 흔하게 만나는 문제는 데이터 불균형 문제이다. 데이터 불균형 문제는 사기 탐지, 허가되지 않은 네트워크 침입 탐지, 장애 탐지, 의료 진단 등 다양한 분야에서 데이터가 불 균형하게 분포하여 발생하는 문제를 의미한다. 또한 클 래스란 분류의 기준이 되는 대상 데이터를 의미한다. 예를 들어, 클래스는 사기 탐지에서는 사기 유무, 네트 워크 침입 탐지에서는 침입 유무, 장애 탐지에서는 장 애 유무 등을 구분할 수 있는 데이터이다. 또한 데이터 의 수가 많은 클래스를 다수 클래스(Major Class)라 하 고 데이터의 수가 적은 클래스를 소수 클래스(Minor Class)라 정의한다. 데이터 불균형 문제의 가장 큰 문제는 데이터 분류 예측 시 기계 학습에 부정적인 영향을 준다는 것이다. 의사 결정모형이나 신경망 모형은 훈련 데이터 셋이 등 급 간 균일하게 분포한다고 가정한다[1]. 그러나 위에서 서술한대로 사기 탐지, 허가되지 않은 네트워크 침입 탐지, 장애 탐지, 의료 진단 등 실제 세상에서 발생하는 많은 분류 예측 문제들은 등급 간 데이터가 균일하게 분포하지 않으며 비율 또한 매우 낮은 경우가 대다수이 다. 이러한 데이터 불균형 문제는 오류를 야기하게 된 다[1]. 이러한 데이터 불균형 문제를 극복하기 위해 다 양한 기법들이 연구되고 있다[1-11]. 주로 데이터를 균 형 있게 조작하는 데이터 수준 방법(Data-level approach)과 보다 클래스 불균형에 민감하게 반응하 는 알고리즘 수준 방법이 존재한다. 데이터 불균형이 초래하는 오류를 극복하기 위해 시 도된 방법 중 데이터 레벨 접근 방법은 데이터 불균형 으로 인해 발생되는 원인을 제거하여 문제를 해결하는 방법이다. 즉, 데이터 레벨 접근 방법은 데이터를 균형 있게 맞추어 학습을 시키는 방법이다. 데이터 레벨 접 근방법은 크게 두 가지 접근 방향을 가진다. 첫째는 샘 플링 방법이다. 샘플링은 소수 클래스의 데이터를 다수 클래스만큼 증폭시키는 오버 샘플링과 다수 클래스를 소수 클래스만큼 감소시키는 언더 샘플링으로 구성되 며 일반적으로 대표적인 오버 샘플링에는 랜덤 오버 샘 플링(ROS), 소수 클래스 오버 샘플링(SMOTE)이 존재 하며, 언더 샘플링에는 랜덤 언더 샘플링(RUS)이 존재 한다. 두 번째는 피쳐 셀렉션(Feature selection) 방법이 다. 데이터의 고차원성과 관련성 없는 피쳐들은 불균형 데이터셋에서 분류기의 성능을 저하시키고 잘못 분류 되는 비율을 증가시키기 때문에 피쳐 셀렉션이 필요하 다[1]. Zheng et al[6]에서는 피쳐 셀렉션 기법들인 information gain, chi square, correlation oefficient, odds ratio을 명시적으로 결합한 피쳐 셀 렉션을 사용했다. 본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안한다. 제안하는 기법은 데이터 레벨 접근 방법을 개선한 실무에 적합한 샘플링 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스 (Major Class)의 모집단 분포를 효율적으로 추출하도 록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다. 본 논문의 구성은 다음과 같다. 2절에서는 관련연구 를 조사 분석한다. 3절에서는 제안하는 샘플링 기법을 기술한다. 4절에서는 성능평가를 통해 제안하는 기법의 타당성을 보인다. 5절에서는 결론 및 향후 연구를 설명 한다.

[1]  I. Tomek,et al.  Two Modifications of CNN , 1976 .

[2]  Rohini K. Srihari,et al.  Feature selection for text categorization on imbalanced data , 2004, SKDD.

[3]  Rushi Longadge,et al.  Class Imbalance Problem in Data Mining Review , 2013, ArXiv.

[4]  Haibo He,et al.  ADASYN: Adaptive synthetic sampling approach for imbalanced learning , 2008, 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence).

[5]  Annelie Heuser,et al.  The Curse of Class Imbalance and Conflicting Metrics with Machine Learning for Side-channel Evaluations , 2018, IACR Cryptol. ePrint Arch..

[6]  Taghi M. Khoshgoftaar,et al.  A survey on addressing high-class imbalance in big data , 2018, Journal of Big Data.

[7]  Lin Wang,et al.  Machine learning based mobile malware detection using highly imbalanced network traffic , 2017, Inf. Sci..

[8]  Stan Matwin,et al.  Addressing the Curse of Imbalanced Training Sets: One-Sided Selection , 1997, ICML.

[9]  Jorma Laurikkala,et al.  Improving Identification of Difficult Small Classes by Balancing Class Distribution , 2001, AIME.

[10]  Dazhe Zhao,et al.  An Optimized Cost-Sensitive SVM for Imbalanced Data Learning , 2013, PAKDD.

[11]  Dazhe Zhao,et al.  A PSO-Based Cost-Sensitive Neural Network for Imbalanced Data Classification , 2013, PAKDD Workshops.

[12]  Arpit Singh,et al.  A Survey on Methods for Solving Data Imbalance Problem for Classification , 2015 .

[13]  María José del Jesús,et al.  A study of the behaviour of linguistic fuzzy rule based classification systems in the framework of imbalanced data-sets , 2008, Fuzzy Sets Syst..

[14]  I. Tomek An Experiment with the Edited Nearest-Neighbor Rule , 1976 .

[15]  Ana L. C. Bazzan,et al.  Balancing Training Data for Automated Annotation of Keywords: a Case Study , 2003, WOB.

[16]  Gustavo E. A. P. A. Batista,et al.  A study of the behavior of several methods for balancing machine learning training data , 2004, SKDD.

[17]  Dennis L. Wilson,et al.  Asymptotic Properties of Nearest Neighbor Rules Using Edited Data , 1972, IEEE Trans. Syst. Man Cybern..

[18]  Seetha Hari,et al.  Learning From Imbalanced Data , 2019, Advances in Computer and Electrical Engineering.

[19]  Nitesh V. Chawla,et al.  SMOTE: Synthetic Minority Over-sampling Technique , 2002, J. Artif. Intell. Res..