AI/Toxicity Prediction

[Toxicity Prediction] Class imbalance와 SMOTE

재온 2023. 5. 5. 02:33

독성 예측 분야에서의 class imbalance

분자의 독성 데이터는 불균형이 심한 경우가 많다. 데이터 불균형이란 라벨 간의 수의 차이가 심한 경우를 의미한다. 

독성 예측의 benchmark dataset인 molecular data의 Tox21 데이터는 8개의 라벨에서 심한 불균형을 보였다. 

이것이 왜 문제가 될까? 바로 독성 있는 분자에 대한 학습의 부족으로 예측력이 약화될 수 있다. 

accuracy는 높지만 전부 0으로 때려 맞춰서 정확도가 높게 나온 것일 뿐, 1인 것에 대해서는 정확히 예측하지 못한 것이다. 

SMOTE(Synthetic Minority Over-Smapling Techniques)

대표적인 oversampling 기법으로, 독성 예측 분야에도 물론 적용이 가능하다. 물론 대부분의 molecualrnet 데이터들은 multi-label이기 때문에 단순한 적용은 지양된다. Mulilabel SMOTE를 이해하기 위해서는 우선 자세히 생각해보자.

SMOTE 알고리즘을 자세히 알아보고자 한다.

300x250