AI/Toxicity Prediction

독성 예측(Toxicity Prediction) 연구는 약물 개발 및 화학 물질의 안정성 평가에서 중요한 역할을 하며 기계 학습 기반의 접근 방식은 지속적으로 연구되어 왔다 (Cavasotto et al., 2022). 초기 독성 예측 연구에서는 일반적으로 화학 물질의 분자 구조를 이진 벡터로 표현한 분자 지문(Molecular Fingerprints)를 사용하여 기계 학습 모델에 입력 데이터로 사용하였다 (Pu et al., 2019). 이후, 다양한 딥러닝(Deep Learning) 연구가 발전되어 옴에 따라 단순히 이진 벡터로 변환하는 방식이 아닌 분자를 Graph로 간주하여 표현하는 연구가 진행되고 있다 (Guo et al., 2023). 분자는 원자와 원자간의 연결로 이루어지는데, 원자를 Gra..
분자를 graph로 표현하는 방법 Graph는 node와 edge로 표현되며, node는 vertex(정점)이라고도 말한다. 분자의 독성을 예측할 때, fingerprint 등 다양한 방식으로 표현할 수 있지만 최근에는 Graph로 표현하여 분자의 정보를 더 잘 반영하도록 하는 연구가 활발히 이루어지고 있다. 분자의 원소는 node, 각 원소를 결합하는 방식은 edge로 표현하여 feature를 추출하는 것이다. 일반적으로 분자를 벡터화하는 과정은 아래와 같은 형식으로 이루어진다. 그렇다면 프로그램에서 그래프를 어떻게 나타낼까? 크게 인접 행렬(adjacency matrix)과 인접 리스트(adjacency list)로 나타낼 수 있다. 둘은 각각 그래프의 연결 관계를 2차열 배열과 리스트로 표현한다. ..
독성 예측 분야에서의 class imbalance 분자의 독성 데이터는 불균형이 심한 경우가 많다. 데이터 불균형이란 라벨 간의 수의 차이가 심한 경우를 의미한다. 독성 예측의 benchmark dataset인 molecular data의 Tox21 데이터는 8개의 라벨에서 심한 불균형을 보였다. 이것이 왜 문제가 될까? 바로 독성 있는 분자에 대한 학습의 부족으로 예측력이 약화될 수 있다. accuracy는 높지만 전부 0으로 때려 맞춰서 정확도가 높게 나온 것일 뿐, 1인 것에 대해서는 정확히 예측하지 못한 것이다. SMOTE(Synthetic Minority Over-Smapling Techniques) 대표적인 oversampling 기법으로, 독성 예측 분야에도 물론 적용이 가능하다. 물론 대부..
Fingerprint : 화학분야에서의 fingerprint는 분자의 특성 유무를 0과 1로 나타낸 벡터 분자는 복잡한 구조를 가지고 있고, 이를 표현하기 위한 다양한 방법들이 있다. 그 중 널리 쓰이는 방법 중 하나는 SMILES식을 사용하여 분자의 구조와 특징을 표현하는 것이다. 하지만 SMILES식으로 주어진 데이터를 딥러닝 모델에 넣기 위해서는 molecular featurization(분자 피쳐화) 작업이 반드시 필요하다. 분자 피쳐화 작업은 모델이 인식할 수 있는 벡터 등의 형태로 분자식을 변형시키는 과정을 말한다. 다양한 방법이 있겠지만 가장 간단한 방법은 fingerprint를 사용하는 것이다. https://www.ibric.org/myboard/read.php?Board=news&id=..
from rdkit.Chem import Draw, PandasTools from rdkit import Chem import pandas as pd from rdkit.Chem import Descriptors from rdkit.ML.Descriptors import MoleculeDescriptors Chem.SDMolSupplier(path+'/Genotoxicity sdf_V3000.sdf') df = PandasTools.LoadSDF(path+'/Genotoxicity sdf_V3000.sdf') df
🧬 분자 연구의 메인 과제 분자 표현을 어떤식으로 할 것인가? 어떻게 구조 정보를 더 많이 담을 수 있을까? data how to design a common latent space for molecule graph : 어떻게 분자 그래프의 latent space(잠재 공간)을 잘 표현할 수 있을까 -> 분자 인코더 적절하게 선정 (분자 데이터를 어떻게 벡터로 표현할 것인가?) latent space(잠재 공간): sample space를 잘 설명할 수 있는, 실제 공간을 축소하여 나타낸 공간 learning method how to construct an objective function to supervise the training : 학습을 위한 목적 함수 (손실 함수)를 어떻게 적절히 설정하는가 ..
재온
'AI/Toxicity Prediction' 카테고리의 글 목록