Fingerprint
: 화학분야에서의 fingerprint는 분자의 특성 유무를 0과 1로 나타낸 벡터
분자는 복잡한 구조를 가지고 있고, 이를 표현하기 위한 다양한 방법들이 있다. 그 중 널리 쓰이는 방법 중 하나는 SMILES식을 사용하여 분자의 구조와 특징을 표현하는 것이다. 하지만 SMILES식으로 주어진 데이터를 딥러닝 모델에 넣기 위해서는 molecular featurization(분자 피쳐화) 작업이 반드시 필요하다. 분자 피쳐화 작업은 모델이 인식할 수 있는 벡터 등의 형태로 분자식을 변형시키는 과정을 말한다.
다양한 방법이 있겠지만 가장 간단한 방법은 fingerprint를 사용하는 것이다.
https://www.ibric.org/myboard/read.php?Board=news&id=258583
fingerprint는 화학물질의 개인 정보를 의미하며, 화학물질의 특성을 이진법화한 벡터라고 할 수 있다. (0,1로 표현)
이러한 fingerprint는 한가지만 있는 것이 아닌 다양하게 있으며 rdkit에서 지원하는 fingerprint의 종류는 다음과 같다.
ECFP (extended-connectivity fingerprint)
ECEP는 fingerprint의 종류 중 하나로 분자의 특징이나 유사도를 확인하기 위해 디자인된 fingerprint이다.
분자의 특징 및 유사도를 확인할 수 있기 때문에 QASR modeling에 주로 활용되곤 한다.
* QSAR modeling: Quantitative Structure Activity Relationship modeling)
화학구조를 통해 생물학적 독성을 예측하는 모델
해당 링크에서 ECFP에 대한 자세한 내용을 확인할 수 있다.
https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md
주요 특징은 다음과 같다.
- 주변 원소들의 평균으로 분자의 구조를 표현
- 계산이 매우 빠름 : binary로 나타냄 ➡️ fingerprint의 종류 중 하나 !
ECFP의 생성 과정은 다음과 같다. 특정 원소는 어떤 원소와 어떤 구조로 연결되어 있는지에 대한 정보를이 값으로 표현되며, 이들은 binary로 계산된다. 그림으로 좀 더 쉽게 이해할 수 있다.
주변 구조나 특징을 이용하여 숫자화키킨 후 $2^{32}$ (1024)정수 공간에 hashing function을 통해 mapping된다. 이 때문에 비가역적(non-invertible)하다고 할 수 있다. 비가역적이란 현재 상태가 되었을 때 다시 이전 상태로 돌아갈 수 없는 상태는 말하는데, 정수 공간에 이미 mapping되어 고정이 되었기 때문인 것 같다.
생성 과정에서 고려할 이웃 원자의 최대 개수를 지정할 수 있으며, 이는 Fig.2.의 diameter(d)를 의미한다. d에 따라 ECEP4(d=4) 와 같이 표현할 수 있다.
https://pubs.rsc.org/en/content/articlepdf/2020/sc/d0sc03115a 에 따르면, 정보 손실을 감수하더라도 clustering or predictive modeling 같은 downstream에 적용시킬 때, ECFP를 고정 크기의 벡터로 접어 (folding) 진행한다고 한다.
(이유는 잘 모르겠다. 연산 속도 때문인가? )
'AI > Toxicity Prediction' 카테고리의 다른 글
[Toxicity Prediction] 독성 예측과 GNN (0) | 2024.01.07 |
---|---|
[Toxicity Prediction] 분자를 graph로 표현하기/ graph representation (1) | 2023.05.09 |
[Toxicity Prediction] Class imbalance와 SMOTE (0) | 2023.05.05 |
[Toxicity Prediction] 파이썬으로 SDF 파일 읽기/ 분자 데이터 SMILES식 확인하기 (0) | 2022.05.02 |
[Toxicity Prediction]Graph Learning / molecule (분자) data training의 과제 (0) | 2022.04.17 |