[Toxicity Prediction] fingerprint / ECEP(extended-connectivity fingerprint)
Fingerprint
: 화학분야에서의 fingerprint는 분자의 특성 유무를 0과 1로 나타낸 벡터
분자는 복잡한 구조를 가지고 있고, 이를 표현하기 위한 다양한 방법들이 있다. 그 중 널리 쓰이는 방법 중 하나는 SMILES식을 사용하여 분자의 구조와 특징을 표현하는 것이다. 하지만 SMILES식으로 주어진 데이터를 딥러닝 모델에 넣기 위해서는 molecular featurization(분자 피쳐화) 작업이 반드시 필요하다. 분자 피쳐화 작업은 모델이 인식할 수 있는 벡터 등의 형태로 분자식을 변형시키는 과정을 말한다.
다양한 방법이 있겠지만 가장 간단한 방법은 fingerprint를 사용하는 것이다.
https://www.ibric.org/myboard/read.php?Board=news&id=258583
[초심자를 위한 생물학+정보학] 분자 구조 관련 데이터 형식 - 18
생체 내에는 매우 다양한 크기의 분자들이 산재해 있으며, 이들의 움직임에 따라서 흡수, 이동, 합성, 분해, 대사, 배출 등의 생리 작용이 이루어진다. 이들 가운데에는 생체 구조를 이루는 외피,
www.ibric.org
fingerprint는 화학물질의 개인 정보를 의미하며, 화학물질의 특성을 이진법화한 벡터라고 할 수 있다. (0,1로 표현)
이러한 fingerprint는 한가지만 있는 것이 아닌 다양하게 있으며 rdkit에서 지원하는 fingerprint의 종류는 다음과 같다.
ECFP (extended-connectivity fingerprint)
ECEP는 fingerprint의 종류 중 하나로 분자의 특징이나 유사도를 확인하기 위해 디자인된 fingerprint이다.
분자의 특징 및 유사도를 확인할 수 있기 때문에 QASR modeling에 주로 활용되곤 한다.
* QSAR modeling: Quantitative Structure Activity Relationship modeling)
화학구조를 통해 생물학적 독성을 예측하는 모델
해당 링크에서 ECFP에 대한 자세한 내용을 확인할 수 있다.
https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md
Extended Connectivity Fingerprint ECFP | Chemaxon Docs
docs.chemaxon.com
주요 특징은 다음과 같다.
- 주변 원소들의 평균으로 분자의 구조를 표현
- 계산이 매우 빠름 : binary로 나타냄 ➡️ fingerprint의 종류 중 하나 !
ECFP의 생성 과정은 다음과 같다. 특정 원소는 어떤 원소와 어떤 구조로 연결되어 있는지에 대한 정보를이 값으로 표현되며, 이들은 binary로 계산된다. 그림으로 좀 더 쉽게 이해할 수 있다.
주변 구조나 특징을 이용하여 숫자화키킨 후 $2^{32}$ (1024)정수 공간에 hashing function을 통해 mapping된다. 이 때문에 비가역적(non-invertible)하다고 할 수 있다. 비가역적이란 현재 상태가 되었을 때 다시 이전 상태로 돌아갈 수 없는 상태는 말하는데, 정수 공간에 이미 mapping되어 고정이 되었기 때문인 것 같다.
생성 과정에서 고려할 이웃 원자의 최대 개수를 지정할 수 있으며, 이는 Fig.2.의 diameter(d)를 의미한다. d에 따라 ECEP4(d=4) 와 같이 표현할 수 있다.
https://pubs.rsc.org/en/content/articlepdf/2020/sc/d0sc03115a 에 따르면, 정보 손실을 감수하더라도 clustering or predictive modeling 같은 downstream에 적용시킬 때, ECFP를 고정 크기의 벡터로 접어 (folding) 진행한다고 한다.
(이유는 잘 모르겠다. 연산 속도 때문인가? )