[Toxicity Prediction] fingerprint / ECEP(extended-connectivity fingerprint)

2022. 6. 6. 17:43·AI/Toxicity Prediction

Fingerprint

: 화학분야에서의 fingerprint는 분자의 특성 유무를 0과 1로 나타낸 벡터 

 

분자는 복잡한 구조를 가지고 있고, 이를 표현하기 위한 다양한 방법들이 있다.  그 중 널리 쓰이는 방법 중 하나는 SMILES식을 사용하여 분자의 구조와 특징을 표현하는 것이다. 하지만 SMILES식으로 주어진 데이터를 딥러닝 모델에 넣기 위해서는 molecular featurization(분자 피쳐화) 작업이 반드시 필요하다. 분자 피쳐화 작업은 모델이 인식할 수 있는 벡터 등의 형태로 분자식을 변형시키는 과정을 말한다. 

다양한 방법이 있겠지만 가장 간단한 방법은 fingerprint를 사용하는 것이다. 

https://www.ibric.org/myboard/read.php?Board=news&id=258583 

 

[초심자를 위한 생물학+정보학] 분자 구조 관련 데이터 형식 - 18

생체 내에는 매우 다양한 크기의 분자들이 산재해 있으며, 이들의 움직임에 따라서 흡수, 이동, 합성, 분해, 대사, 배출 등의 생리 작용이 이루어진다. 이들 가운데에는 생체 구조를 이루는 외피,

www.ibric.org

 

fingerprint는 화학물질의 개인 정보를 의미하며, 화학물질의 특성을 이진법화한 벡터라고 할 수 있다. (0,1로 표현)

https://dacon.io/competitions/official/235789/codeshare/3078?page=1&dtype=recent

이러한 fingerprint는 한가지만 있는 것이 아닌  다양하게 있으며 rdkit에서 지원하는 fingerprint의 종류는 다음과 같다. 

ECFP (extended-connectivity fingerprint)

ECEP는 fingerprint의 종류 중 하나로 분자의 특징이나 유사도를 확인하기 위해 디자인된 fingerprint이다. 

분자의 특징 및 유사도를 확인할 수 있기 때문에 QASR modeling에 주로 활용되곤 한다. 

* QSAR modeling: Quantitative Structure Activity Relationship modeling)
화학구조를 통해 생물학적 독성을 예측하는 모델 

 

해당 링크에서 ECFP에 대한 자세한 내용을 확인할 수 있다. 

https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md

 

Extended Connectivity Fingerprint ECFP | Chemaxon Docs

 

docs.chemaxon.com

 

주요 특징은 다음과 같다. 

- 주변 원소들의 평균으로 분자의 구조를 표현

- 계산이 매우 빠름 : binary로 나타냄 ➡️ fingerprint의 종류 중 하나 ! 

 

ECFP의 생성 과정은 다음과 같다. 특정 원소는 어떤 원소와 어떤 구조로 연결되어 있는지에 대한 정보를이 값으로 표현되며, 이들은 binary로 계산된다. 그림으로 좀 더 쉽게 이해할 수 있다.

주변 구조나 특징을 이용하여 숫자화키킨 후 $2^{32}$ (1024)정수 공간에 hashing function을 통해 mapping된다.  이 때문에 비가역적(non-invertible)하다고 할 수 있다.  비가역적이란 현재 상태가 되었을 때 다시 이전 상태로 돌아갈 수 없는 상태는 말하는데, 정수 공간에 이미 mapping되어 고정이 되었기 때문인 것 같다.

생성 과정에서 고려할 이웃 원자의 최대 개수를 지정할 수 있으며, 이는 Fig.2.의 diameter(d)를 의미한다. d에 따라 ECEP4(d=4) 와 같이 표현할 수 있다.  

https://pubs.rsc.org/en/content/articlepdf/2020/sc/d0sc03115a 에 따르면, 정보 손실을 감수하더라도 clustering or predictive modeling 같은 downstream에 적용시킬 때, ECFP를 고정 크기의 벡터로 접어 (folding) 진행한다고 한다. 

(이유는 잘 모르겠다. 연산 속도 때문인가? )

 

 

'AI > Toxicity Prediction' 카테고리의 다른 글

[Toxicity Prediction] 독성 예측과 GNN  (0) 2024.01.07
[Toxicity Prediction] 분자를 graph로 표현하기/ graph representation  (1) 2023.05.09
[Toxicity Prediction] Class imbalance와 SMOTE  (0) 2023.05.05
[Toxicity Prediction] 파이썬으로 SDF 파일 읽기/ 분자 데이터 SMILES식 확인하기  (0) 2022.05.02
[Toxicity Prediction]Graph Learning / molecule (분자) data training의 과제  (0) 2022.04.17
'AI/Toxicity Prediction' 카테고리의 다른 글
  • [Toxicity Prediction] 분자를 graph로 표현하기/ graph representation
  • [Toxicity Prediction] Class imbalance와 SMOTE
  • [Toxicity Prediction] 파이썬으로 SDF 파일 읽기/ 분자 데이터 SMILES식 확인하기
  • [Toxicity Prediction]Graph Learning / molecule (분자) data training의 과제
재온
재온
  • 재온
    Carpe Diem
    재온
  • 전체
    오늘
    어제
    • 분류 전체보기 (75)
      • AI (18)
        • NLP (5)
        • Toxicity Prediction (6)
        • Paper review (5)
      • Statistics (5)
        • mathematical statistics (2)
        • Time Series (3)
      • Algorithm (16)
      • Deep Learning (1)
      • Machine Learning (3)
      • TIL (11)
      • 공모전 및 프로젝트 (2)
      • 회고록 (3)
      • IT News (2)
      • 취준일기 (7)
      • 기타 (2)
  • 블로그 메뉴

    • 링크

      • Github
    • 공지사항

    • 인기 글

    • 태그

      SKT AI Fellowship
      코딩테스트 파이썬
      NLP Paper
      NLP
      코딩테스트 개념
      시계열
      노래가사분석
      Transformer기초
      Seqeunce to seqeunce
      Greedy 알고리즘
      ssh 접속오류
      Prompt pattern
      코딩테스트
      크롬드라이버크롤링
      알고리즘
      ChatGPT
      Chatgpt api inference
      파이썬
      chatgpt api 실습
      SMILES to vector
      SKT AI Fellowship 5기 후기
      AI 뉴스레터
      Graph AI
      Prompting
      time series
      chatgpt api 발급받기
      맞춤법 교정 모델
      tokenization repair
      음악가사분석
      이것이코딩테스트다
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.4
    재온
    [Toxicity Prediction] fingerprint / ECEP(extended-connectivity fingerprint)
    상단으로

    티스토리툴바