AI

독성 예측 분야에서의 class imbalance 분자의 독성 데이터는 불균형이 심한 경우가 많다. 데이터 불균형이란 라벨 간의 수의 차이가 심한 경우를 의미한다. 독성 예측의 benchmark dataset인 molecular data의 Tox21 데이터는 8개의 라벨에서 심한 불균형을 보였다. 이것이 왜 문제가 될까? 바로 독성 있는 분자에 대한 학습의 부족으로 예측력이 약화될 수 있다. accuracy는 높지만 전부 0으로 때려 맞춰서 정확도가 높게 나온 것일 뿐, 1인 것에 대해서는 정확히 예측하지 못한 것이다. SMOTE(Synthetic Minority Over-Smapling Techniques) 대표적인 oversampling 기법으로, 독성 예측 분야에도 물론 적용이 가능하다. 물론 대부..
· AI/NLP
언어 모델의 발전 과정을 전체적으로 톺아보기 위한 포스팅이다. (1) NLP의 이해/ RNN / LSTM https://emperor-one-data-study.tistory.com/35 (2) Seq2seq와 Attention (3)Transformer (4) Transformer 계열 모델 - encoder only / encoder-decoder / decoder only (5) In context learning (6) promting for few-shot learnig 순서로 전체적인 흐름을 정리해본다. (추후 순서 변경 가능!) LM 모델의 발전 이 전 포스팅에서, NLP 모델의 기초가 되었던 RNN과 LSTM에 대해 알아보았다. LSTM에서 발생하는 문제점들을 보완하기 위해 Encoder-..
· AI/NLP
언어 모델의 발전 과정을 전체적으로 톺아보기 위한 포스팅이다. (1) NLP의 이해/ RNN / LSTM (2) Seq2seq / Transformer (3) Transformer 계열 모델 - encoder only / encoder-decoder / decoder only (4) In context learning (5) promting for few-shot learnig 순서로 전체적인 흐름을 정리해본다. (추후 순서 변경 가능!) NLP의 의미 NLP(Natural Language Processing)는 말 그대로, 컴퓨터가 인간의 언어를 이해할 수 있도록 하는 전반적인 과정을 다루는 AI 분야이다. 컴퓨터가 이해할 수 있도록 언어를 바꾼 후 , 추론 및 문장 생성 등 다양한 언어 Task를 수..
Introduction GSNet 모델은 6DoF pose estimation task에 대한 모델이다. 6DoF pose estimation task은 3개의 점 좌표와 3개의 회전값의 6D에서 물체의 위치와 방향 등의 추정하는 task이다. 해당 task에 대해서는 아래 링크 글의 본문에서 좀 더 쉽게 확인할 수 있다. 쉽게 말해, 어떤 물체가 어디에 있는지에 대한 3D 좌표 (x,y,z )와 어떤 방향으로 회전시켰는지에 대한 정보를 가지고 물체를 예측하는 것이다. https://www.materic.or.kr/community/rising_mterview/content.asp?f_id=77 기계·로봇 연구정보센터 1. 본인의 연구에 대해서 자세한 소개를 부탁 드립니다. 최근에 코로나바이러스로 인해 ..
https://github.com/chao1224/GraphMVP GitHub - chao1224/GraphMVP Contribute to chao1224/GraphMVP development by creating an account on GitHub. github.com https://openreview.net/pdf?id=xQUe1pOKPam Github이 비어 있어 하고 있는 연구로의 적용은 어려울 것 같다는 생각이 들지만, 3D 구조 적용의 중요성에 대하여 재고해볼 수 있었다. 이 논문을 맨 처음 읽었을 때는 코드가 공개되어 있지 않았는데 최근 업데이트가 된 것 같다. (V. 220415) regression 과 classification task 모두 적용 가능하다. Prior knowledge..
Fingerprint : 화학분야에서의 fingerprint는 분자의 특성 유무를 0과 1로 나타낸 벡터 분자는 복잡한 구조를 가지고 있고, 이를 표현하기 위한 다양한 방법들이 있다. 그 중 널리 쓰이는 방법 중 하나는 SMILES식을 사용하여 분자의 구조와 특징을 표현하는 것이다. 하지만 SMILES식으로 주어진 데이터를 딥러닝 모델에 넣기 위해서는 molecular featurization(분자 피쳐화) 작업이 반드시 필요하다. 분자 피쳐화 작업은 모델이 인식할 수 있는 벡터 등의 형태로 분자식을 변형시키는 과정을 말한다. 다양한 방법이 있겠지만 가장 간단한 방법은 fingerprint를 사용하는 것이다. https://www.ibric.org/myboard/read.php?Board=news&id=..
from rdkit.Chem import Draw, PandasTools from rdkit import Chem import pandas as pd from rdkit.Chem import Descriptors from rdkit.ML.Descriptors import MoleculeDescriptors Chem.SDMolSupplier(path+'/Genotoxicity sdf_V3000.sdf') df = PandasTools.LoadSDF(path+'/Genotoxicity sdf_V3000.sdf') df
MGSSL(Motif - based Graph Self-Supervised Learning for Molecular Property prediction) 그래프 학습에서 Motif의 개념이 꽤 중요하게 다루어지고 있는데 단순히 node와 edge level에서 그래프를 바라보는 것보다 topology property를 잘 catch했다는 점에서 의미가 있다. 분자 특성 예측 시 해당 연구의 접근 방식을 도입해볼 수 있을 것 같다. 📚 제안 배경 1) labeling data 부족 화학 분야의 특성상 labeling에 소요되는 비용 및 시간 높음 ⇒ over-fitting과 일반성 위해 self-supervised 방식 도입함. 최근 많은 연구에서 활용되고 있으며 앞서 리뷰했던 Grover 논문도 SSL ..
재온
'AI' 카테고리의 글 목록 (2 Page)