전체 글

AI를 공부하고 기록합니다.
MGSSL(Motif - based Graph Self-Supervised Learning for Molecular Property prediction) 그래프 학습에서 Motif의 개념이 꽤 중요하게 다루어지고 있는데 단순히 node와 edge level에서 그래프를 바라보는 것보다 topology property를 잘 catch했다는 점에서 의미가 있다. 분자 특성 예측 시 해당 연구의 접근 방식을 도입해볼 수 있을 것 같다. 📚 제안 배경 1) labeling data 부족 화학 분야의 특성상 labeling에 소요되는 비용 및 시간 높음 ⇒ over-fitting과 일반성 위해 self-supervised 방식 도입함. 최근 많은 연구에서 활용되고 있으며 앞서 리뷰했던 Grover 논문도 SSL ..
🧬 분자 연구의 메인 과제 분자 표현을 어떤식으로 할 것인가? 어떻게 구조 정보를 더 많이 담을 수 있을까? data how to design a common latent space for molecule graph : 어떻게 분자 그래프의 latent space(잠재 공간)을 잘 표현할 수 있을까 -> 분자 인코더 적절하게 선정 (분자 데이터를 어떻게 벡터로 표현할 것인가?) latent space(잠재 공간): sample space를 잘 설명할 수 있는, 실제 공간을 축소하여 나타낸 공간 learning method how to construct an objective function to supervise the training : 학습을 위한 목적 함수 (손실 함수)를 어떻게 적절히 설정하는가 ..
화학물질 독성 및 질환 발생 예측 연구를 위해 분자 데이터를 다룬 다양한 연구 사례 중 GROVER 논문을 읽어보았다. 해당 논문은 일반적으로 SMILES 방식으로 분자 데이터를 나타내던 기존 방식에서 벗어나 graph 형식으로 데이터를 표현하여 모델을 pre-train 시킨다. 이를 위해 transformer의 인코더 부분을 사용하였으며, self-supervised 방식으로 학습하였다. 인접 행렬로 된 graph data를 GROVER 모델을 통해 node embed, edge embed로 출력한다. https://drug.ai.tencent.com/publications/GROVER.pdf https://github.com/tencent-ailab/grover 코드는 공부 중이다! ✏️ 제안 배경 ..
· 회고록
벨로그에 썼다가 티스토리로 싹 올리면서 날짜가 요모양이 됐답니다. 2021년 12월 31일에 쓴 회고록! 2021년은 유난히 힘든 일도 많았던 것 같고 마음 고생도 많이 했다. 몰아치는 일들과 모든 일을 완벽하게 하지 못하는 나에게 실망도 많이 했다. 지나고나니 미화가 되는 것이 참.. 신기하다. 이렇게 다 흘러가겠지! 내년은 더 멋진 내가 되어야지🙂 BOAZ ADV 활동 + 대표진 활동 (1월~7월) 올해 나의 삶에서 절대 빼놓을 수 없는 BOAZ! 보아즈 활동 후기는 따로 업로드 예정 :D 1) ADV Project 우선 ADV 결과물이 꽤나 만족스럽게 나와서 뿌듯했다 :) https://www.youtube.com/watch?v=2qesbqqj3fo&t=23s http://boaz.vagazine...
· TIL
네이버 map에서 식당을 검색하고 리뷰를 크롤링할 때, xpath는 맞게 copy했는데 계속 클릭이 안됐다. NoSuchElementException 에러가 계속되어 원인을 찾아봤다. 아마 창이 여러개로 나뉘게 되어 여러개의 frame이 생성되어 xpath를 잘 못찾았던 게 원인인 것 같다. 실제 html 내용을 확인했을 때, 이렇게 되어 있었다. 이런 경우 element = driver.find_element_by_id("searchIframe") driver.switch_to.frame(element) 해당 코드를 통해 프레임으로 이동 후 클릭해주면 잘된다. driver.switch_to.default_content() 클릭 후에는 기존 프레임으로 돌아와야한다.
· TIL
CSV파일을 다운로드 받아 SQL workbench로 연결할 때 사용할 수 있다. 1) 데이터베이스 생성 #데이터베이스 생성 DROP database IF EXISTS `bikedust`; create database `bikedust`; USE `bikedust`; SET FOREIGN_KEY_CHECKS=0; 2) 테이블 생성 DROP TABLE `bike_rent`; CREATE TABLE `bike_rent` ( `place` varchar(5) NOT NULL, `rent_name` varchar(50) NOT NULL, `rent_date` int NOT NULL, `rent_count` int NOT NULL, PRIMARY KEY (`rent_name`) ) ENGINE=MyISAM DEF..
· 회고록
2022년 전기, 통계대학원을 준비한 과정 및 후기를 기록해보고자 한다. 앞쪽은 나의 진로에 대한 고민 과정이니 대학원 후기를 보고 싶은 사람들은 가볍게 넘겨주길 바란다. 내가 대학원 진학을 결심하기까지의 주저리 나의 길은 어디일까 원래 나는 통계학 공부를 매우 어려워했었다. 1학년 때는 공부에 좀처럼 흥미를 붙이지 못하였고, 전과한다는 말을 달고 살았다. 그렇기에 1,2학년에는 통계와 관련된 직접적인 활동들을 하기보다는 전공 강연 동아리, 학생회, 춤동아리 등 여러 경험을 해보았다. 기획이나 마케팅 분야의 진로를 꿈꾸기도 하였다. 하지만 반짝이는 아이디어를 제시하는 것과는 멀고, 디자인쪽 감각은 전혀 없었다. 그렇게 진로에 대한 고민을 계속 하면서 3학년이 되었다. 다양한 외부 활동으로 지쳤던 나는 3..
Category variable / Numerical variable 데이터 분석을 진행하다보면 크게 두가지 유형의 변수를 확인할 수 있다. numerical 변수는 말 그대로 수치형으로 된 변수이며, 데이터 정보를 확인해보았을 때 int(정수) 또는 float(실수)로 나온다. category 변수는 object 로 되어 있으며 데이터가 문자로 되어 있는 경우이다. df.info() https://www.drivendata.org/competitions/66/flu-shot-learning/page/211/ 질병 관련 설문조사 데이터 정보의 일부를 확인해보았다. Dtype에 float64로 나온 변수는 numerical, object로 나온 변수는 categorical 변수이다. 이러한 categori..
재온
나의 데이터 세상