나의 데이터 세상

2022.04.22· TIL

1. 구글 AI 블로그 AI 산업 자체를 선도하고 있는 기업의 기술 블로그인만큼 최신 모델들을 팔로우하기에 유용한 사이트이다. 요즘 읽고 있는 PaLM 모델도 해당 사이트에서 자세한 설명을 확인할 수 있었다. https://ai.googleblog.com/ Google AI Blog The latest from Google Research ai.googleblog.com 2. arxiv-sanity 논문에 대한 요약과 PDF 파일을 한번에 확인할 수 있는 사이트이다. 원하는 논문의 파일을 찾고 싶을 때 이용한다. https://arxiv-sanity-lite.com/ arxiv-sanity arxiv-sanity-lite.com 3. paer with code 최근 나온 논문이 뭐가 있는지 살펴보기 좋다..

Downstream task 학습 방식

2022.04.17· TIL

downstream data를 얼마나 사용하는지, 이를 활용하여 모델 업데이트를 얼마나 하는지에 따라 나눌 수 있다. finetuning: data 전체 사용하여 모델 전체 업데이트 prompt tuning: data 전체 사용하여 모델 일부만 업데이트 in-context learning: data 일부 사용하며 모델 업데이트 안함 zero-shot learning: data 아에 사용 안하고 바로 task 수행 one-shot learning: data 1건 사용. 1건의 데이터가 어떻게 수행되는지를 참고한 후 task 수행 few-shot learning: data 몇개만 사용. 최근 언어 모델의 크기가 커지고 있어, 비용과 시간상의 문제로 finetuning 외의 학습 방식이 주목 받고 있다. 특히..

[paper review] Motif - based Graph Self-Supervised Learning for Molecular Property prediction 논문 리뷰

2022.04.17· AI/Paper review

MGSSL(Motif - based Graph Self-Supervised Learning for Molecular Property prediction) 그래프 학습에서 Motif의 개념이 꽤 중요하게 다루어지고 있는데 단순히 node와 edge level에서 그래프를 바라보는 것보다 topology property를 잘 catch했다는 점에서 의미가 있다. 분자 특성 예측 시 해당 연구의 접근 방식을 도입해볼 수 있을 것 같다. 📚 제안 배경 1) labeling data 부족 화학 분야의 특성상 labeling에 소요되는 비용 및 시간 높음 ⇒ over-fitting과 일반성 위해 self-supervised 방식 도입함. 최근 많은 연구에서 활용되고 있으며 앞서 리뷰했던 Grover 논문도 SSL ..

[Toxicity Prediction]Graph Learning / molecule (분자) data training의 과제

2022.04.17· AI/Toxicity Prediction

🧬 분자 연구의 메인 과제 분자 표현을 어떤식으로 할 것인가? 어떻게 구조 정보를 더 많이 담을 수 있을까? data how to design a common latent space for molecule graph : 어떻게 분자 그래프의 latent space(잠재 공간)을 잘 표현할 수 있을까 -> 분자 인코더 적절하게 선정 (분자 데이터를 어떻게 벡터로 표현할 것인가?) latent space(잠재 공간): sample space를 잘 설명할 수 있는, 실제 공간을 축소하여 나타낸 공간 learning method how to construct an objective function to supervise the training : 학습을 위한 목적 함수 (손실 함수)를 어떻게 적절히 설정하는가 ..

[Paper review] GROVER (Graph Represention from self-supervised mEssage passing tRansformer) 논문 리뷰

2022.04.17· AI/Paper review

화학물질 독성 및 질환 발생 예측 연구를 위해 분자 데이터를 다룬 다양한 연구 사례 중 GROVER 논문을 읽어보았다. 해당 논문은 일반적으로 SMILES 방식으로 분자 데이터를 나타내던 기존 방식에서 벗어나 graph 형식으로 데이터를 표현하여 모델을 pre-train 시킨다. 이를 위해 transformer의 인코더 부분을 사용하였으며, self-supervised 방식으로 학습하였다. 인접 행렬로 된 graph data를 GROVER 모델을 통해 node embed, edge embed로 출력한다. https://drug.ai.tencent.com/publications/GROVER.pdf https://github.com/tencent-ailab/grover 코드는 공부 중이다! ✏️ 제안 배경 ..

2021년을 돌아보며

2022.04.17· 회고록

벨로그에 썼다가 티스토리로 싹 올리면서 날짜가 요모양이 됐답니다. 2021년 12월 31일에 쓴 회고록! 2021년은 유난히 힘든 일도 많았던 것 같고 마음 고생도 많이 했다. 몰아치는 일들과 모든 일을 완벽하게 하지 못하는 나에게 실망도 많이 했다. 지나고나니 미화가 되는 것이 참.. 신기하다. 이렇게 다 흘러가겠지! 내년은 더 멋진 내가 되어야지🙂 BOAZ ADV 활동 + 대표진 활동 (1월~7월) 올해 나의 삶에서 절대 빼놓을 수 없는 BOAZ! 보아즈 활동 후기는 따로 업로드 예정 :D 1) ADV Project 우선 ADV 결과물이 꽤나 만족스럽게 나와서 뿌듯했다 :) https://www.youtube.com/watch?v=2qesbqqj3fo&t=23s http://boaz.vagazine...

셀레니움 네이버 장소 리뷰 크롤링 / xpath 클릭이 안될 때

2022.04.17· TIL

네이버 map에서 식당을 검색하고 리뷰를 크롤링할 때, xpath는 맞게 copy했는데 계속 클릭이 안됐다. NoSuchElementException 에러가 계속되어 원인을 찾아봤다. 아마 창이 여러개로 나뉘게 되어 여러개의 frame이 생성되어 xpath를 잘 못찾았던 게 원인인 것 같다. 실제 html 내용을 확인했을 때, 이렇게 되어 있었다. 이런 경우 element = driver.find_element_by_id("searchIframe") driver.switch_to.frame(element) 해당 코드를 통해 프레임으로 이동 후 클릭해주면 잘된다. driver.switch_to.default_content() 클릭 후에는 기존 프레임으로 돌아와야한다.

[DB/ SQL]CSV to SQL/ table data import wizard /연결 오류 해결

2022.04.17· TIL

CSV파일을 다운로드 받아 SQL workbench로 연결할 때 사용할 수 있다. 1) 데이터베이스 생성 #데이터베이스 생성 DROP database IF EXISTS `bikedust`; create database `bikedust`; USE `bikedust`; SET FOREIGN_KEY_CHECKS=0; 2) 테이블 생성 DROP TABLE `bike_rent`; CREATE TABLE `bike_rent` ( `place` varchar(5) NOT NULL, `rent_name` varchar(50) NOT NULL, `rent_date` int NOT NULL, `rent_count` int NOT NULL, PRIMARY KEY (`rent_name`) ) ENGINE=MyISAM DEF..

전체 글

티스토리툴바