AI

· AI
이번에 새롭게 공부한 이미지 데이터 augmentation작은 물체에 대해 잘 탐지를 하지 못해 zoom out을 통한 augmentation과 rotation을 통해 4만장의 데이터를 2배로 증가시켰다. import osimport globimport randomimport cv2import numpy as npfrom tqdm import tqdmimport albumentations as Aimport loggingimport timefrom datetime import datetime# Set Log Hcurrent_time = datetime.now().strftime('%Y%m%d_%H%M%S')log_filename = f'logs/image_processing_{current_time}.l..
독성 예측(Toxicity Prediction) 연구는 약물 개발 및 화학 물질의 안정성 평가에서 중요한 역할을 하며 기계 학습 기반의 접근 방식은 지속적으로 연구되어 왔다 (Cavasotto et al., 2022). 초기 독성 예측 연구에서는 일반적으로 화학 물질의 분자 구조를 이진 벡터로 표현한 분자 지문(Molecular Fingerprints)를 사용하여 기계 학습 모델에 입력 데이터로 사용하였다 (Pu et al., 2019). 이후, 다양한 딥러닝(Deep Learning) 연구가 발전되어 옴에 따라 단순히 이진 벡터로 변환하는 방식이 아닌 분자를 Graph로 간주하여 표현하는 연구가 진행되고 있다 (Guo et al., 2023). 분자는 원자와 원자간의 연결로 이루어지는데, 원자를 Gra..
· AI/NLP
Backgrounds NLP 모델의 발전 과정 → 모델과 데이터의 사이즈가 커짐에 따라 전체 데이터만 사용하는 방식이 아닌 다양한 방식이 도입되었음 → 그 중 PELT는 2020년 이후로 많이 사용되었음 Prompt-based Fine-tuning: 새로운 파라미터가 필요없고, few-shot 학습에 용이함 In-context Learning: task에 따라 모델의 파라미터를 바꾸는 것이 아닌, 몇개의 example만을 가지고 학습하는 방식 : prompt, demonstrations, pattern, verbalizer(label과 text를 mapping해주는 함수)의 개념 활용 ⇒ No task-specific training이 가능하다는 장점이 있지만, 대규모 training set를 활용할 수..
· AI/NLP
학교 수업의 일환으로 chatgpt api를 사용해보았다. Chatgpt API 발급받기 1. openai 홈페이지에 들어가면 API 를 사용할 수 있는 메뉴가 있다. 2. view API keys로 들어가기 3. API 발급 받기 개인의 API를 발급받고 확인할 수 있다. 미리 복사해두지 않으면 계속 API를 발급받아서 확인해야할 수 있으므로 미리 복사해두는 것을 추천한다. (Option) 4. 결제 계정당 발급 받을 수 있는 토큰의 수가 제한되어 있다. 나는 과제를 빠르게 끝내야 했으므로 .. ㅎ ㅎ 일단 결제를 했다. 결제 수단 등록을 진행하면 자동으로 결제가 우선 이루어 진다. 대충 한끼 굶을게요 Python에서 API 활용하기 import openai ## OepnAI api = '' #my a..
· AI/NLP
Paper Main Idea 맞춤법 오류가 있는 텍스트에 대해서 tokenizatioin repair를 수행함으로써 맞춤법 교정 수행 왜 tokenization 과정에서 수행하였는가? 우선 토큰화는 자연어 처리에서 가장 중요하다고 해도 과언이 아닌 단계임 (토큰화 : 텍스트를 의미가 있는 가장 작은 단위로 분할하는 과정) 맞춤법 오류가 있는 텍스트의 경우 토큰화 단계에서부터 문제가 발생할 수 있음 ex) "This algoritm runs in linear time"→ This, algoritm, runs, in, linear, time로 분리되어야 함. This algor itm runsin linear time 처럼 띄어쓰기 단계에서 오타가 있는 경우는 올바른 토큰으로 분리되지 않을 수 있음 toke..
https://arxiv.org/abs/2302.11382 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT Prompt engineering is an increasingly important skill set needed to converse effectively with large language models (LLMs), such as ChatGPT. Prompts are instructions given to an LLM to enforce rules, automate processes, and ensure specific qualities (and q arxiv.org 2023년 2월에 발표된 논문으로, 요즘 어디서든 빠지..
분자를 graph로 표현하는 방법 Graph는 node와 edge로 표현되며, node는 vertex(정점)이라고도 말한다. 분자의 독성을 예측할 때, fingerprint 등 다양한 방식으로 표현할 수 있지만 최근에는 Graph로 표현하여 분자의 정보를 더 잘 반영하도록 하는 연구가 활발히 이루어지고 있다. 분자의 원소는 node, 각 원소를 결합하는 방식은 edge로 표현하여 feature를 추출하는 것이다. 일반적으로 분자를 벡터화하는 과정은 아래와 같은 형식으로 이루어진다. 그렇다면 프로그램에서 그래프를 어떻게 나타낼까? 크게 인접 행렬(adjacency matrix)과 인접 리스트(adjacency list)로 나타낼 수 있다. 둘은 각각 그래프의 연결 관계를 2차열 배열과 리스트로 표현한다. ..
재온
'AI' 카테고리의 글 목록