전체 글

AI를 공부하고 기록합니다.
· AI/NLP
Backgrounds NLP 모델의 발전 과정 → 모델과 데이터의 사이즈가 커짐에 따라 전체 데이터만 사용하는 방식이 아닌 다양한 방식이 도입되었음 → 그 중 PELT는 2020년 이후로 많이 사용되었음 Prompt-based Fine-tuning: 새로운 파라미터가 필요없고, few-shot 학습에 용이함 In-context Learning: task에 따라 모델의 파라미터를 바꾸는 것이 아닌, 몇개의 example만을 가지고 학습하는 방식 : prompt, demonstrations, pattern, verbalizer(label과 text를 mapping해주는 함수)의 개념 활용 ⇒ No task-specific training이 가능하다는 장점이 있지만, 대규모 training set를 활용할 수..
· AI/NLP
학교 수업의 일환으로 chatgpt api를 사용해보았다. Chatgpt API 발급받기 1. openai 홈페이지에 들어가면 API 를 사용할 수 있는 메뉴가 있다. 2. view API keys로 들어가기 3. API 발급 받기 개인의 API를 발급받고 확인할 수 있다. 미리 복사해두지 않으면 계속 API를 발급받아서 확인해야할 수 있으므로 미리 복사해두는 것을 추천한다. (Option) 4. 결제 계정당 발급 받을 수 있는 토큰의 수가 제한되어 있다. 나는 과제를 빠르게 끝내야 했으므로 .. ㅎ ㅎ 일단 결제를 했다. 결제 수단 등록을 진행하면 자동으로 결제가 우선 이루어 진다. 대충 한끼 굶을게요 Python에서 API 활용하기 import openai ## OepnAI api = '' #my a..
Definition of ML Inductive bias : 인공지능에서 말하는 "Learning"이란 데이터를 분석하여 예측 performance를 개선하기 위하여 경험을 전문지식으로 전화하는 과정임. Formulation: training data- 경험, ouput- specific task에 특화된 어떤 전문가이라고 할 수 있음. ML의 다양한 type Prediction input: ${(x_1, y_1), ..., (x_n, y_n)}$ ouput: $f$ :$X$→ $Y$ 를 잘 이해할 수 있도록 하는 함수 $f$ Dataset이 주어졌을 때 best function을 찾는 과정. 예시로 Prediction과 Classificaiton이 있음. Supervised Learning Active..
· Algorithm
코딩 테스트 뿐만 아니라 데이터 분석을 할 때도 정규 표현식을 많이 사용하기 때문에 한번 쯤 꼭 정리해야 겠다고 생각했다! 정규 표현식에서 사용하는 메타 문자 메타 문자란? 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다. 즉, 온점(.)을 본래 의미(문장을 끝냄)가 아닌 다른 의미를 부여하여 사용하겠다는 뜻이다. 메타 문자의 종류는 다음과 같은 것들이 있다. . ^ $ * + ? { } [ ] \ | ( ) 정규 표현식에 메타 문자를 사용하여 특별한 의미를 부여하였다. 각 메타 문자별로 어떤 의미를 가지고 있는지, 이를 활용한 정규 표현식을 정리해보겠다. 문자 클래스 [] 의미: [] 사이의 문자들과 매치, [] 사이에는 아무 문자나 다 들어갈 수 있음 관련 문제 프로그래머스 신규..
· 회고록
SKT AI fellowship 5기에 지원했다. 결과는 서류 합격, 면접 불합격 아쉬운 결과지만 그 과정에서 배운 점도 많았기에 후기를 남겨보려 한다. SKT AI fellowship 이란? SKT에서 매년 모집하고 있으며, 지원금을 받으며 SKT와 협업하여 연구를 진행할 수 있는 프로그램이다. 현업 개발자분과의 멘토링, 실제 SKT의 기업 데이터를 접해볼 수 있다는 점이 큰 메리트로 느껴졌고, 연구실 사람들과 함께 지원하게 되었다. 지원 분야는 13개가 있었는데, 우리는 AI 기반 한국어 자막 자동 조정 기술 분야에 지원하였다. 음성 분야를 주로 공부한 두 사람과, GNN 기반 연구들을 많이 한 나에게는 굉장히 challenging한 task였는데, NLP에 대한 관심이 굉장히 많았기에 (난 연구실에..
· AI/NLP
Paper Main Idea 맞춤법 오류가 있는 텍스트에 대해서 tokenizatioin repair를 수행함으로써 맞춤법 교정 수행 왜 tokenization 과정에서 수행하였는가? 우선 토큰화는 자연어 처리에서 가장 중요하다고 해도 과언이 아닌 단계임 (토큰화 : 텍스트를 의미가 있는 가장 작은 단위로 분할하는 과정) 맞춤법 오류가 있는 텍스트의 경우 토큰화 단계에서부터 문제가 발생할 수 있음 ex) "This algoritm runs in linear time"→ This, algoritm, runs, in, linear, time로 분리되어야 함. This algor itm runsin linear time 처럼 띄어쓰기 단계에서 오타가 있는 경우는 올바른 토큰으로 분리되지 않을 수 있음 toke..
· TIL
파이썬 시각화 TOOL 종류를 보기 쉽게 정리한 이미지를 봐서 공유하고자 한다. 실습 과정은 시간 날때 추가해봐야징
https://arxiv.org/abs/2302.11382 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT Prompt engineering is an increasingly important skill set needed to converse effectively with large language models (LLMs), such as ChatGPT. Prompts are instructions given to an LLM to enforce rules, automate processes, and ensure specific qualities (and q arxiv.org 2023년 2월에 발표된 논문으로, 요즘 어디서든 빠지..
재온
나의 데이터 세상