나의 데이터 세상

2023.07.16· AI

2023.07.02· AI/NLP

Backgrounds NLP 모델의 발전 과정 → 모델과 데이터의 사이즈가 커짐에 따라 전체 데이터만 사용하는 방식이 아닌 다양한 방식이 도입되었음 → 그 중 PELT는 2020년 이후로 많이 사용되었음 Prompt-based Fine-tuning: 새로운 파라미터가 필요없고, few-shot 학습에 용이함 In-context Learning: task에 따라 모델의 파라미터를 바꾸는 것이 아닌, 몇개의 example만을 가지고 학습하는 방식 : prompt, demonstrations, pattern, verbalizer(label과 text를 mapping해주는 함수)의 개념 활용 ⇒ No task-specific training이 가능하다는 장점이 있지만, 대규모 training set를 활용할 수..

[NLP] Chatgpt API 사용하기/ Chatgpt를 사용한 inference

2023.06.18· AI/NLP

학교 수업의 일환으로 chatgpt api를 사용해보았다. Chatgpt API 발급받기 1. openai 홈페이지에 들어가면 API 를 사용할 수 있는 메뉴가 있다. 2. view API keys로 들어가기 3. API 발급 받기 개인의 API를 발급받고 확인할 수 있다. 미리 복사해두지 않으면 계속 API를 발급받아서 확인해야할 수 있으므로 미리 복사해두는 것을 추천한다. (Option) 4. 결제 계정당 발급 받을 수 있는 토큰의 수가 제한되어 있다. 나는 과제를 빠르게 끝내야 했으므로 .. ㅎ ㅎ 일단 결제를 했다. 결제 수단 등록을 진행하면 자동으로 결제가 우선 이루어 진다. 대충 한끼 굶을게요 Python에서 API 활용하기 import openai ## OepnAI api = '' #my a..

[ML/DL] Introduction of ML/ ML을 위한 기초 지식

2023.06.12· Machine Learning

Definition of ML Inductive bias : 인공지능에서 말하는 "Learning"이란 데이터를 분석하여 예측 performance를 개선하기 위하여 경험을 전문지식으로 전화하는 과정임. Formulation: training data- 경험, ouput- specific task에 특화된 어떤 전문가이라고 할 수 있음. ML의 다양한 type Prediction input: ${(x_1, y_1), ..., (x_n, y_n)}$ ouput: $f$ :$X$→ $Y$ 를 잘 이해할 수 있도록 하는 함수 $f$ Dataset이 주어졌을 때 best function을 찾는 과정. 예시로 Prediction과 Classificaiton이 있음. Supervised Learning Active..

[코딩테스트/ Python] 시간을 단축시켜주는 정규 표현식/프로그래머스 신규 아이디 추천

2023.06.11· Algorithm

코딩 테스트 뿐만 아니라 데이터 분석을 할 때도 정규 표현식을 많이 사용하기 때문에 한번 쯤 꼭 정리해야 겠다고 생각했다! 정규 표현식에서 사용하는 메타 문자 메타 문자란? 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다. 즉, 온점(.)을 본래 의미(문장을 끝냄)가 아닌 다른 의미를 부여하여 사용하겠다는 뜻이다. 메타 문자의 종류는 다음과 같은 것들이 있다. . ^ $ * + ? { } [ ] \ | ( ) 정규 표현식에 메타 문자를 사용하여 특별한 의미를 부여하였다. 각 메타 문자별로 어떤 의미를 가지고 있는지, 이를 활용한 정규 표현식을 정리해보겠다. 문자 클래스 [] 의미: [] 사이의 문자들과 매치, [] 사이에는 아무 문자나 다 들어갈 수 있음 관련 문제 프로그래머스 신규..

SKT AI Fellowship 5기 서류 및 면접 후기 /서류 합격 / 최종 불합격

2023.05.26· 회고록

SKT AI fellowship 5기에 지원했다. 결과는 서류 합격, 면접 불합격 아쉬운 결과지만 그 과정에서 배운 점도 많았기에 후기를 남겨보려 한다. SKT AI fellowship 이란? SKT에서 매년 모집하고 있으며, 지원금을 받으며 SKT와 협업하여 연구를 진행할 수 있는 프로그램이다. 현업 개발자분과의 멘토링, 실제 SKT의 기업 데이터를 접해볼 수 있다는 점이 큰 메리트로 느껴졌고, 연구실 사람들과 함께 지원하게 되었다. 지원 분야는 13개가 있었는데, 우리는 AI 기반 한국어 자막 자동 조정 기술 분야에 지원하였다. 음성 분야를 주로 공부한 두 사람과, GNN 기반 연구들을 많이 한 나에게는 굉장히 challenging한 task였는데, NLP에 대한 관심이 굉장히 많았기에 (난 연구실에..

[Paper review/NLP]Tokenization Repair in the Presence of Spelling Errors (CoNLL 2021)

2023.05.23· AI/NLP

Paper Main Idea 맞춤법 오류가 있는 텍스트에 대해서 tokenizatioin repair를 수행함으로써 맞춤법 교정 수행 왜 tokenization 과정에서 수행하였는가? 우선 토큰화는 자연어 처리에서 가장 중요하다고 해도 과언이 아닌 단계임 (토큰화 : 텍스트를 의미가 있는 가장 작은 단위로 분할하는 과정) 맞춤법 오류가 있는 텍스트의 경우 토큰화 단계에서부터 문제가 발생할 수 있음 ex) "This algoritm runs in linear time"→ This, algoritm, runs, in, linear, time로 분리되어야 함. This algor itm runsin linear time 처럼 띄어쓰기 단계에서 오타가 있는 경우는 올바른 토큰으로 분리되지 않을 수 있음 toke..

[Python]Python visualization tool (파이썬 시각화 툴 종류)

2023.05.23· TIL

파이썬 시각화 TOOL 종류를 보기 쉽게 정리한 이미지를 봐서 공유하고자 한다. 실습 과정은 시간 날때 추가해봐야징

전체 글

티스토리툴바