[EMNLP 2024 findings] CHIRON: Rich Character Representations in Long-Form Narratives
·
✨ 자연어 처리/논문 리뷰
저자들이 언급한 contribution장편 서사에서 캐릭터를 표현하기 위한  '캐릭터 시트' 구조, CHIRON을 제안주어진 캐릭터에 대한 설명(CHIRON)이 story snippet을 기준으로 참인지 automatic하게 판단하는 validation module(reasoning, entailment model)을 제안CHIRON이 제대로 캐릭터를 표현했는가를 평가하기 위해서 masked-character prediction을 사용 CHIRON을 이용하여 story에서 character density를 측정하는 metric 제안  'Character sheet' 구조, CHIRON을 제안캐릭터 관점으로 주어진 이야기 단락이 있을 때(STORIUM 데이터셋을 활용함),미리 4가지 카테고리별로 준비해둔 ..
[응데분] 데이터 분석 흐름 정리 - 데이터 준비 과정
·
✨ 공부 기록/[24-1] 데이터 분석
데이터 분석 큰 그림 흐름 1. problem definition 2. solution 3. conclusion 데이터 분석 과정 데이터 준비 - 데이터 준비 큰 흐름 : 데이터 적절하게 수집 -> 데이터 프로파일링(데이터가 어떤 형태인지, 한 번 쭉 보면서 이해) -> 이상한 값, 빠진 값 들을 정제 -> 데이터를 분석할 수 있는 형태로 재구조화 -> 모델 만들기 Data Preparation 1. Exploratory Data Analysis(EDA) 1) 도메인 지식 기반 데이터 탐색 : 전체적으로 탐색한다. 이 데이터는 어디서 왔고, 무엇에 대한 데이터인지 2) 속성 탐색 : 컬럼의 의미와, 각 특징들 3) 패턴 탐색 : 데이터의 전체적인 패턴을 파악(예. 시간의 흐름에 따라 패턴이 있나?) 2...
[데이터베이스] 채팅방 위키 데이터베이스 설계
·
✨ 공부 기록/Database
1) 설계 배경 설계하고자 하는 프로젝트는 ‘채팅방 위키’이다. 이 프로젝트의 결과물은 채팅 내용을 위키 형식으로 정리하여 정보들을 쉽게 습득할 수 있도록 한다. 일상대화 위주의 채팅방은 굳이 그럴 필요가 없을 수 있지만, 많은 사람들이 들어가 있는 단체 채팅방이나, 회의, 오픈채팅방의 경우에는 수없이 많은 대화가 다양한 주제로 이루어진다. 그 중에서 나에게 필요한 내용은 있을 수도, 없을 수도 있다. 그러나 만약 필요한 정보가 없었을 경우, 메세지를 확인하느라 낭비한 시간이 피로감이 쌓이고 신경이 분산되어 삶의 능률이 떨어질 수 있다. 그렇기 때문에 꼭 필요한 정보만 확인하고, 그렇지 않은 대화 내용은 추후 볼 수 있도록 정리한 위키 형식의 ‘채팅방 위키’ 프로젝트가 필요하다. 이 프로젝트의 결과물을 ..
[대회] 노트북으로 GPT 맛보기 : 생성 요약 (Abstractive Summary) 대회
·
✨ 포트폴리오/2023
AI CONNECT에서 진행한 '노트북으로 GPT 맛보기' 대회에 참여하였다. 이 대회의 존재를 늦게 알아서, 접수 마감 하루전에 팀을 모아 대회에 참여하였다. 그리고 대회가 시작한 후에 본격적으로 어떤 식으로 결과물을 낼 수 있을지 준비를 시작했다. '노트북으로 GPT 맛보기' 는 (언어 모델을 활용하여) 문서 생성 요약을 하는 대회로, 사실상 어떤 모델을 사용해서 대회에 참여하든지 제한이 없었다. 기본적으로 대회에서 kogpt를 다룰 수 있는 코드를 제공해줘서 좋았다. 또한, 저번에는 시도해보지 못했던 LoRA에 대해서도 접할 수 있다는 점도 좋았다. 물론 팀 내부에서 제공된 KoGPT 코드로 파인튜닝을 진행하고, 데이터를 추가해봤는데도 성능이 좋게 나오지 않았다. 또한, 실제로 KoGPT모델이 아닌..
[프로젝트] chatgpt-story-maker : chatgpt api를 이용한 이야기 제작
·
✨ 포트폴리오/2023
0. Overview 기간 : 23년 3월 3일-진행중(23년 3월 5일) Chatgpt api가 나온 김에, 이전에 chatgpt를 통해 이야기를 만들어보던 작업을 자동화시켜 이를 노션 데이터베이스로 가져오는 프로젝트를 진행해보았습니다. 프로젝트의 이름처럼 "이야기"를 만들 수 있는 프롬프트와 관련 내용들을 정리하여 노션으로 저장되게 하였으며, 이를 통해 작가의 입장에서 자신이 원하는 이야기를 보다 빠르고 편리하게 구체화시켜볼 수 있다는 장점을 가질 수 있습니다. 현재 기능을 더해가며 여전히 개발중이며, 깃헙 레포는 추후 공개 예정입니다. 1. 이야기 만들기 사용자가 chatgpt에게 질문을 던져서 알아서 답변을 얻어내어 저장할 수 있습니다. 현재는 colab에서 바로 실행할 수 있는 코드를 구성해두었..
[장학] 2023 관정이종환장학재단 학부장학생 면접/최종 합격 후기
·
✨ 포트폴리오/2023
약 3달간(22년 11월- 23년 2월) 준비하였던 "관정이종환교육재단" 최종 면접을 준비했던 후기를 남기고자 합니다. 저 역시 서류와 면접을 준비하는 과정에서 다른 분들의 후기가 많은 도움이 되었기에 정리해보려 합니다. "관정이종환교육재단이 생각하는 인재란, 단지 '공부를 잘하는 똑똑한 사람'이 아닌, 새로운 세상에 대한 꿈과 열정을 가지고 그것들을 실현하려는 강한 의지와 타인을 배려하고 도울 줄 아는 선한 심성을 겸비한 사람입니다. 관정이종환교육재단은 이러한 젊은 인재가 우리와 함께 하기를 바라며, 그들과 함께 희망찬 미래를 열어 가기를 원합니다." 목차 1. 접수 준비 2. 서류 작성 3. 면접 준비 4. 면접 5. 느낀 점 * 자유로운 글 작성을 위해 아래의 내용은 평어체로 작성하도록 하겠습니다...
[해커톤] 제4회 AI Bookathon 본선 참여 후기
·
✨ 포트폴리오/2023
약 3주(22.12.27-23.01.18) 동안 진행되었던 제4회 AI Bookathon 대회 참여 후기를 남기고자 합니다. "담대한(Daring)"이라는 주제어와 관련된 2만자의 수필을 AI 모델을 통해 생성하는 과정이었습니다. 정말 많은 것을 배우고 느낄 수 있었던 대회였고, 스스로에게 큰 동기부여가 될 수 있었던 경험이었습니다. 함께 결과물을 만들면서 많은 것을 배울 수 있게 해주신 팀원 분(@cosmoquester)께 감사하다는 말을 전해드리고 싶습니다. 자세한 코드는 이 곳에서 보실 수 있습니다. 길었던 여정만큼 긴 후기, 지금 시작합니다. 목차 1. 참여 신청 2. 예선 3. 본선 준비 4. 본선 5. 느낀 점 1. 참여 신청 AI Bookathon 대회는 AI x BOOK + HACKATHO..
[T아카데미] 자연어 언어모델 ‘BERT’ 2강 정리(1) - 언어 모델(language model)
·
✨ 공부 기록/NLP
[토크ON세미나] 자연어 언어모델 ‘BERT’ 2강 - 언어 모델 (Language Model) | T아카데미 : '자연어'의 법칙을 컴퓨터로 모사한 것. 주어진 단어들로부터 그 다음에 등장한 단어의 확률을 예측하는 방식으로 학습한다. 다음에 등장할 단어를 잘 예측한다는 건 그 언어의 특성이 잘 반영된 모델이며, 문맥을 잘 계산하는 것으로 볼 수 있다. [Markov 확률 기반의 언어모델] : 기초적인 모델이다. Markov Chain의 형태로 나타낼 수도 있고, table로도 나타낼 수 있는데, 각 단어의 뒤에 어떤 단어가 올지 통계를 내서 확률을 나타낸다.(잘 정리된 블로그 글 - 비전공자가 이해한 '마코프 체인(Markov Chain)') +) Markov와 RNN의 차이점은 무엇일까?(stacko..
[T아카데미] 자연어 언어모델 ‘BERT’ 1강 정리
·
✨ 공부 기록/NLP
[토크ON세미나] 자연어 언어모델 ‘BERT’ 1강 - 자연어 처리 (NLP) | T아카데미 - 규칙/지식 기반 접근법 - 확률/통계 기반 접근법 - 예) TF-IDF를 이용한 키워드 추출 [데이터 전처리] : 개행 문자 제거, 특수 문자 제거, 공백 제거, 중복 표현 제거, 이메일/링크 제거, 제목 제거, 불용어 제거, 조사 제거, 띄어쓰기/문장 분리 보정, 사전 구축 등 -> [토크나이징] : 문장을 특별한 의미가 있는 단위로 자르는 것. - 예) 한국어는 어절이 의미를 가지는 최소단위가 아니다. 따라서 형태소 단위로 자름. -> [특징 추출과 분류] : 자연어에서는 어떻게 데이터를 좌표평면 위에 표현할 수 있을까? -> one hot 인코딩을 이용할 수 O. 다만 단어의 의미를 나타내지는 못하고, ..
[Docker] Docker-machine 설치 및 virtualbox에서 실행하기(Windows 10)
·
✨ 공부 기록/Docker&k8s
windows에서 virtualbox를 이용하여 docker-machine을 사용하기 위해서는 다음과 같은 단계를 거쳐야 한다. 0. 도커가 설치되어 있는지 확인 당연히 docker 환경이 구축이 되어 있어야 한다. 1. git bash 활용하여 docker machine 설치하기 기존에 docker 명령어들은 cmd에서도 잘 동작했지만, docker machine을 설치하기 위해서는 git bash를 활용하면 별다른 설정 없이 사용할 수 있다. git bash에 들어가서 아래의 공식 깃헙에 나와 있는 윈도우에서의 도커 머신 설치 커맨드를 입력해준다. v0.16.2의 경우 다음의 명령어를 입력해주면 된다. $ if [[ ! -d "$HOME/bin" ]]; then mkdir -p "$HOME/bin";..
[스터디 4] 배운 내용 정리
·
✨ 공부 기록/Android
List를 사용하는 앱은 무엇이 있을까? 카카오톡 : 친구 목록, 채팅 목록 인스타그램 : 팔로우 목록 배달의 민족 : 식당 목록 디스코드 : 채팅 주소록 : 주소 목록 카카오톡 친구목록을 LinearLayout만으로 구현한다면 어떤 단점이 있을까? 추가/삭제하기가 불편하다.(복사, 붙여넣기의 반복) 만든 갯수만큼만 표현할 수 있다. → 데이터 수가 적거나 (특히) 고정되어 있을때는(예. 설정) 굳이 Listview를 사용하지 않아도 된다. List의 특징은? 비슷한 데이터들을 모아둔다. 정렬이 필요한 경우 추가/삭제가 용이하다. 공통점을 가지고 있는 데이터들을 비슷한 형태로 나타낸다. 나타나는 데이터가 항상 동일하지 않고 변할 수 있음. → ListView : 비슷한 데이터를 여러 개 나타낼 때 반복되..
[스터디 3] 배운 내용 정리
·
✨ 공부 기록/Android
[ ] Activity가 열릴 때(새로 만들어졌을 때) (24분) onCreate() : Activity가 처음 생성되었을 때 호출이 되며, 딱 한 번만 호출된다. 단, 화면이 회전되면 Activity가 다시 생성되는 것으로 인식하여 이 때는 다시 호출될 수 있다. (why? 가로 화면, 세로 화면이 보이는 view가 차이가 있을 수 있어서. - 여기에 대해선 manifest에서 정의할 수 있다.) (예) 어떤 XML 파일을 사용하여 레이아웃을 구성할 지 설정 다양한 View(Button, EditText..)들을 설정 onStart() : Activity가 화면에 제대로 표시되기 직전에 호출됨. - onCreate와는 다르게, 나갔다가 들어오면 또 호출된다. (예) 배경 음악 재생 준비 : 외부 파일을..
김온달
슬기로운 코딩생활