[T아카데미] 자연어 언어모델 ‘BERT’ 2강 정리(1) - 언어 모델(language model)
·
✨ 공부 기록/NLP
[토크ON세미나] 자연어 언어모델 ‘BERT’ 2강 - 언어 모델 (Language Model) | T아카데미 : '자연어'의 법칙을 컴퓨터로 모사한 것. 주어진 단어들로부터 그 다음에 등장한 단어의 확률을 예측하는 방식으로 학습한다. 다음에 등장할 단어를 잘 예측한다는 건 그 언어의 특성이 잘 반영된 모델이며, 문맥을 잘 계산하는 것으로 볼 수 있다. [Markov 확률 기반의 언어모델] : 기초적인 모델이다. Markov Chain의 형태로 나타낼 수도 있고, table로도 나타낼 수 있는데, 각 단어의 뒤에 어떤 단어가 올지 통계를 내서 확률을 나타낸다.(잘 정리된 블로그 글 - 비전공자가 이해한 '마코프 체인(Markov Chain)') +) Markov와 RNN의 차이점은 무엇일까?(stacko..
[T아카데미] 자연어 언어모델 ‘BERT’ 1강 정리
·
✨ 공부 기록/NLP
[토크ON세미나] 자연어 언어모델 ‘BERT’ 1강 - 자연어 처리 (NLP) | T아카데미 - 규칙/지식 기반 접근법 - 확률/통계 기반 접근법 - 예) TF-IDF를 이용한 키워드 추출 [데이터 전처리] : 개행 문자 제거, 특수 문자 제거, 공백 제거, 중복 표현 제거, 이메일/링크 제거, 제목 제거, 불용어 제거, 조사 제거, 띄어쓰기/문장 분리 보정, 사전 구축 등 -> [토크나이징] : 문장을 특별한 의미가 있는 단위로 자르는 것. - 예) 한국어는 어절이 의미를 가지는 최소단위가 아니다. 따라서 형태소 단위로 자름. -> [특징 추출과 분류] : 자연어에서는 어떻게 데이터를 좌표평면 위에 표현할 수 있을까? -> one hot 인코딩을 이용할 수 O. 다만 단어의 의미를 나타내지는 못하고, ..
김온달
'✨ 공부 기록/NLP' 카테고리의 글 목록