[응데분] 데이터 분석 흐름 정리 - 데이터 준비 과정
·
✨ 공부 기록/[24-1] 데이터 분석
데이터 분석 큰 그림 흐름 1. problem definition 2. solution 3. conclusion 데이터 분석 과정 데이터 준비 - 데이터 준비 큰 흐름 : 데이터 적절하게 수집 -> 데이터 프로파일링(데이터가 어떤 형태인지, 한 번 쭉 보면서 이해) -> 이상한 값, 빠진 값 들을 정제 -> 데이터를 분석할 수 있는 형태로 재구조화 -> 모델 만들기 Data Preparation 1. Exploratory Data Analysis(EDA) 1) 도메인 지식 기반 데이터 탐색 : 전체적으로 탐색한다. 이 데이터는 어디서 왔고, 무엇에 대한 데이터인지 2) 속성 탐색 : 컬럼의 의미와, 각 특징들 3) 패턴 탐색 : 데이터의 전체적인 패턴을 파악(예. 시간의 흐름에 따라 패턴이 있나?) 2...
[데이터베이스] 채팅방 위키 데이터베이스 설계
·
✨ 공부 기록/Database
1) 설계 배경 설계하고자 하는 프로젝트는 ‘채팅방 위키’이다. 이 프로젝트의 결과물은 채팅 내용을 위키 형식으로 정리하여 정보들을 쉽게 습득할 수 있도록 한다. 일상대화 위주의 채팅방은 굳이 그럴 필요가 없을 수 있지만, 많은 사람들이 들어가 있는 단체 채팅방이나, 회의, 오픈채팅방의 경우에는 수없이 많은 대화가 다양한 주제로 이루어진다. 그 중에서 나에게 필요한 내용은 있을 수도, 없을 수도 있다. 그러나 만약 필요한 정보가 없었을 경우, 메세지를 확인하느라 낭비한 시간이 피로감이 쌓이고 신경이 분산되어 삶의 능률이 떨어질 수 있다. 그렇기 때문에 꼭 필요한 정보만 확인하고, 그렇지 않은 대화 내용은 추후 볼 수 있도록 정리한 위키 형식의 ‘채팅방 위키’ 프로젝트가 필요하다. 이 프로젝트의 결과물을 ..
[T아카데미] 자연어 언어모델 ‘BERT’ 2강 정리(1) - 언어 모델(language model)
·
✨ 공부 기록/NLP
[토크ON세미나] 자연어 언어모델 ‘BERT’ 2강 - 언어 모델 (Language Model) | T아카데미 : '자연어'의 법칙을 컴퓨터로 모사한 것. 주어진 단어들로부터 그 다음에 등장한 단어의 확률을 예측하는 방식으로 학습한다. 다음에 등장할 단어를 잘 예측한다는 건 그 언어의 특성이 잘 반영된 모델이며, 문맥을 잘 계산하는 것으로 볼 수 있다. [Markov 확률 기반의 언어모델] : 기초적인 모델이다. Markov Chain의 형태로 나타낼 수도 있고, table로도 나타낼 수 있는데, 각 단어의 뒤에 어떤 단어가 올지 통계를 내서 확률을 나타낸다.(잘 정리된 블로그 글 - 비전공자가 이해한 '마코프 체인(Markov Chain)') +) Markov와 RNN의 차이점은 무엇일까?(stacko..
[T아카데미] 자연어 언어모델 ‘BERT’ 1강 정리
·
✨ 공부 기록/NLP
[토크ON세미나] 자연어 언어모델 ‘BERT’ 1강 - 자연어 처리 (NLP) | T아카데미 - 규칙/지식 기반 접근법 - 확률/통계 기반 접근법 - 예) TF-IDF를 이용한 키워드 추출 [데이터 전처리] : 개행 문자 제거, 특수 문자 제거, 공백 제거, 중복 표현 제거, 이메일/링크 제거, 제목 제거, 불용어 제거, 조사 제거, 띄어쓰기/문장 분리 보정, 사전 구축 등 -> [토크나이징] : 문장을 특별한 의미가 있는 단위로 자르는 것. - 예) 한국어는 어절이 의미를 가지는 최소단위가 아니다. 따라서 형태소 단위로 자름. -> [특징 추출과 분류] : 자연어에서는 어떻게 데이터를 좌표평면 위에 표현할 수 있을까? -> one hot 인코딩을 이용할 수 O. 다만 단어의 의미를 나타내지는 못하고, ..
[Docker] Docker-machine 설치 및 virtualbox에서 실행하기(Windows 10)
·
✨ 공부 기록/Docker&k8s
windows에서 virtualbox를 이용하여 docker-machine을 사용하기 위해서는 다음과 같은 단계를 거쳐야 한다. 0. 도커가 설치되어 있는지 확인 당연히 docker 환경이 구축이 되어 있어야 한다. 1. git bash 활용하여 docker machine 설치하기 기존에 docker 명령어들은 cmd에서도 잘 동작했지만, docker machine을 설치하기 위해서는 git bash를 활용하면 별다른 설정 없이 사용할 수 있다. git bash에 들어가서 아래의 공식 깃헙에 나와 있는 윈도우에서의 도커 머신 설치 커맨드를 입력해준다. v0.16.2의 경우 다음의 명령어를 입력해주면 된다. $ if [[ ! -d "$HOME/bin" ]]; then mkdir -p "$HOME/bin";..
[스터디 4] 배운 내용 정리
·
✨ 공부 기록/Android
List를 사용하는 앱은 무엇이 있을까? 카카오톡 : 친구 목록, 채팅 목록 인스타그램 : 팔로우 목록 배달의 민족 : 식당 목록 디스코드 : 채팅 주소록 : 주소 목록 카카오톡 친구목록을 LinearLayout만으로 구현한다면 어떤 단점이 있을까? 추가/삭제하기가 불편하다.(복사, 붙여넣기의 반복) 만든 갯수만큼만 표현할 수 있다. → 데이터 수가 적거나 (특히) 고정되어 있을때는(예. 설정) 굳이 Listview를 사용하지 않아도 된다. List의 특징은? 비슷한 데이터들을 모아둔다. 정렬이 필요한 경우 추가/삭제가 용이하다. 공통점을 가지고 있는 데이터들을 비슷한 형태로 나타낸다. 나타나는 데이터가 항상 동일하지 않고 변할 수 있음. → ListView : 비슷한 데이터를 여러 개 나타낼 때 반복되..
[스터디 3] 배운 내용 정리
·
✨ 공부 기록/Android
[ ] Activity가 열릴 때(새로 만들어졌을 때) (24분) onCreate() : Activity가 처음 생성되었을 때 호출이 되며, 딱 한 번만 호출된다. 단, 화면이 회전되면 Activity가 다시 생성되는 것으로 인식하여 이 때는 다시 호출될 수 있다. (why? 가로 화면, 세로 화면이 보이는 view가 차이가 있을 수 있어서. - 여기에 대해선 manifest에서 정의할 수 있다.) (예) 어떤 XML 파일을 사용하여 레이아웃을 구성할 지 설정 다양한 View(Button, EditText..)들을 설정 onStart() : Activity가 화면에 제대로 표시되기 직전에 호출됨. - onCreate와는 다르게, 나갔다가 들어오면 또 호출된다. (예) 배경 음악 재생 준비 : 외부 파일을..
[Github] Pull Request 순서 요약
·
✨ 공부 기록
[요약 정리] 1. 다른 사람의 레포지토리를 fork해온다. 2. fork해온 레포지토리를 git clone하여 로컬 리포지토리로 가져온다. 3. 내용을 수정한 후, git add -> git commit -> git push origin으로 나의 리모트 레포지토리에 반영한다. 4. 새로운 pull request를 만든다. 5. 원래의 레포지토리 관리자가 승인하면 merge된다.
[Android] 새로운 Activity 만들기
·
✨ 공부 기록/Android
Activity -> 실제 동작 구현 Layout -> 동작을 실현할 수 있는 화면 구성 Activity와 Layout을 결합하는 대표적인 방법 -> viewbinding 1. java -> 패키지명 폴더를 오른쪽 클릭해서 새 Kotlin Class 파일을 만든다. 2. Class 이름은 ~~~Activity (ex. NewActivity, UserActivity..) 형태로 작성하고 생성한다. 3. res -> layout 폴더를 오른쪽 클릭해서 새 Layout Resource File을 만든다 4. 파일 이름은 Activity와 통일하여 activity_~~~로 지정한다. (ex. activity_new, activity_user..) 5. 1번에서 만든 Class 파일에 AppCompatActivi..
김온달
'✨ 공부 기록' 카테고리의 글 목록