• 2021년 1학기 데이터마이닝 스터디 커리큘럼 및 세부계획입니다

🔔 스터디 소개

  • 머신러닝, 딥러닝, AI, 빅데이터 등 현재 우리는 이 단어들이 너무나도 익숙하게 들리는 시대에 살고 있습니다.
  • 2020년 큰 화제가 되었던 드라마 ‘스타트업’에서마저 머신러닝 용어들이 자연스럽게 녹아들어 있는 것을 볼 수 있을 것입니다. (Image Detection / 학습 / 자율주행)
  • 이처럼, 빅데이터 시대에 데이터를 활용하는 능력을 보유하고 있다는 건 손에 강력한 무기를 쥐고 있다고 해도 과언이 아닐 정도로 그 중요성은 이미 너무나도 커진 상황입니다. 그래서인지 우리는 이 정보의 홍수에서 어쩌면 무엇이 중요한지 모른 채 단순히 시대에 뒤 떨어지지 않기 위해 발을 들이고 있는 것은 아닌지 스스로 생각해 보아야할 것입니다. 머신러닝 혹은 딥러닝에 있어 필수적인 역량은 단연 수학적 사고입니다. 수식을 정확히 이해할 수 있어야 모델을 이해할 수 있고 나아가 올바른 적용까지 가능하게 됩니다.
  • 한 유명 블로그의 글을 인용하자면, 스타트업 대표들의 공통된 분위기는 이미 컴퓨터공학과를 코딩하는 경영학과라고 생각한다고 합니다. 다소 극단적인 표현일 수 있으나, 통계적 이해와 수학적 바탕의 중요성을 쉽게 느낄 수 있는 말인 것 같습니다.
  • 다시 말해, 통계적 이해 없이 ‘머신러닝’을 배울 수 있다는 것은 극한의 효율을 좋아하는 한국인들을 위해 마련된 감언이설에 불과하다고 생각합니다.
  • 따라서 이 스터디는 통계적 이해를 바탕으로 두는 것을 가장 우선으로, 각 모델들의 원리부터 실제 데이터에 적용까지 나아가는 것을 목표로 합니다.

🔔 모집 대상

  • Python 혹은 R 경험이 있는 분
  • 기초적인 선형대수와 통계지식이 있는 분
  • 머신러닝 관련 프로젝트에 열정적으로 참여할 수 있는 분

🔔 스터디 방식

  • 이론 스터디 + 코드 스터디

  • 이론 스터디 : 각 주차의 내용에 대한 이론을 메인 발제자가 설명 및 그에 대한 Q&A 방식으로 진행 발제자는 random 결정 (추후) 발표 전, 발제자는 Notion에 내용을 업로드

  • 코드 스터디 : 파이썬 머신러닝 완벽가이드를 기본으로 이론 스터디에서 배웠던 내용을 적용

🔔 교재

  • 파이썬 머신러닝 완벽가이드 (python 관련 교재)

🔔 커리큘럼

🔔 세부 커리큘럼

[A] Statistical Modeling

👉 1. Linear Regression

Part 1. (3/2)

  • Simple linear regression
  • Multiple linear regression

Part 2. (3/9)

  • Regression diagnostics
  • Variable transformation
  • Qualitative variable

Part 3. (3/16)

  • WLS
  • Correlated errors
  • Multicollinearity

👉 2. Logistic Regression (3/16)

  • concept of logistic
  • multinomial logistic regression
  • LDA, QDA

👉 3. Regulariztion Method (3/23)

  • Ridge
  • Lasso
  • Elastic Net

👉 4. Variable Selection (3/23)

  • Best subset selection
  • Forward stepwise selection
  • Backward stepwise selection

👉 5. Sampling Method (3/30)

  • LOOCV
  • K fold CV
  • Bootstrap
  • Smote

👉 6. Dimension Reduction (4/20)

  • PCA

[B] Algorithmic Modeling

👉 1. Tree based Model(4/27)

  • Decision Tree
  • Random Forest (Bagging)

👉 2. Boosting Method(4/27)

  • GBM, LGBM
  • XGboost

👉 3. Stacking & 4. SVM (5/4)

  • kernel method

[C] Unsupervised Learning

👉 1. Cluster Analysis(5/11)


[D] Project (5/18~)

  • 스터디 과정 중 경진대회 참여예정

많은 지원 바랍니다!