전체 글 67

Prophet을 활용한 시계열 데이터 예측 해보기

Prophet을 활용한 시계열 데이터를 예측¶ 활용 데이터 노르웨이의 신차 판매 데이터 (https://www.kaggle.com/datasets/dmi3kno/newcarsalesnorway), 1. 분석 배경 및 목적 설명¶ 1) 배경¶ 2017년 1월 10일 아침, 노르웨이 도로 협회인 Opplysningsrådet for Veitrafikken(OFV)는 회원 조직을 위한 비즈니스 조찬회를 열고, "Car Year 2016. Status and trend"라는 제목으로 연례 프레젠테이션을 발표했습니다. OFV에서는 연간 신규 승용차 판매를 예측합니다. 방법론을 간단히 요약하면 아래와 같습니다. 수년간의 OFV 기술, 요약통계량 기반 계산 최근 4년간의 실질 월간 수치를 고려 전년도 실질매출액을 직..

교육자료 2022.10.06

카카오톡 대화 내용으로 개인별 워드클라우드(wordcloud) 그리기

내 고향 친구들이 있는 단톡방에는 14명 정도가 있고, 매우 활성화 되어있다. 전에도 몇 번 작업해서 친구들한테 공유해준적이 있는데, 카카오톡 대화내용 내보내기 기능을 통해서 받은 txt파일을 워드클라우드로 그려서 공유해주면 친구들이 매우 흥미로워했다. 어차피 데분을 하는 입장에서 귀찮을 뿐 어렵지는 않은 내용이다. 코드를 직접 AtoZ 짠 건 아니고, 여러 군데서 취합해서 내 입맛에 맞게 조금씩 변형했다. 간단한 몇 가지 step으로 워드클라우드를 그려보자. 카카오톡 대화내용 내보내기를 하면 .txt 파일로 저장한다. 이를 정규식을 통해서 읽어보자 1. 패키지 로드 import re import pandas as pd import datetime as dt from soynlp.normalizer im..

자연어, 비전 2022.06.22

계량경제학은 어떨까?(Feat. Causal inference)

오늘은 정말 소오름 끼치는 하루를 보냈다. 평소 구독 수준으로 즐겨보는 블로그가 있다. 알만한 사람들은 모두 다 알고 있는, 이름하야 파비 블로그이다. https://blog.pabii.co.kr/ 데이터 사이언스 랩 – 파비블로그 인공지능, AI, 딥러닝, 머신러닝 이라고 불리는 지식이 수리통계학 기반의 계산통계학 지식이라는 것을 강조하는 블로그입니다. 데이터 사이언스에 대한 정확한 이해를 바탕으로 해외 대학과 연 blog.pabii.co.kr 내가 데이터 업무를 얕게 나마 시작한 이후부터, 나의 데이터 직무에 관한 가치관을 쌓아나가는데 지대한 영향을 미친 블로그이다. 숨길 수 없는 강한 어조 탓에 불쾌감을 굉장히 짙게 드러내는 분들도 많지만, 굉장한 high level이라는 건 글 몇 개만 보더라도 ..

끄적끄적 2022.05.19

서포트 벡터 머신(SVM, Support vector machine)을 이해하기 위한 자료들

지난 대학원 강의 과제가 SVM을 계산 라이브러리를 사용하지 않고 구현하는 것이었다. 사실 이런 구현 과제는 구글과 깃헙에서 5분 내로 차고 넘치게 구할 수 있다. 그런데 그런 copy & paste가 대체 무슨 의미가 있을까 scikit learn에서 SVC() 한번이면 끝나는 알고리즘 안에 이렇게 깊은 내용이 있는지 몰랐다. 반성하면서 2주 정도 공부하며 시간을 보냈던 것 같다. 사실, 아직까지 그 의미를 정확히 수식으로 풀어내진 못한다. 그래도 그냥 SVM의 핵심 아이디어는 어떤 것인지, 그를 지탱하는 수식의 의미는 어떤 것인지 그 키워드들을 말할 수 있는 정도의 수준은 된 것 같다. 그런 느낌만 파악하기 위해 수집한 자료들을 정리하였다. 1. CS229 강의노트 (기본 강의자료) - 강의에 활용되..

기계학습 2022.05.19

Data-centric AI

https://www.samsungsds.com/kr/insights/data_centric_ai.html 인공지능의 한계 3 - AI 응용 상용화 85% 실패, 그리고 Data-Centric AI로의 이동 인공지능의 한계 3 - AI 응용 상용화 85% 실패, 그리고 Data-Centric AI로의 이동 www.samsungsds.com 나의 블로그 이름을 짓는데 지대한 영향을 끼친 오픈 카톡방이 있다. 이름하여 데분데분(데이터분석 QnA&네트워킹) 카톡방이다(ㅋㅋㅋㅋㅋ). 그 카톡방에 매우 흥미로운 블로그 글이 올라와 정독해보았다. 위 블로그 글은 머신러닝의 아버지 Andrew Ng의 세미나 내용을 정리한 것으로 링크는 아래에 있다. https://www.youtube.com/watch?v=06-AZ..

끄적끄적 2022.04.20

conjugate gradients 엄청난 설명 자료

https://joonleesky.github.io/posts/Conjugate_Gradient/ [Math] Conjugate Gradients 이 포스팅에서는 \(Ax = b\)의 해를 찾아내는 과정을, 최적화 문제로 환원하여 해결하는 conjugate gradients method를 살펴봅니다. Justin Solomon 교수님의 CS 205a: Mathematical Methods for Robotics, Vision, and Graphics joonleesky.github.io 완-벽 이번에 사내에서 분석하는 어떤 건에서, probit 모델을 추천받아 활용해보았다. 그런데 newton method 중 hessian matrix를 계산하는 과정에서 문제가 생겨 수렴이 되지 않아 결과를 확인할 수 ..

기계학습 2022.04.16

2. 편향-분산 트레이드 오프 (Bias-Variance trade off)

안녕하십니까 허브솔트입니다. 지난 시간에는 앙상블의 알고리즘들에 대해 알아보았는데요, 오늘은 편향 분산 트레이드 오프에 대해 공부해 볼께요! 편향 분산 트레이드 오프는 비단 앙상블에만 적용되는 것이 아니라 지도학습에 전반에서 매우 중요한 내용입니다. 따라서 다루고 넘어가보도록 할게요. 편향과 분산의 관계를 알기 전에, 이것들이 뭔지 우선 알아야겠죠. 위키피디아에서는 아래와 같이 정의합니다. The bias is error from erroneous assumptions in the learning algorithm. High bias can cause an algorithm to miss the relevant relations between features and target outputs (under..

기계학습 2022.04.15

1. 앙상블(Ensemble) 기법과 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)

안녕하세요, 허브솔트에요. 저희 데이터맛집의 허브솔트 첫 글 주제로 앙상블이 당첨됐네요...! 요새 캐글의 상위권 메달을 휩쓸고 있는 대세 알고리즘이 앙상블 기법을 사용한 알고리즘의 한 종류인 XGBoost라죠? 머신러닝의 성능을 극대화하고 보완하는 앙상블은 그만큼 중요하고 의미가 있습니다. XGBoost도 추후에 다뤄보도록 할게요. 우선 큰 갈래를 잡고 시리즈로 연재를 해보도록 하겠습니다. 그럼 달려봅시다 빠샹 가. 앙상블(Ensemble)이란? - 백지장도 맞들면 낫다. 머신러닝 또한! - 말 그대로 앙상블입니다. 머신러닝을 위한 다양한 학습 알고리즘들을 결합하여 학습시키는 것으로, 예측력의 보완은 물론, 각각의 알고리즘을 single로 사용할 경우 나타나는 단점들을 보완하죠. 위키피디아에서는 앙상블..

기계학습 2022.04.15

데싸 얘기, 면접질문 등

https://gall.dcinside.com/mgallery/board/view/?id=statistics&no=2326&page=1 데싸 얘기, 면접질문 등 - 통계 갤러리 데싸 재직 중인 통피다 울 회사 데싸들은 각자 잘 하는 게 다 달라. 난 그 중에서도 도메인이랑 통계 파트를 맡고 있고. 개발 잘 하시는 분도 있고, 컴공출신 분, DB 설계 잘 하시는 분, 도메인 출 gall.dcinside.com 데싸 재직 중인 통피다 울 회사 데싸들은 각자 잘 하는 게 다 달라. 난 그 중에서도 도메인이랑 통계 파트를 맡고 있고. 개발 잘 하시는 분도 있고, 컴공출신 분, DB 설계 잘 하시는 분, 도메인 출중하신 분 등 서로 도와가며 열심히 일함 분석, 모델링, 알고리즘은 확실히 통계 기반이 있어야 한다고..

끄적끄적 2022.02.18