ML 4

1.2.6 성능 지표

성능 지표 : 학습이 완료된 모델의 성능을 평가하고자 검증 및 테스트 데이터로 측정하고 모니터링 하는 수단.참고로... 학교에서 교수님이 설명도 해주시고 adsp 공부할때도 달달 외웠는데... 면접가서 제대로 대답하지 못해서 머리에 깊게 박힌 개념이다. 회귀MSEMSE=1n∑i=1n(yi−y^i)2MSE = \frac{1}{n}\sum_{i=1}^n(y_i - \hat{y}_i)^2MSE=n1​i=1∑n​(yi​−y^​i​)2MAPE실제값 대비 오차의 정도를 퍼센트 값으로 나타내기 때문에 출력값의 단위에 영향을 받지않는다.MAPE=1n∑i=1n∣yi−y^i∣yiX100MAPE = \frac{1}{n}\sum_{i=1}^n \frac{|y_i - \hat{y}_i|}{y_i} X100MAPE=n1​i=1∑..

ML 2022.01.03

1.2.5 과적합과 모델 학습법

과적합을 조심해야 하는 이유과적합 : 갖고 있는 트레인 데이터를 과하게 학습시켜 트레인 데이터에서는 성능이 좋지만, 테스트 데이터에서 성능이 떨어지는 경우과적합이 발생하는 이유 데이터 수가 적어서입력 변수의 개수가 많은 경우복잡한 모델을 사용한 경우 우리가 사용한 모형이 과소적합인지 과대적합인지 판단하기는 어렵다.따라서 우리는 학습, 검증, 평가 세 부분으로 나눠서 테스트한다Train : 모델을 학습시키기 위한 데이터Validation: 모델의 성능을 조정하기 위한 용도로 과적합 판단을 하거나 HyperParameter를 선택하기 위한 데이터Test : 최종적으로 결정된 모델의 성능을 측정하는 데이터. 그냥 나중에 loss 값을 확인할 때 밑에 그림에서처럼 적절한 값 찾아주면 된다. Uploaded by..

ML 2022.01.03

1.2.4 비지도학습

비지도학습은 정답 혹은 레이블이 주어지지 않은 상태에서의 학습 방법. 군집화(clstering)데이터를 분류하기 위한 명확한 기준이 존재하지 않은 상태에서 특징이 유사한 데이터끼리 묶어 여러 개의 군집으로 나누는 방법군집의 개수는 사전의 정의하거나 군집 정도를 나타내는 지표(Dunn Index, Silhouette)등을 이용할 수 있다.군집 내 응집도 최대화 : 동일한 군집에 소속된 개체들은 서로 유사할수록 좋음군집 간 분리도 최대화 : 상이한 군집에 소속된 개체들은 서로 다를수록 좋음대표적인 방법론 : k-Means Clustering, Hierarchical Clustering, Density-Based Spatial Clustering of Application with Noise(DBSCAN) 차..

ML 2022.01.03

1.2 머신러닝(Machine Learning)

1.2.1 머신러닝이란? 머신러닝 : 기계나 컴퓨터가 데이터로부터 학습할 수 있도록 하는 인공지능 기술중 하나ex) 제조업에서 공장 센서를 통해 실시간으로 데이터를 수집하여 제품의 품질을 관리하거나 이상 신호를 탐지하여 설비의 결함을 사전에 대비하는데 머신러닝을 활용한다.인공지능 ⊃\supset⊃ 머신러닝 ⊃\supset⊃ 딥러닝 인공지능 : 머신러닝과 딥러닝을 포함한 컴퓨터과학, 전산학, 통계 개발 등 모든 관련 기술머신러닝 : 정형 데이터를 활용한 인공지능 분야딥러닝 : 비정형 데이터(영상, 텍스트, 음성)을 활용한 인공지능 분야 이렇게 정리하긴 했지만 이게 통용되는 것은 아니다. 그냥 머신러닝은 정형데이터에서 성능이 좋고 딥러닝은 비정형데이터에서 성능이 좋기 때문에 위처럼 통용하고 있다. 1.2.2..

ML 2022.01.02