June AI

대기업 AI 서비스 기획자가 알기 쉽게 풀어주는 AI 기획·개발·트렌드 지식

2018/09/06 4

11-2 분류: 정확성(Accuracy)

정확성(Accuracy) 정확성은 분류 모델 평가를 위한 측정항목 중 하나 입니다. 정확성은 일반적으로 다음과 같이 정의합니다. 앞에서 다룬 이진 분류에서는 다음과 같이 양성과 음성을 기주으로 정확성을 표현 할 수도 있습니다. 클래스 불균형 데이터 세트(Class Imbalanced Data Set)악성으로 분류된 종양(Positive Class) 또는 양성으로 분류된 종양(Negative Class)을 예로 들어 모델 100개의 정확성을 계산해 보겠습니다. 위의 정확성 계산에 따르면 91%라는 높은 정확성을 나타내는 것을 확인할 수 있습니다. 하지만 정말 이 모델이 좋은 모델일까요? 모델은 양성 종양 91개 중 90개를 양성으로 정확히 식별합니다. 하지만 악성 종양 9개 가운데 1개만 악성으로 식별합니..

개발/Google MLCC 2018.09.06

11-1 분류: 임계값(Threshold), 참(True)과 거짓(False), 양(Positive)과 음(Negative)

이번 포스트에서는 분류 작업에 로지스틱 회귀를 사용하는 방법과 분류 모델의 효과를 평가하는 방법에 대해서 알아보겠습니다. 로지스틱 회귀 모형에서 특정 이메일에 관해 스팸일 확률이 0.95가 반환 되었다면 이 이메일은 스팸일 가능성이 매우 높은 메일로 예측 할 수 있습니다. 이와 반대로 동일한 로지스틱 회귀 모형에서 예측 점수가 0.03인 이메일이라면 이 이메일은 스팸이 아닐 가능성이 높습니다. 그렇다면 만약 스팸이 확률이 0.6인 이메일은 어떻게 처리해야 할까요? 임계값(Threshold)우리는 이렇게 애매한 값을 이분법으로 확실히 분류를 할 기준이 필요로 합니다. 이 기준을 바로 임계값(Threshold)라고 합니다. 로지스틱 회귀 값을 이진 카테고리에 매핑(Mapping)하려면 분류 임계값(Class..

개발/Google MLCC 2018.09.06

10-1 로지스틱 회귀(Logistic Regression): 확률 계산 & 로그 손실

앞서 우리는 선형 회귀를 통해 주어진 데이터가 연속적인 값일 경우 하나의 선으로 회귀시키는 예측 모델을 만들었습니다. 그런데 만약 주어지는 데이터가 범주형이거나 특정 분류로 나눠지는 데이터일 경우 어떻게 해야 할까요? 예를 들어서 동전이 앞면이 나올지 뒷면이 나올지, 아니면 내일 비가 올지, 맑을지, 구름이 낄지 등과 같이 수량이 아닌 확률과 같은 범주형으로 데이터가 주어지는 경우 처럼 말이죠. 이때 사용하는 방법이 바로 로지스틱 회귀(Logistic Regression)입니다. 로지스틱 회귀(Logistic Regression)로지스틱 회귀법은 주어진 데이터가 1, 2, ..., 100 처럼 연속적인 값이 아닌, 동전이 앞면이 나올 확률, 내일 비가 올 확률과 같이 특정 분류로 나누어 지거나, 확률적으..

개발/Google MLCC 2018.09.06

09-2 단순성을 위한 정규화: 람다

앞의 포스트에서 우리는 L2 정규화를 통해 모델이 학습 데이터에 과적합 되는 것을 막는 방법을 배웠습니다. 그럼 우리는 어느정도 정규화를 해야 좋은 모델을 얻을 수 있을까요? 이번 포스트에서는 정규화 항에 람다(Lambda)라는 정규화율(Regularization Rate)을 곱하여 정규화의 정도를 조정하는 것에 대해서 알아보도록 하겠습니다. 람다(Lambda)람다(Lambda)란 얼마나 정규화를 할지 조정하는 정규화율(Regularization Rate)입니다. 만약 람다 값을 높인다면 정규화 효과가 강화되어 아래와 같이 정규 분포 모양의 그래프가 그려집니다. 람다 값이 높은 모델 가중치 분포 그래프를 보면, 가중치의 평균 값에 가장 많은 빈도가 발생하는 뚜렷한 정규 분포의 모양을 나타내는 것을 알 수..

개발/Google MLCC 2018.09.06