머신러닝(Machine Learning) 이란?

머신러닝 시스템은 입력된 다양한 정보를 조합하여 새로운 정보를 적절히 예측하는 방법을 학습하는 것을 말합니다.



머신러닝에서의 주요 용어

Labels

라벨(Label)은 예측을 하고자 하는 대상 항목을 의미합니다. (단순 선형 회귀에서 y 변수)

담배의 향후 가격, 사진에 표시되는 사물의 종류 등 무엇이든지 Label이 될 수 있습니다.

Features

특징(Feature)은 입력되는 정보를 의미합니다. (단순 선형 회귀에서 x 변수)

과거의 담배 가격, 이메일 안의 텍스트 단어 등 현재 알고 있어 예측에 사용되는 정보는 모두 Feature가 될 수 있습니다.

Examples

예(Example)는 입력된 데이터들(x)의 특정 객체입니다. x는 벡터라는 것을 나타내기 위해 굵게 표시합니다. Example은 두 개의 카테고리로 구분됩니다.

  • Label이 있는 예: Labeled Examples: {features, label}: (x, y)
    Model을 학습시키기 위해 Label이 있는 Examples를 사용합니다.

  • Label이 없는 예: Unlabeled Examples: {features, label}: (x, ?)
    Label이 있는 예를 통해 Label이 없는 예의 라벨을 예측합니다.

위의 표는 집의 평균 가격을 예측하기 위해 방의 개수와 침실의 개수 등의 정보가 주어진 Data Set 입니다. 주어진 Data Set에서는 medianHouseValue가 우리가 예측하고자 하는 Label입니다. 이미 입력 정보로 Label 주어져있는 medianHouseValue 행의 Features를 통해 주어지지 않은 medianHouseValue를 예측합니다.

Model

모델(Model)은 Feature과 Label의 관계를 정의합니다. 예를 들어 위의 Data Set에서 방의 개수(totalRooms)와 집의 평균 가격(medianHouseValue)는 긴밀한 연관이 있다고 생각할 수 있습니다.

Model's Life에서 Training(학습)과 추론(Inference)라는 두 단계를 알아보도록 하겠습니다.

  • Training(학습): 모델을 만들거나 배우는 것을 의미합니다. 즉, Label이 있는 예를 모델에게 보여 주고, 모델이 Feature과 Label의 관계를 점차적으로 학습하도록 합니다.
  • Inference(추론): 학습된 모델을 Label이 없는 예에 적용하는 것을 의미합니다. 즉, 학습된 모델을 통해 적절한 예측(y')를 해냅니다. 예를 들어, 추론하는 동안 라벨이 없는 새로운 예로 medianHouseValue를 예측 할 수 있습니다.

Regression(회귀) vs. Classification(분류)

  • Regression Model(회귀 모델): 연속적인 값을 예측하는데 사용됩니다. 예를 들어 다음과 같은 질문에 대한 답을 얻는데 회귀 모델이 사용될 수 있습니다.
    (=> 수치로 표현할 수 있는 것을 예측)
    - 서울의 아파트 가격이 얼마인가요?
    - 유저가 유투브 광고를 클릭할 확률이 얼마인가요?
  • Classification Model(분류 모델): 불연속적인 값을 예측하는데 사용됩니다. 예를 들어 다음과 같은 질문에 대한 답을 분류 모델은 예측할 수 있습니다.
    (=> 수치로 표현할 수 없는 것을 예측)
    - 주어진 이메일이 스팸 메일입니까?
    - 이 사진이 강아지 사진이 맞습니까?


구글이나 네이버에 들어갈 때 웹 페이지에서 하이퍼링크를 클릭해서 들어가기도 하지만, 주소창에 구글 URL(https://www.google.co.kr)을 직접 입력하여 들어가기도 합니다다. 이렇게 인터넷 상의 모든 사이트에는 URL이란 것이 사용되고 있다. 이번 포스트에서는 항상 사용해서 익숙하지만 잘 신경쓰지 않았던 URL에 대해서 다뤄보도록 하겠다.


1. URL이란?

URL이란, Uniform Resource Locator의 약자로 직역하면 자원 위치 지정자 표준이 된다. 주소 문자열이라고도 하며 네트워크 상에서 자원이 어디 있는지를 알려주기 위한 규약을 URL이라고 한다.


URL(Uniform Resource Locator): 네트워크 상에서 자원이 어디 있는지를 알려주기 위한 규약




2. URL의 구성 요소

URL은 크게 Protocol, Host, Query, Path 라는 4개의 요소로 구성되어 있다. 구글에 '코딩하는 토끼'라는 문장을 검색한 URL을 한 번 자세히 들여다 보자.


 구분

설명 

 Protocol

 어떤 통신 규약을 따라 통신을 하는지를 나타냄

Host 

 정보를 가져오는 사이트 이름(혹은 컴퓨터의 위치)

Query

 어떤 작업(검색, 수정, 업로드 등)을 수행할 것인지에 대한 정보

 Path

 접근하려고 하는 파일의 경로




+ Recent posts