June AI

대기업 AI 서비스 기획자가 알기 쉽게 풀어주는 AI 기획·개발·트렌드 지식

분류 전체보기 27

01_OpenAI Realtime API vs Gemini Live API

2024년이 '생성형 AI의 태동기'였다면, 2025년은 '리얼타임(Real-time) 상호작용의 시대'라고 볼 수 있습니다. 텍스트 채팅을 넘어, 사람과 대화하듯 끊김 없이 음성을 주고받고,심지어 화면을 보며 이야기하는 멀티모달 경험이 필수가 되고 있습니다. OpenAI Realtime API와 Gemini Live API을 모두 써보면서 느낀점을 적어보겠습니다.참고로 Open AI Realtime API은 2025년 10월 기준, Gemini Live API는 2025년 12월 기준으로 사용한 경험을 토대로 합니다. 요약비교 항목 OpenAI Realtime APIGemini Live API기반 모델gpt-realtime (2025.10)gemini-2.5-flash (2025.12)음성 품질 (감성..

03_AWS Linux 2에 Oh My Zsh 설치 하기 & Agnoster 적용하기

본 포스트를 통해 AWS Linux 2에 Oh My Zsh를 설치하고 Agnoster 테마를 적용해보겠습니다. 아직 Linux 2가 대중적으로 많이 사용되지 않기 때문인지 AWS Linux 2에 Oh My Zsh를 설치하고 적용하는 방법이 정리되어 있는 곳이 없어 한 번 정리해서 올려봅니다. AWS Linux 2에 Oh My Zsh 설치하는 방법 1. AWS Root 경로에서 현재 쉘(SHELL) 확인해 보기 Babun과 같은 터미널로 AWS Linux 2에 접속하면 루트 경로에 들어가질 것 입니다. 여기서 아래의 현재 쉘(SHELL)을 확인하는 명령어를 입력하여 쉘이 무엇으로 되어 있는지 확인합니다. echo $SHELL AWS에서 Linux 2를 설치하고 따로 쉘을 바꾸지 않으셨으면 아래와 같이 ba..

11-4 분류: ROC, AUC

ROC 곡선(Receiver Operating Characteristic Curve)ROC 곡선(Receiver Operation Characteristic Curve: 수신자 조작 특성 곡선)은 모든 분류 임계값(Classification Thresholds)에서 분류 모델의 성능을 보여주는 그래프입니다. 이 곡선은 두 매개변수를 갖습니다.TPR(True Positive Rate): 참 양성 비율(= 재현율) => TPR = TP / (TP + FN) FPR(False Positive Rate): 허위 양성 => FPR = FP / (FP + TN) ROC 곡선은 다양한 분류 임계값의 TPR과 FPR을 나타냅니다. 분류 임계값을 낮추면 더 많은 데이터가 양성으로 분류되어 거짓 양성(FP)과 참 양성(T..

개발/Google MLCC 2018.09.07

11-3 분류: 정밀도와 재현율(Precision and Recall)

분류 모델을 평가하는 방법으로 정확도(Accuracy) 외에도 정밀도와 재현율 이란 것이 있습니다. 이에 대한 이해를 도울 수 있는 좋은 자료를 아래의 링크로 첨부하겠습니다. 한 번 읽어 보시는 걸 추천드립니다! 링크: 조대협의 블로그 - 분류모델(Classification)의 성능 평가 이 포스트에서는 Machine Learning Crash Course에서 다루는 정밀도와 재현율에 관한 내용을 정리하도록 하겠습니다. 정밀도(Precision)정밀도(Precision): 양성으로 식별된 사례 중 실제로 양성이었던 사례의 비율은 어느 정도인가요? 정밀도는 다음과 같이 정의 됩니다.(거짓 양성이 없을 경우 모델의 정밀도는 1.0) 그럼 이번에는 이전 포스트에서 다룬 예시를 통해 정밀도를 계산해 보도록 하겠..

개발/Google MLCC 2018.09.07

11-2 분류: 정확성(Accuracy)

정확성(Accuracy) 정확성은 분류 모델 평가를 위한 측정항목 중 하나 입니다. 정확성은 일반적으로 다음과 같이 정의합니다. 앞에서 다룬 이진 분류에서는 다음과 같이 양성과 음성을 기주으로 정확성을 표현 할 수도 있습니다. 클래스 불균형 데이터 세트(Class Imbalanced Data Set)악성으로 분류된 종양(Positive Class) 또는 양성으로 분류된 종양(Negative Class)을 예로 들어 모델 100개의 정확성을 계산해 보겠습니다. 위의 정확성 계산에 따르면 91%라는 높은 정확성을 나타내는 것을 확인할 수 있습니다. 하지만 정말 이 모델이 좋은 모델일까요? 모델은 양성 종양 91개 중 90개를 양성으로 정확히 식별합니다. 하지만 악성 종양 9개 가운데 1개만 악성으로 식별합니..

개발/Google MLCC 2018.09.06

11-1 분류: 임계값(Threshold), 참(True)과 거짓(False), 양(Positive)과 음(Negative)

이번 포스트에서는 분류 작업에 로지스틱 회귀를 사용하는 방법과 분류 모델의 효과를 평가하는 방법에 대해서 알아보겠습니다. 로지스틱 회귀 모형에서 특정 이메일에 관해 스팸일 확률이 0.95가 반환 되었다면 이 이메일은 스팸일 가능성이 매우 높은 메일로 예측 할 수 있습니다. 이와 반대로 동일한 로지스틱 회귀 모형에서 예측 점수가 0.03인 이메일이라면 이 이메일은 스팸이 아닐 가능성이 높습니다. 그렇다면 만약 스팸이 확률이 0.6인 이메일은 어떻게 처리해야 할까요? 임계값(Threshold)우리는 이렇게 애매한 값을 이분법으로 확실히 분류를 할 기준이 필요로 합니다. 이 기준을 바로 임계값(Threshold)라고 합니다. 로지스틱 회귀 값을 이진 카테고리에 매핑(Mapping)하려면 분류 임계값(Class..

개발/Google MLCC 2018.09.06

10-1 로지스틱 회귀(Logistic Regression): 확률 계산 & 로그 손실

앞서 우리는 선형 회귀를 통해 주어진 데이터가 연속적인 값일 경우 하나의 선으로 회귀시키는 예측 모델을 만들었습니다. 그런데 만약 주어지는 데이터가 범주형이거나 특정 분류로 나눠지는 데이터일 경우 어떻게 해야 할까요? 예를 들어서 동전이 앞면이 나올지 뒷면이 나올지, 아니면 내일 비가 올지, 맑을지, 구름이 낄지 등과 같이 수량이 아닌 확률과 같은 범주형으로 데이터가 주어지는 경우 처럼 말이죠. 이때 사용하는 방법이 바로 로지스틱 회귀(Logistic Regression)입니다. 로지스틱 회귀(Logistic Regression)로지스틱 회귀법은 주어진 데이터가 1, 2, ..., 100 처럼 연속적인 값이 아닌, 동전이 앞면이 나올 확률, 내일 비가 올 확률과 같이 특정 분류로 나누어 지거나, 확률적으..

개발/Google MLCC 2018.09.06

09-2 단순성을 위한 정규화: 람다

앞의 포스트에서 우리는 L2 정규화를 통해 모델이 학습 데이터에 과적합 되는 것을 막는 방법을 배웠습니다. 그럼 우리는 어느정도 정규화를 해야 좋은 모델을 얻을 수 있을까요? 이번 포스트에서는 정규화 항에 람다(Lambda)라는 정규화율(Regularization Rate)을 곱하여 정규화의 정도를 조정하는 것에 대해서 알아보도록 하겠습니다. 람다(Lambda)람다(Lambda)란 얼마나 정규화를 할지 조정하는 정규화율(Regularization Rate)입니다. 만약 람다 값을 높인다면 정규화 효과가 강화되어 아래와 같이 정규 분포 모양의 그래프가 그려집니다. 람다 값이 높은 모델 가중치 분포 그래프를 보면, 가중치의 평균 값에 가장 많은 빈도가 발생하는 뚜렷한 정규 분포의 모양을 나타내는 것을 알 수..

개발/Google MLCC 2018.09.06

09-1 단순성을 위한 정규화: 구조적 위험 최소화 & L2 정규화

이번 포스트에서는 우리가 학습시키는 모델이 주어진 데이터 세트에만 과적합 되는 것을 방지하기 위해 정규화를 하는 방법에 대해서 다뤄보도록 하겠습니다. 위의 그림은 반복 학습 횟수에 대해 학습 세트(Training Data)와 검증 세트(Validation Data)의 손실을 일반화된 곡선으로 보여줍니다. 이를 보면, 학습 손실은 점차 감소하지만 검증 손실은 어느 순간부터 증가하는 것을 나타냅니다. 즉, 이 일반화 곡선은 모델이 학습 세트에 과적합되어 있다는 것을 의미합니다. 정규화를 통한 과적합 줄이기정규화란, 모델의 복잡도에 패널티를 줌으로써 과적합을 줄이는 것을 말합니다. 정규화 전략에는 크게 2가지가 있습니다.조기중단: 학습 데이터에 대해 손실이 특정 값에 수렴하기 전에 학습을 중단하는 방법 => ..

개발/Google MLCC 2018.09.05

08-3 표현: 정제(Cleaning Data)

ML 엔지니어에게는 유저로 부터 수집된 여러 데이터들이 주어집니다. 이러한 데이터들 중에는 유저의 실수 혹은 서버의 오류와 같은 문제들로 인해 나쁜 데이터가 있을 수 있습니다. ML 엔지니어들은 일반적인 데이터의 상황과 다른 나쁜 데이터를 찾아 정제하는 과정을 수행하여야 합니다. 이번 포스트에서는 나쁜 데이터를 정제하는 방법에 대해서 다뤄보도록 하겠습니다. 특성 값 조정(Scaling feature values)조정(Scaling)이란, 수집된 특성 값을 0~1 또는 -1~+1의 표준 범위로 변화하는 것을 말합니다. 만약 특성이 하나인 데이터 세트에서는 조정(Scaling)하는 과정이 불필요하겠지만, 데이터 세트가 여러 특성으로 구성되어 있다면 특성 조정(Feature Scaling)을 통해 다음과 같은..

개발/Google MLCC 2018.09.03