✅ 머신러닝 ?
컴퓨터가 인간의 개입 없이(또는 최소한으로) 데이터를 학습하여 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술
ex) 스팸 메일 필터링, 이미지 분류, 음성 인식 등
🔎 머신러닝의 3대 요소
- 데이터 (Data)
- : 데이터가 참고하는 정보의 모음
- 알고리즘 (Algorithm)
- : 문제를 해결하기 위해 순서대로 처리하는 방법이나 규칙
- =모델
- 컴퓨팅 파워 (Computing Power)
- : 컴퓨터가 얼마나 빠르고 많이 일(연산)을 할 수 있는지를 나타내는 능력치
- 딥러닝에서 중요
🔎 머신러닝, AI, 딥러닝
- 인공지능(AI)
- 사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념
- 머신러닝
- AI를 실현하기 위한 방법 중 하나로, 데이터로부터 특징이나 규칙을 찾아내서 학습 하는 것
- ex) 스팸 메일에는 특정 단어나 형태가 자주 등장하는 공통점(패턴)이 있을 수 있는데 이를 자동으로 스팸으로 분류
- 딥러닝(Deep Learning)
- 머신러닝의 하위 분야로, 사람의 뇌신경을 본 떠 만든 인공신경망으로 이루어져 있음
- 인공신경망을 여러 겹 쌓아서 복잡한 정보를 학습할 수 있음
- ex) 오늘날 많이 유명한 모델들이 여기에 속함 : ChatGPT, 알파고, 알파스타, DALL-E

🔎 대량의 데이터 처리와 분석
- 현대 사회는 매순간 엄청난 양의 데이터를 생성
- 대규모 데이터를 빠르고 정확하게 분석하여, 복잡한 상관관계를 발견하고 예측
- 기존 방식으로는 처리하기 어려웠던 빅데이터 활용 가능
- ex) SNS에 쏟아지는 게시글, 대형 쇼핑몰의 상품 거래 기록 등
- ❓ 빅데이터 → 일반적인 방법으로는 저장·분석하기 힘들 만큼 방대한 양의 데이터
🔎 머신러닝 vs 기존 통계 분석
- 통계 분석
- 가설 검증, 추론 (ex. "이 변수와 저 변수 사이에 유의한 관계가 있는가?")
- 주로 "왜?"라는 질문에 집중
- 머신러닝
- 예측 (얼마나 정확하게 미래나 미지의 데이터를 예측할 수 있는가)
- "얼마나 잘?"에 집중 (정확도, 재현율 등)
✅ 머신러닝 종류
🔎 지도학습 (Supervised Learning)
우리가 맞다고 알고 있는 결과값을 정답값(레이블)이 있는 데이터를 학습하는 방식
ex) 고양이 사진에는 '고양이'라는 정답(레이블)을 붙여서, 컴퓨터가 어떤 이미지가 고양이인지 학습 가능
- 분류 (Classification)
- : 어느 그룹에 속하는지를 결정
- ex) 이메일이 스팸인지 아닌지, 은행 대출 상환 가능 여부
- 회귀 (Regression)
- : 숫자로 된 결과를 예측
- ex) 주택 가격 예측, 주가 예측
🔎 비지도학습 (Unsupervised Learning)
레이블(정답값) 없이 데이터 패턴을 스스로 찾음
- 군집화 (Clustering)
- : 성향이 비슷한 사람이나 사물을 자동으로 묶어내는 기법
- ex) 고객 군집 분석, 문서 토픽 분석
- 차원 축소 (Dimensionality Reduction)
- : 데이터의 특징(변수)이 너무 많아서 복잡한 데이터를**, 핵심 정보만 남기고 압축**하는 기법
- ex) 수백 가지 지표가 있는 데이터를 2~3개의 핵심 지표로 요약
- ↔ 변수선택 : 변수를 일부만 택하는 것
🔎 강화학습(Reinforcement Learning)
에이전트가 환경과 상호작용하며 보상(Reward)을 최대화하도록 학습
❓ 에이전트 : 학습을 수행하는 주인공, 게임으로 치면 플레이어, 로봇으로 치면 로봇 자체가 에이전트
❓ 환경 : 에이전트가 움직이고 상호작용하는 무대
❓ 보상 : 에이전트가 잘했을 때 얻는 점수(칭찬)나, 잘못했을 때 받는 벌점 같은 개념
- ex) 알파고(바둑), 로보틱스, 게임 AI
- 시뮬레이션 환경에서 시도-오류를 반복하며 **가장 높은 보상을 보장해주는 행동 규칙(전략)**을 학습
- 참고로 알고있기
✅ 머신러닝 모델링 프로세스
❗ 머신러닝 프로젝트는 단순히 모델만 잘 만든다고 끝나지 않음
데이터 수집부터 배포까지 전체 흐름을 이해하는 것이 매우 중요
🔎 1. 데이터 수집
- 웹 크롤링, 센서 측정, 설문조사, DB 추출 등 다양한 방법
- 양질의 데이터 확보가 프로젝트의 성패를 좌우
- ex) 제조업에서는 공정 라인에 설치된 IoT 센서에서 데이터 지속 수집
🔎 2. 전처리 (Preprocessing)
1️⃣ 결측치 처리
- : 결측치란 데이터 표에서 일부 셀이 비어 있는 상태
- 빈 칸을 평균이나 가장 빈도가 높은 값으로 대신 채우거나, 필요하면 빼고(삭제) 분석
2️⃣ 이상치 처리
- : 대부분의 데이터 범위에서 심하게 벗어난 값을 해결
- ex) 사람 몸무게 데이터가 대개 50~100kg인데, 500kg으로 기록된 경우는 오타 등으로 생긴 이상치일 가능성이 높음
3️⃣ 스케일링
- : 각각 다른 단위를 쓰는 데이터(ex : 키는 cm, 몸무게는 kg)를 비슷한 수준으로 맞춰주는 작업
- ex) 키는 150~180의 범위를 가지고 있고 몸무게는 50~100의 범위를 가지고 있어서 값의 크기가 다른데, 몸무게와 키 모두 0~1 범위로 바꾸면, 머신러닝 알고리즘이 두 값을 더 공평하게 다룰 수 있음
4️⃣ 범주형 변환
- : 글자로 된 정보를 숫자로 바꿔주는 과정
- ex) 원-핫 인코딩, 레이블 인코딩 등
❓ 원-핫 인코딩 이란? → 해당 범주에 속하면 1, 아니면 0을 넣는 방식
- ‘빨강·초록·파랑’이라는 세 범주가 있으면
- 빨강 = (1,0,0), 초록 = (0,1,0), 파랑 = (0,0,1)
❓ 레이블 인코딩 예시 → 순서대로 숫자를 부여
- M=0, L=1, XL=2 …
- 다만, 숫자에 순위 의미가 생겨버릴 수 있어서 주의가 필요
🔎 3. 모델링 (Modeling)
- 지도학습의 경우 분류/회귀 알고리즘 선택 (ex: 로지스틱 회귀, 랜덤 포레스트, XGBoost 등)
- 비지도학습의 경우 클러스터링/차원 축소 알고리즘 선택 (ex: K-Means, PCA 등)
🔎 4. 성능 평가 (Evaluation)
- 분류
- Accuracy, Precision, Recall, F1-score, ROC-AUC 등
- 회귀
- MAE, RMSE, R² 등
- 비지도(군집)
- 실루엣 계수 등
💥 정리
- 머신러닝 : 데이터에서 패턴 학습 → 예측/분류 수행
- 머신러닝, 딥러닝, AI : AI라는 큰 개념 안에 머신러닝, 그 안에 딥러닝
- 머신러닝 vs 통계 : 예측 성능 vs 가설 검정
- 머신러닝 학습 종류 : 지도학습, 비지도학습, 강화학습
- 모델링 프로세스 : 데이터 수집 → 전처리 → 모델링 → 평가 → 최적화 → 배포
'Sparta > Theory' 카테고리의 다른 글
| [250930] 머신러닝 03 - 회귀 (0) | 2025.09.30 |
|---|---|
| [250929] 머신러닝 02 (0) | 2025.09.29 |
| [250925] 스파르타코딩 본캠프 38일차 (0) | 2025.09.25 |
| [250922] 스파르타코딩 본캠프 35일차 (0) | 2025.09.22 |
| [250917] 통계 06 - 주의점 (0) | 2025.09.17 |