머신 러닝: 회귀 모델

University of Washington via Coursera

Go to class Write review

Details

Go to class

Provider

Coursera
Pricing

Free Online Course (Audit)
Languages

Korean
Certificate

Paid Certificate Available
Duration & workload

22 hours 18 minutes
Sessions

On-Demand
Subtitles

Arabic, French, Portuguese, Italian, Korean, German, Russian, Spanish, English

Found in

Linear Regression Courses

Overview

Class Central Tips

사례 연구 - 주택 가격 예측 첫 번째 사례 연구 주택 가격 예측에서는 입력 특성(면적, 방 및 화장실 개수 등)에서 연속적인 값(가격)을 예측하는 모델을 만듭니다. 이는 회귀를 적용할 수 있는 많은 장소 중 하나일 뿐입니다. 그 외 다른 응용의 범위는 의약품에 대한 건강 효과, 금융 분야에서의 주가, 고성능 컴퓨터 전력 사용 예측에서부터 유전자 발현에 중요한 조절기를 분석하는 것까지 다양합니다. 본 강의에서는 예측 및 특성 선택 태스크를 위한 정규화된 선형 회귀 모델에 대해 알아봅니다. 매우 큰 특성의 집합을 처리하고 다양한 복잡도 모델 중 선택할 수 있습니다. 또한 이상치와 같은 데이터의 양상이 선택한 모델과 예측값에 주는 영향도 분석합니다. 이와 같은 모델을 피팅하기 위해 큰 데이터 세트에 따라 확장하는 최적화 알고리즘을 구현해 봅니다. 학습 목표: 본 강의를 끝내면 여러분은: -회귀 모델의 입력과 출력을 설명할 수 있습니다. -데이터를 모델링할 때 편향과 분산을 비교 및 대조할 수 있습니다. -최적화 알고리즘을 사용하여 모델 매개변수를 예상할 수 있습니다. -교차 검증을 사용하여 매개변수를 조정할 수 있습니다. -모델의 성능을 분석할 수 있습니다. -희소성의 개념과 라쏘가 희소 해로 이어지는 방법을 설명할 수 있습니다. -모델 중 선택할 방법을 배포할 수 있습니다. -모델을 활용하여 예측을 형성할 수 있습니다. -주택 데이터 세트를 사용하여 가격을 예측하는 회귀 모델을 구축할 수 있습니다. -이와 같은 기술을 Python에서 구현할 수 있습니다.

Syllabus

환영합니다

회귀는 가장 중요하고 널리 사용되는 머신 러닝 및 통계 도구 중 하나입니다. 데이터의 특성과 관측된 연속 값 응답 간의 관계를 학습하여 여러분의 데이터에서 예측할 수 있습니다. 회귀는 주가 예측에서 유전자 조절 네트워크 이해에 이르기까지 방대한 응용이 가능합니다. 본 강의에 대한 소개에서는 앞으로 다룰 주제와 여러분이 이미 알고 있다고 가정하는 배경지식 및 리소스에 대한 개요를 제공합니다.

단순 선형 회귀

본 강의는 가장 기본적인 회귀 모델인 데이터에 선을 피팅하는 것에서부터 시작합니다. 데이터의 단일 일변량 특성의 예측을 형성하기 위한 이 단순 모델을 ‘단순 선형 회귀’라고 부릅니다. 본 모듈에서는 높은 수준의 회귀 작업을 설명한 다음 이와 같은 개념을 단순 선형 회귀 사례를 통하여 전문화합니다. 폐쇄형 해와 경사 하강이라는 반복적인 최적화 알고리즘을 모두 사용하여 단순 회귀 모델을 형식화하고 모델을 데이터에 피팅하는 방법을 배웁니다. 이 적합 함수를 기반으로 예상된 모델 매개변수 및 형태 예측을 해석합니다. 또한 외부 관측치에 대한 적합의 민감도를 분석합니다. 면적을 통해 주택 가격을 예측하는 사례 연구의 맥락에서 이 모든 개념을 검토합니다.

다중 회귀

단순 선형 회귀를 넘어서는 다음 단계는 데이터의 다중 특성이 예측을 형성할 때 사용되는 ‘다중 회귀’를 고려하는 것입니다. 보다 구체적으로 본 모듈에서는 단일 변수(예: '면적')와 관측된 응답(예: '주택 매매가') 사이 보다 복잡한 관계의 모델을 구축하는 방법을 배웁니다. 이때 데이터에 다항을 피팅하거나 응답 값의 계절적 변화를 포착하는 등의 작업이 포함됩니다. 또한 여러 입력 변수(예: '면적', '방 개수', '화장실 개수')를 통합하는 방법도 배웁니다. 그다음 이와 같은 모든 모델이 선형 회귀 프레임워크 내에서 여전히 다중 ‘특성’을 사용하여 변환하는 방법을 설명할 수 있습니다. 이 다중 회귀 프레임워크 내에서 데이터에 모델을 피팅하고, 예상된 계수를 해석하며, 예측을 형성할 수 있습니다. 또한 다중 회귀 모델을 피팅하기 위한 경사 하강 알고리즘도 구현합니다.

성능 평가

이와 같은 모델의 매개변수 추정을 위한 선형 회귀 모델과 알고리즘에 대해 배웠으니 이제 새 데이터 예측에 여기서 고려한 방법을 얼마나 잘 수행하고 있는지 평가할 수 있습니다. 또한 가능한 모델 중 가장 성능이 좋은 모델을 선택할 수 있습니다. 본 모듈은 모델 선택 및 평가의 중요한 주제를 다루고 있습니다. 이와 같은 분석의 이론적 측면과 실제적 측면을 모두 검토합니다. 먼저 예측의 ‘손실’을 측정하는 개념을 살펴보고 이를 통해 학습, 검정 및 일반화 오차를 정의합니다. 이와 같은 오차 측정의 경우 모델 복잡도에 따라 오차가 어떻게 달라지고 예측 성능에 대한 유효성 평가를 구성할 때 오차가 어떻게 사용되는지 분석합니다. 이는 머신 러닝의 기본인 편향-분산 트레이드오프에 대한 중요한 논의로 이어집니다. 마지막으로 먼저 모델 중에서 선택한 다음 선택한 모델의 성능을 평가하는 방법을 고안합니다. 본 모듈에 설명된 개념은 이번 강의에서 다루는 회귀 설정을 훨씬 뛰어넘는 모든 머신 러닝 문제의 핵심입니다.

릿지 회귀

모델 복잡도가 증가함에 따라 모델의 성능이 어떻게 변화하는지 살펴보았으며, 복잡한 모델이 훈련 데이터에 대해 과적합해지는 잠재적 문제를 설명할 수 있습니다. 이 모듈에서는 이 문제를 자동으로 처리하기 위한 매우 간단하지만 아주 효과적인 기술을 살펴보겠습니다. 이 방법을 ‘릿지 회귀’라고 합니다. 복잡한 모델에서 시작하지만 훈련 데이터에 대한 적합도 측정은 물론 과적합 함수로부터 해의 편향을 크게 하는 항까지 통합하는 방식으로 모델을 피팅합니다. 이를 위해 과적합 함수의 증상을 살펴보고 이를 사용하여 수정된 최적화 목적 함수에 쓸 정량적 측정값을 정의합니다. 릿지 회귀 목적 함수에 피팅하기 위해 폐쇄형 및 경사 하강 알고리즘을 모두 도출합니다. 이와 같은 형태는 다중 회귀를 위해 도출한 기존 알고리즘에서 약간 수정된 형태입니다. 과적합을 방지하는 편향의 강도를 선택하기 위해 ‘교차 검증’이라는 일반적인 방법을 살펴봅니다. 교차 검증 및 경사 하강을 모두 구현하여 릿지 회귀를 피팅하고 정규화 상수를 선택합니다.

특성 선택 및 라쏘

기본적인 머신 러닝 작업은 모델에 포함할 특성의 집합을 선택하는 것입니다. 본 모듈에서는 다중 회귀의 맥락에서 이 개념을 살펴보고 특성을 이처럼 선택하는 것이 예측을 형성하는 데 있어 해석 가능성과 효율성에 어떤 중요성을 갖는지 살펴볼 수 있습니다. 시작하기 전 여러 특성의 부분 집합을 포함하여 열거한 모델을 탐색하는 방법을 알아봅니다. 완전 탐색과 탐욕 알고리즘을 모두 분석합니다. 그리고 명시적 열거 대신 릿지 회귀와 유사하게 암시적으로 특성 선택을 수행하는 라소 회귀로 전환합니다. 복잡한 모델은 훈련 데이터에 대한 적합도 측정값 및 릿지에 사용된 것과 다른 과적합 측정값을 기반으로 피팅합니다. 이 라쏘 방법은 수많은 영역에서 그 영향력을 발휘했으며 이 방법의 근간이 되는 개념은 머신 러닝과 통계를 근본적으로 변화시킨 바 있습니다. 또한 라쏘 모델을 피팅하기 위한 좌표 하강 알고리즘을 구현합니다. 좌표 하강은 또 다른 일반적인 최적화 기술로 머신 러닝의 여러 영역에서 유용하게 사용됩니다.

최근접 이웃 및 커널 회귀

지금까지는 다항 및 초평면과 같은 매개변수 함수를 전체 데이터 세트에 피팅하는 방법에 초점을 맞추었습니다. 본 모듈에서는 그 대신 ‘비모수’ 방법의 클래스에 주목합니다. 이와 같은 방법을 사용하면 더 많은 데이터가 관측됨에 따라 모델의 복잡도가 증가하고, 로컬에서 관측치를 수락하는 적합이 생성됩니다. 비모수 방법의 간단하고 직관적인 예시인 최근접 이웃 회귀부터 살펴봅니다. 쿼리 지점에 대한 예측은 학습 세트에서 가장 관련성이 높은 관측치를 기반으로 합니다. 이 접근 방법은 매우 간단하지만 특히 대규모 데이터 세트에서 우수한 예측을 제공할 수 있습니다. 알고리즘을 배포하여 최근접 이웃을 검색하고 검색된 이웃을 기반으로 예측을 형성합니다. 이 개념을 기반으로 커널 회귀를 살펴봅니다. 최근접 관측치의 작은 집합을 기반으로 예측을 형성하는 대신, 커널 회귀는 데이터 세트의 모든 관측치를 사용하나 이와 같은 관측치가 예측값에 미치는 영향은 쿼리 지점과의 유사성에 의해 그 가중치가 달라집니다. 무한한 훈련 데이터라는 한계를 두고 이와 같은 방법의 이론적 성능을 분석하며, 이러한 방법이 잘 작동할 때와 그렇지 않을 때를 시나리오로 비교해 봅니다. 또한 이와 같은 기술을 구현하고 실제 행동을 관측합니다.

마치며

본 과정을 마치며 지금까지 다룬 내용을 정리합니다. 이는 회귀에 특화된 기술은 물론 전문 과정 전반에 걸쳐 나타날 기본적인 머신 러닝 개념을 모두 아우릅니다. 또한 본 강의에서 다루지 않은 몇 가지 중요한 회귀 기술에 대해 간략히 논의합니다. 마지막으로 나머지 전문 과정에서 여러분이 살펴볼 수 있는 사항에 대한 개요를 설명합니다.