로지스틱 회귀분석 예제 in r

지금까지, 당신은 물류 회귀 뒤에 과학을 알 것이다. 나는 사람들이 실제로 핵심 개념에 대한 지식없이이 알고리즘의 사용을 알고 있다는 것을 여러 번 보았다. 나는 가능한 한 간단한 방법으로이 부분을 설명하기 위해 최선을 다했습니다. 위의 예제에서는 R에서 로지스틱 회귀를 사용하는 골격만 보여 주며, 실제로 이 단계에 접근하기 전에 피처 엔지니어링에 중요한 시간을 투자해야 합니다. 선형 회귀에서 Y 변수는 항상 연속 변수입니다. Y 변수가 범주형이라고 가정하면 선형 회귀 모델을 사용할 수 없습니다. 1. 다항 물류 회귀: 대상 변수에 K = 4 클래스가 있다고 가정해 보겠습니다. 이 기술은 K-1 독립적인 바이너리 로지스틱 분류기 모델을 피팅하여 다중 클래스 문제를 처리합니다. 이렇게 하려면 하나의 대상 클래스를 참조 클래스로 임의로 선택하고 나머지 각 클래스를 참조 클래스와 비교하는 K-1 회귀 모델에 맞습니다. 이 문제를 방지하려면 X의 모든 값에 대해 0에서 1 사이의 출력을 제공하는 함수를 사용하여 p(X)를 모델링해야 합니다.

많은 함수가 이 설명을 충족합니다. 로지스틱 회귀에서는 Eq. 1에 정의되고 위의 오른쪽 그림에 설명된 로지스틱 함수를 사용합니다. 백그라운드에서 glm은 최대 가능성을 사용하여 모델에 맞춥니다. 로지스틱 회귀 모델에 맞게 최대 가능성을 사용하는 기본 직관은 다음과 같습니다: Eq. 1을 사용하여 각 개인에 대한 예측 된 불이행 확률이 개인의 예측 확률에 대해 가능한 한 가깝게 일치하도록 추정합니다. 관찰된 기본 상태입니다. 즉, Eq.

1에 제공된 p(X)에 대한 모델에 이러한 추정치를 연결하면 기본값인 모든 개인에 대해 1에 가까운 숫자를 생성하고 그렇지 않은 모든 개인에 대해 0에 가까운 숫자를 생성합니다. 이 직관은 우도 함수라는 수학 방정식을 사용하여 공식화 할 수 있습니다 : 이러한 객체는 위의 로지스틱 회귀의 변수와 동일한 이름을 가져야합니다 (예 : 이 예에서는 gre에 대한 평균을 gre라고 지정해야합니다). 이제 예측 된 확률을 계산하는 데 사용할 데이터 프레임이 있으므로 R에게 예측 된 확률을 만들라고 알릴 수 있습니다. 아래 코드의 첫 번째 줄은 매우 컴팩트, 우리는 다양한 구성 요소가 무엇을 논의하기 위해 분해됩니다. newdata1$rankP는 R에게 setP라는 데이터 집합(data frame) newdata1에 새 변수를 만들려는 것을 알려주며, 나머지 명령은 R에게 rankP의 값이 예측() 함수를 사용하여 예측되어야 한다는 것을 알려줍니다. 괄호 안의 옵션은 R에게 예측이 newdata1에서 오는 예측 변수의 값이 있는 mylogit 분석과 예측 유형이 예측 확률(type=”response”)임을 알려줍니다. 코드의 두 번째 줄에는 데이터 프레임 newdata1의 값이 나열됩니다. 특히 예쁘지는 않지만 예측 된 확률의 테이블입니다. 익명. “비디오 7: 물류 회귀 — 소개”.

데이터 마이닝 인케이. https://www.youtube.com/watch?v=gNhogKJ_q7U 범주형 변수 y는 일반적으로 다른 값을 가정할 수 있습니다. 가장 간단한 시나리오 y는 이진값으로 값 1 또는 0을 가정할 수 있습니다.

This entry was posted in Uncategorized. Bookmark the permalink.

Comments are closed.