迴歸基礎概念(Regression basic concept)
Regression(迴歸 )是研究變量間函數關係的一種方法
響應變量(應變量)與解釋變量(自變量、預測變量)間的方程式或模型。
General form: .
Linear regression: .
- : 截距(intercept),: 迴歸係數
迴歸分析步驟
問題陳述
確定需要分析研究的問題
問法不同,則與代表不同的變量
E.g. 檢驗雇主是否歧視某類員工(女生、種族),有以下的建模方法。
平均來看,女性的薪酬低於同等工作能力的男性: :薪酬,: 資歷,性別。
女生比拿同樣薪酬的男性有更強的工作能力: : 資歷,:薪酬,性別。
選擇相關變量(特徵集合與篩選)
- 選擇變量集合,用來解釋或預測響應變量。
收集資料
收集分析問題使用的資料。
變量取值可分為定量變量或定性變量
定量變量 (Quantitative variable) (量變數,數值變數):這種變數的數字代表的就是數量。
定量變量可再分為離散(discrete)變量、連續(continuous)變量兩類
數值變數做平均數、標準差等統計量,有其應用上的意義,代表資料本身在定量的尺度下分佈的情形
定性變量 (categorical variable) (質變數,類別變數):變數本身沒辦法以數量、數值呈現,僅能代表不同的類別
定性變量可再分為一般類別、等級類別兩類。
一般類別:
E.g. 問卷中設定的「性別,可用1代表男性、0代表女性。
E.g. 對於三個班級做準實驗時「班別」,第一個班用1代表、第二個班用2、第三個班用3表示。
這些變數本身就只是分類,無高低差異,所以變數做平均、標準差等沒有任何意義。
等級類別:
公司職等有「課長」、「分行長」、「次長」、「部長」等,同樣可以用數字來表示不同職等
像是3代表課長、5代表分行長、8代表次長、10代表部長等等,雖然數字越大代表職位越高,只是數字之間的差距並不是等量也就是說分行長5、部長10,不代表部長就是分行長的兩倍
同樣的年級如果用1~6表示一到六年級,也不代表六年級是一年級的六倍,所以這種變數做平均、標準差也都是沒有意義。
模型設定
- 模型將響應變量,與解釋變量結合起來。
Regression type | Condition |
---|---|
Univariate | 只有一個定量的響應變量 |
Multivariate | 有兩個或兩個以上的響應變量 |
Simple | 只有一個預測變量 |
Multiple | 有兩個或兩個以上的預測變量 |
Linear | 方程中關於所有的參數都是線性的,或經變數變換後為線性 |
Nonlinear | 響應變量和某些預測變量間有非線性關係,或是一些參數是以非線性形式出現,並且不能經變換將參數線性化 |
ANOVA(變異數分析) | 預測變量都是定性變量 |
analysis of covariance | 預測變量有定量變量,也有定性變量 |
Logistic | 響應變量為定性變量 |
選擇擬合(fit)方法
給定模型後,利用資料估計模型的參數,常用的方法如下:
Ordinary least square, OLS (最小二乘法)
Maximum likelihood estimation, MLE (最大似然估計法)
Ridge regression (岭迴歸)
Principle component analysis, PCA (主成份分析)