迴歸基礎概念(Regression basic concept)

  • Regression(迴歸 )是研究變量間函數關係的一種方法

  • 響應變量(應變量)YY與解釋變量(自變量、預測變量)XX間的方程式或模型。

  • General form: Y=f(X1,X2,,Xp)+ϵY=f(X_1, X_2, \cdots, X_p)+ \epsilon.

  • Linear regression: Y=β0+β1X1+β2X2++βpXp+ϵY=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon.

    • β0\beta_0: 截距(intercept),β1,β2,,βp\beta_1,\beta_2,\cdots, \beta_p: 迴歸係數

迴歸分析步驟

問題陳述

  • 確定需要分析研究的問題

  • 問法不同,則YYXX代表不同的變量

  • E.g. 檢驗雇主是否歧視某類員工(女生、種族),有以下的建模方法。

    • 平均來看,女性的薪酬低於同等工作能力的男性: YY:薪酬,XX: 資歷,性別。

    • 女生比拿同樣薪酬的男性有更強的工作能力: YY: 資歷,XX:薪酬,性別。

選擇相關變量(特徵集合與篩選)

  • 選擇變量集合X1,,XpX_1,\cdots, X_p,用來解釋或預測響應變量YY

收集資料

  • 收集分析問題使用的資料。

  • 變量取值可分為定量變量或定性變量

    • 定量變量 (Quantitative variable) (量變數,數值變數):這種變數的數字代表的就是數量。

      • 定量變量可再分為離散(discrete)變量、連續(continuous)變量兩類

      • 數值變數做平均數、標準差等統計量,有其應用上的意義,代表資料本身在定量的尺度下分佈的情形

    • 定性變量 (categorical variable) (質變數,類別變數):變數本身沒辦法以數量、數值呈現,僅能代表不同的類別

      • 定性變量可再分為一般類別、等級類別兩類。

      • 一般類別:

        • E.g. 問卷中設定的「性別,可用1代表男性、0代表女性。

        • E.g. 對於三個班級做準實驗時「班別」,第一個班用1代表、第二個班用2、第三個班用3表示。

        • 這些變數本身就只是分類,無高低差異,所以變數做平均、標準差等沒有任何意義。

      • 等級類別:

        • 公司職等有「課長」、「分行長」、「次長」、「部長」等,同樣可以用數字來表示不同職等

        • 像是3代表課長、5代表分行長、8代表次長、10代表部長等等,雖然數字越大代表職位越高,只是數字之間的差距並不是等量也就是說分行長5、部長10,不代表部長就是分行長的兩倍

        • 同樣的年級如果用1~6表示一到六年級,也不代表六年級是一年級的六倍,所以這種變數做平均、標準差也都是沒有意義。

模型設定

  • 模型將響應變量YY,與解釋變量XX結合起來。
Regression type Condition
Univariate 只有一個定量的響應變量YY
Multivariate 有兩個或兩個以上的響應變量Y1,,YpY_1,\cdots,Y_p
Simple 只有一個預測變量XX
Multiple 有兩個或兩個以上的預測變量X1,,XpX_1,\cdots,X_p
Linear 方程中關於所有的參數都是線性的,或經變數變換後為線性
Nonlinear 響應變量YY和某些預測變量間有非線性關係,或是一些參數是以非線性形式出現,並且不能經變換將參數線性化
ANOVA(變異數分析) 預測變量XX都是定性變量
analysis of covariance 預測變量XX有定量變量,也有定性變量
Logistic 響應變量YY為定性變量

選擇擬合(fit)方法

  • 給定模型後,利用資料估計模型的參數,常用的方法如下:

    • Ordinary least square, OLS (最小二乘法)

    • Maximum likelihood estimation, MLE (最大似然估計法)

    • Ridge regression (岭迴歸)

    • Principle component analysis, PCA (主成份分析)

results matching ""

    No results matching ""