R 統計軟體 -- 敘述統計

機率統計

教學錄影

數學符號

數學基礎

排列組合

機率統計簡介

機率

機率公理

隨機變數

連續測度

單一分布

條件機率

聯合分布

貝氏定理

動差生成函數

特徵函數

機率法則匯總

離散分布

二項分布

多項分布

負二項分布

幾何分布

超幾何分布

布瓦松分布

連續分布

均勻分布

常態分布

Gamma 分布

指數分布

卡方分布

柯西分布

Weibull 分布

T 分布

F 分布

Beta 分布

多維分布

統計

抽樣

敘述統計

推論統計

中央極限定理

估計方法

單組樣本估計

兩組樣本估計

檢定方法

單組樣本檢定

兩組樣本檢定

平均値的推論

變異數的推論

無母數推論

迴歸分析

變異數分析

實驗設計

因子實驗

品質管制

時間序列

數據分類

統計定理匯總

統計情況分類

計算統計

蒙地卡羅法

最大似然法則

假說與學習

EM 算法

簡單貝氏分類

貝氏網路

隨機過程

馬可夫鏈

蒙地卡羅馬可夫

資源

範例

投影片

教學錄影

練習題

考題解答

訊息

相關網站

參考文獻

最新修改

簡體版

English

隨機抽樣

母體 => (獨立性) X1, X2, …. , Xn 等 n 個隨機變數相互獨立 => 取出 x1, x2, …., xn 等 n 個觀察值。

敘述統計

敘述統計乃是隨機抽樣的樣本集合,進行某些計算與繪圖,以便忠實的呈現出樣本的某些特性。這些計算出的數值,以及呈現出來的圖形,可以反映出樣本的某些統計特性,讓統計者能透過數值或圖形,大致了解樣本的統計特徵。

統計數值

  • 樣本平均數:(mean) $\bar{X} = \frac{\sum_{i=1}^n X_i}{n}$
  • 樣本中位數:(median) 樣本排序後最中間位置的數值
  • 樣本變異數:(Sample variance) $S^2 = \sum_{i=1}^n \frac{(X_i - \bar{X})^2}{n-1} = \frac{n \sum_{i=1}^n X_i^2 - (\sum_{i=1}^n Xi)^2}{n (n-1)}$
    • 注意:變異數的定義為 $\delta^2 = E[(X-\mu)^2]$,上述的樣本變異數必須除以 n-1 才是變異數的不偏估計量,而不是除以 n。
  • 樣本標準差:(Sample standard deviation) 樣本變異數中的 S 稱為樣本標準差。
  • 樣本全距:(range) 樣本中最大的觀察值減去最小的觀察值 $\omega = X_H-X_L$
  • 離群值:(outlier 或 wild) 離其他樣本很遠,特別大或特別小的樣本值。
  • 樣本四分數間距:(interquartile range, iqr) $iqr = q_3 - q_1$

統計圖

  • 莖葉圖:(stem-and-leaf diagram)
  • 雙莖葉圖:(double stem-and-leaf diagram)
  • 直方圖:(histogram)
  • 肩型圖 (累加分配圖):(relative cumulative frequency ogive)
  • 盒型圖:(boxplots) 由四分位數 q1, q3, 以及內籬笆 f1, f3 (inner fences), 連接值 a1, a3 與外籬笆 F1, F3 (outer fances) 所組成的圖形。
    • f1 = q1 - 1.5 iqr; f3 = q3 + 1.5 iqr;
    • F1 = q1 - 3.0 iqr; F3 = q3 + 3.0 iqr;
    • a1 是大於且最接近 f1 的數據點; a3 小於且最接近 f3 的數據點。

R 程式範例

範例一:一組樣本的統計

> x = sample(1:100, 10)
> x
 [1] 12 17 50 33 98 77 39 79  7 26
> mean(x)
[1] 43.8
> median(x)
[1] 36
> var(x)
[1] 984.1778
> sd(x)
[1] 31.37161
> range(x)
[1]  7 98
> max(x)
[1] 98
> min(x)
[1] 7
> max(x)-min(x)
[1] 91
> q1 = quantile(x, 0.25)
> q
function (save = "default", status = 0, runLast = TRUE) 
.Internal(quit(save, status, runLast))
<environment: namespace:base>
> q1
  25% 
19.25 
> q3 = quantile(x, 0.75)
> q3
  75% 
70.25 
> q3-q1
75% 
 51 
> iqr(x)
錯誤: 沒有這個函數 "iqr"
> IQR(x)
[1] 51
> fivenum(x)
[1]  7 17 36 77 98
> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   7.00   19.25   36.00   43.80   70.25   98.00

範例二:

> x = c(12,17,50,33,98,77,39,79,7,26)
> mu = mean(x)
> mu
[1] 43.8
> sigma <- sqrt(var(x))
> sigma
[1] 31.37161
> lo <- mu - 3*sigma; hi<-mu+3*sigma
> lo; hi
[1] -50.31482
[1] 137.9148
> y <- seq(lo, hi, length=50)
> y
 [1] -50.3148235 -46.4734021 -42.6319808 -38.7905594 -34.9491380 -31.1077167
 [7] -27.2662953 -23.4248739 -19.5834526 -15.7420312 -11.9006098  -8.0591885
[13]  -4.2177671  -0.3763457   3.4650756   7.3064970  11.1479184  14.9893397
[19]  18.8307611  22.6721825  26.5136038  30.3550252  34.1964466  38.0378679
[25]  41.8792893  45.7207107  49.5621321  53.4035534  57.2449748  61.0863962
[31]  64.9278175  68.7692389  72.6106603  76.4520816  80.2935030  84.1349244
[37]  87.9763457  91.8177671  95.6591885  99.5006098 103.3420312 107.1834526
[43] 111.0248739 114.8662953 118.7077167 122.5491380 126.3905594 130.2319808
[49] 134.0734021 137.9148235

範例三:

> x = 3:8
> mean(x)
[1] 5.5
> max(x)
[1] 8
> min(x)
[1] 3
> var(x)
[1] 3.5
> median(x)
[1] 5.5
> sum(x)
[1] 33
> sd(x)
[1] 1.870829

兩組樣本的統計

> cor(x, x+1)
[1] 1
> cor(x, -x)
[1] -1
> cor(x, 0.5x)
錯誤: unexpected symbol in "cor(x, 0.5x"
> cor(x, 0.5*x)
[1] 1
> 0.5*x
 [1]  6.0  8.5 25.0 16.5 49.0 38.5 19.5 39.5  3.5 13.0
> cor(x, 0.5*x+1)
[1] 1
> cor(x, -0.5*x+1)
[1] -1
> y=sample(1:100, 10)
> y
 [1] 53 69 57 93 27 37 60 83 77 55
> 
> cor(x,y)
[1] -0.4683468

偏態與峰態

偏態:Skewness

(1)
\begin{align} Skewness = m_3 = \sum \frac{(X-\bar{X})^3}{n} \end{align}

峰態:$g_2$

(2)
\begin{eqnarray} m_4 &=& \sum \frac{(X-\bar{X})^4}{n} \\ m_2 &=& \sum \frac{(X-\bar{X})^2}{n} \\ g_2 &=& \frac{m_4}{(m_2)^2} - 3 \end{eqnarray}

自己撰寫函數:

skewness<-function(x){
sum(((x-mean(x))^3))/length(x)
}
# 计算结果
> skewness(x)
[1] 197.8397

kurtosis<-function(x){
a=mean(x)
n=length(x)
m4=sum((x-a)^4)/n
m2=sum((x-a)^2)/n
kurt=m4/m2^2 -3
kurt
}
# 计算结果
> kurtosis(x)
[1] 0.6260693

使用 TSA 套件

> library(TSA)
Loading required package: leaps
Loading required package: locfit
Loading required package: akima
Loading required package: lattice
locfit 1.5-6     2010-01-20 
Loading required package: mgcv
This is mgcv 1.7-6. For overview type 'help("mgcv-package")'.
Loading required package: tseries
Loading required package: quadprog
Loading required package: zoo

Attaching package: 'zoo'

The following object(s) are masked from 'package:base':

  as.Date

 ‘tseries’ version: 0.10-26    ‘tseries’ is a package for 
 time series analysis and    computational finance.    
 See ‘library(help="tseries")’ for details.

Attaching package: 'TSA'

The following object(s) are masked from 'package:stats':

    acf, arima

The following object(s) are masked from 'package:utils':

    tar

> skewness(x)
[1] 0.4985052
> kurtosis(x)
[1] -1.10491

敘述統計圖

> x = rnorm(100)
> x
  [1]  0.389381081 -0.274522826  1.492670583 -1.563228609  0.766405108
  [6]  0.736573742  0.297407135 -1.324130406 -1.376598231  1.661727175
 [11] -1.356590351  1.309122339 -1.193821085  0.365801091 -0.952034088
 [16] -0.277610568 -0.599980091 -0.124105876 -1.107713162  0.560637570
 [21]  0.714449138  0.111969057  0.505171739 -2.418297599  0.318797182
 [26]  2.716646516  0.345289422  0.019434615  1.087758951  0.033917165
 [31] -0.356786424 -1.284809066  1.580411327  0.552931291 -0.615928762
 [36] -0.087069820 -0.814632197 -0.570882510 -0.107731447 -1.453838416
 [41] -0.257115209  1.166866120  1.072692716 -0.022594852  0.441221144
 [46]  1.053900960 -1.025193547 -1.119200587  0.264668203  1.409504515
 [51]  0.241644132 -0.955407800  0.446297381  0.231887649  0.769308731
 [56]  0.269624579  0.496109294  0.822638573 -0.904380789 -0.429527404
 [61] -2.050582772 -0.586973281 -1.192753403  1.158321933 -0.151319360
 [66]  0.558858868 -0.656174351 -2.858964403  0.366785049  0.896958092
 [71]  0.369315063 -0.953560954 -0.762608370 -1.017449547 -0.127738562
 [76] -1.922030980 -0.839897930  1.332972530 -0.001151104  0.104336360
 [81] -0.208907813  1.401335798  0.019330593 -0.687559289  0.445371885
 [86]  0.504532689  2.168626000 -1.742886230  0.831058071  2.011604088
 [91]  1.676059594  1.132849957 -1.047073217 -0.912548540 -2.235854777
 [96] -1.194104128  0.121106118 -1.178415224  0.214196778  0.280714044
> stem(x)

  The decimal point is at the |

  -2 | 9421
  -1 | 97654433222211000000
  -0 | 998887766664433322111100
   0 | 00011122233333344444445556667788889
   1 | 11112233445677
   2 | 027

> hist(x, main="Frequency Histogram of x")

> hist(x, main="Probability Histogram of x", freq=F)

> Fx = ecdf(x)

> plot(x)

> plot(Fx)

> boxplot(x)
DescriptiveGraph.jpg
BoxPlot.jpg

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License