Re: [問題]一個關於資料判讀的問題

看板Statistics作者時間18年前 (2006/06/16 18:00), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/4 (看更多)
※ 引述《pocession.bbs@ptt.cc (阿宗)》之銘言: > 這個不是課本上的習題 > 我目前在讀統計想了解一下實驗資料的可信度 > 我有一個問題關於實驗結果的認定 > 假定一個森林經過長時間的調查發現某一種樹木遭寄生蟲感染的比例為0.4 > 而今年某研究團隊經過10次採樣 每次採樣20棵 發現感染的樹木數如下: > 12,8,10,13,14,16,12,9,12,10(樣本平均數為11.6,樣本標準差為2.41) > 第一個我想了解的是以上這10筆資料有沒有不太對的? > 假設新的感染率p = 11.6/20 = 0.58 ~ 0.6,查二項式分佈的表可發現 > P[X = 9] = 0.071 > 0.05 P[X = 15] = 0.075 > 0.05 > 因此 我推論 本次的資料在9 ~ 15間是沒問題的,根據這樣,我把上述的10筆資料 (1) 假設群體比例 p=0.6 計算出 P[X≦9] 或 P[X≧15] 都比預定界限 (如 0.05) 高, 表示 X=9 或 X=15 都 是合理觀測值. 因此, 沒有理由剔除! (2) 由於其實並不知群體比例,因此 "p=0.6" 只是一個假 設. 要據以評估資料是否異常, 仍有些問題. > 其中的8和16刪掉,因此新的樣本平均數為11.5,樣本標準差為1.69 > 第二個我想了解的是,是不是我取樣的這八筆資料的平均值為11.5, > 是否代表了新的感染率就為 11.5/20 = 0.575 > 因此我以 p = 0.6 P[u-2Std < X < u + 2Std] = P [8 < X < 15] = 0.892 < 0.95 > 所以我認定今年的採樣數據並沒有支持此種樹遭寄生蟲的感染率有升高的趨勢 > 請問我以上的流程有沒有問題? 有問題! 假使資料有異常值 (outlier), 也不是剔除了事. 最起碼 必須了解異常原因, 了解取樣方式. 如果取樣不隨機, 所 有分析可能無任何參考價值! > 因為我的統計才剛看 並沒有很熟 > 有錯的請大家多多指正 分析資料有無異常: Obs.Fr. Exp.Fr. X^2 Pearson Res. z 12 11.6 0.013793103 0.117444044 1.597524126 8 11.6 1.117241379 -1.056996395 -0.228217732 10 11.6 0.220689655 -0.469776176 0.684653197 13 11.6 0.168965517 0.411054154 2.053959591 14 11.6 0.496551724 0.704664263 2.510395055 16 11.6 1.668965517 1.291884483 3.423265984 12 11.6 0.013793103 0.117444044 1.597524126 9 11.6 0.582758621 -0.763386285 0.228217732 12 11.6 0.013793103 0.117444044 1.597524126 10 11.6 0.220689655 -0.469776176 0.684653197 5.196152423 0.58 X^2 = 4.517241379 df = 9 (1) 分析各子樣本對應群體比例是否相等 H0: p_1 = p_2 = ... = p_{10} Ha: 有些比例不一致 結論: X^2 = 4.52, df=9, 無證據可說各次取樣結果 所代表的群體比例有差異. (2) 殘差分析 Pearson 殘差(絕對值)最大僅 1.29. 雖然 Pearson residuals 本有偏低之嫌(Var(Res)<1), 但以所見結 果觀之, 仍可認為並無異常. 分析感染率是否提高: H0: p≦0.4 Ha: p>0.4 (1) 10次結果個別 z 值有些超過0.05水準臨界點 1.645; 有些未超過. 但未 reject H0 並不表示 H0 是對的, 實際上 n=20 過小. 若做常態近似信賴區間, 以樣本 比例 0.4 (10次中最小的) 而言, margin of error 為 z*√[(0.4)(0.6)/20] = z*(0.1095), 90%水準信 賴區間之 margin of error 就達 0.18, 即 18 個百 分點 (區間 [0.22,0.58]). 而10次結果在 0.05 水準下有 3 個顯著, 比期望數, 0.05*10 = 0.5 次, 大得多! (2) 彙總 10 次結果之 z 值為 5.20, P-value 接近 0. 因此, 若10次調查的取樣都符合隨機性, 且相互獨立, 我們有充分證據說: 感染比例提高了. 提高至多少? 信賴區間(99%水準)是 0.58 ±2.576*√[(0.58)(0.42)/200] = 0.58 ±2.576*0.03490 = 0.58 ±0.0899 = [0.49,0.67] 有百分之99的信心說至少提高9個百分點(0.49-0.4). (3) 10次調查剔除剛好是 0.4=8/20 的那次以外, 9 次都 比 test value 0.4 來得高, 這顯示絕非偶然. 若不 是取樣問題, 就是感染率確實提高. -- H E L P !!! 統 計 專 業 版 需 要 你 !!! 來 貼 文 吧 !!! 無名小站 telnet://wretch.twbbs.org Statistics (統計方法討論區) 成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區) 盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話) 交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率) ★本文未經本人同意請勿轉載; 回覆請勿全文引用, 請僅留下直接涉及部分。 -- 夫兵者不祥之器物或惡之故有道者不處君子居則貴左用兵則貴右兵者不祥之器非君子 之器不得已而用之恬淡為上勝而不美而美之者是樂殺人夫樂殺人者則不可得志於天下 矣吉事尚左凶事尚右偏將軍居左上將軍居右言以喪禮處之殺人之眾以哀悲泣之戰勝以 喪禮處之道常無名樸雖小天下莫能臣侯王若能守之萬物將自賓天地相合以降甘露民莫 之令而自均始制有名名亦既有夫亦將知止知止可以不殆譬道之在天 163.15.188.87
文章代碼(AID): #14ae4i00 (Statistics)
文章代碼(AID): #14ae4i00 (Statistics)