Re: [新聞] 綠初選民調5家結果超整齊 民調專家當場大笑三聲
r大您好,看到你的文深覺八卦版不愧是臥虎藏龍之地
果然高手在民間
不過雖然小弟統計學只學過生統,python沒上過課
但還是覺得有些疑問,想要稍微討論一下
還請您高抬貴手
※ 引述《raiderho (冷顏冷雨)》之銘言
: 正式論證:
: 我們只看 (蔡韓柯) 這組對比結果,因為,同時納入 (蔡韓柯) 與 (賴韓柯)
: 涉及投票行為的策略,需要對模型做更多假設。本篇旨不在此。
: (題外話:兩組投票結果是高度相關的,假設策略性投票的人不多,
: 若一組民調差距有限,另一組的民調差距也有限。)
: 假設三個人的支持度如同民進黨中央給的 (v1, v2, v3)。
: (底下的模型2 可以看到,這個假設其實不重要。)
: 問題:
: 這三個人在五項民調的最高最低差異皆不到 2.6% 的可能性。
: 一次實驗:
: 以 multinomial(3000*5, (v1, v2, v3, 1-v1-v2-v3)) 分配抽出「出像」結果。
: 若各候選人在5機構3000樣本獲得的最高與最低支持度的差距皆 < 2.6%,
: 稱為 True.
: 可能性:
: 進行一百萬次實驗 (一百萬個平行世界,每個世界都用同樣方式實施民調),
: 計算有多少個 True, 則 可能性 = True / 1000000.
: 模型1: 對稱考量
: 考量五項民調都不低於 (v1-0.013, v2-0.013, v3-0.013),
: 都不高於 (v1+0.013, v2+0.013, v3+0.013), 問可能性為何?
: 實驗跑出來結果約是 0.22.
: 模型2: 不對稱考量
: 放鬆考量,五項民調的上下差距不超過 2.6%,
: 不用拘泥於以 (v1, v2, v3) 為中心,這樣的可能性為何?
: 實驗結果大幅提高到 0.60.
: 由於模型2 不用拘泥於對稱性,
: 對參數的變化比模型1 更不敏感,
: 暗示著 (v1, v2, v3) 的「確切真實值」不是很重要,
: 模型2 可以避免了模型1 的真實參數估計問題,
: 因此是更穩健的模型。
: 我對模型2 在所有合理參數區間作了測試,發現可能性至少都有 0.56.
: 因此,目前可以初步回答,只看一組民調對比結果,在正常的抽樣程序下,
: 「五項機構民調最高最低差距 < 2.6%」是很可能發生的。
: python code:
: import numpy as np
: diff = 0.013
: v1, v2, v3 = 0.3508, 0.2451, 0.2270
: v4 = 1 - v1 - v2 - v3
: para = np.array([v1, v2, v3, v4])
: lower_bound = np.array([[v1 - diff, v2 - diff, v3 - diff, 0]] * 5)
: upper_bound = np.array([[v1 + diff, v2 + diff, v3 + diff, 1]] * 5)
: round = 1000000
: sample_size = 3000
: agency = 5
: ''' model 1: symmetric '''
: result_1 = 0
: for i in range(round):
: poll = np.random.multinomial(sample_size, para, agency) / sample_size
: q = np.all(np.greater_equal(poll, lower_bound)) *
: np.all(np.less_equal(poll, upper_bound))
: result_1 += q
: prob_1 = result_1 / round # prob_1 is around 0.22
: ''' model 2: asymmetric '''
: result_2 = 0
: dist = 2 * diff
: for i in range(round):
: poll = np.random.multinomial(sample_size, para, agency) / sample_size
: q = np.all((np.ptp(poll, axis = 0)) < dist)
: result_2 += q
: prob_2 = result_2 / round # prob_2 is around 0.60
np.random.multinomial中有三個參數
一是實驗次數,二是各個結果的概率,三是輸出設定
一跟三都沒有問題,問題在二
由於此一程式的限制,我們必須在抽樣之前就決定抽樣母群體的分布
也就是您文章中所設定的“para”
這邊您使用(35.08% , 24.51% , 22.70% , 未表態)作為多項式分布的分布概率
也就是五組民調的抽樣,都是來自一個服從“para”分布的母群體
然而,小弟看部分網友及阿騙的言論,主要質疑的點在於五間機構的抽樣群體,「理論上
不會是同樣分布群體」
這是因為每間機構會有所謂的「機構效應」,亦即民眾對於民調公司的認同不同,會導致
不同的作答情形
甚或每間民調公司所掌握的電話名單不同,也會導致抽樣群體與母群體(全台灣人)有所
誤差
(當然吳董說都來自黨中央這未證實的謠言我們先不管它)
而小弟亦看到r大為了增加完整性
也另外跑了如(0.1,0.1,0.1)(0.2,0.3,0.4)等組的概率分布
但在這些情況下,五組民調仍是來自於相同的分布群體
因此,小弟想說的是
r大做的驗證比較近似於「五家民調機構從同一or相似的抽樣群體中,得出的民調結構誤
差在2.6%內的可能性」
r大幫我們算的是6成
但大家比較質疑的,其實是為何五家民調機構的抽樣群體為何會如此相近,乃至於可能是
相同的(即網友說的有同一份手機名單)
當然小弟不是相關科系出身,也不會python,自承提不出更好的模型
單純有些疑問提出而已
感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.9.98.30 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1560654274.A.44B.html
→
06/16 11:07,
5年前
, 1F
06/16 11:07, 1F
→
06/16 11:07,
5年前
, 2F
06/16 11:07, 2F
→
06/16 11:07,
5年前
, 3F
06/16 11:07, 3F
當然是已經思考過才丟上來,不然昨天半夜我就會發文了
我的理解是,我沒有能力去驗證在這幾家民調機構的訪查名單之間,是否差異度真的可以
小於2.6%,因為我廢提不出模型
然而從這五份民調皆與先前各大台的民調,乃至於親綠的三立,都有一定程度的落差,顯
見機構效應確實存在
現在的問題是在於這幾個機構間的機構效應是否確實如此一致,這可以討論
小弟只是指出r大的模型無法解決這個疑問而已
※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 11:19:20
推
06/16 11:19,
5年前
, 4F
06/16 11:19, 4F
噓
06/16 11:20,
5年前
, 5F
06/16 11:20, 5F
→
06/16 11:20,
5年前
, 6F
06/16 11:20, 6F
噓
06/16 11:22,
5年前
, 7F
06/16 11:22, 7F
→
06/16 11:22,
5年前
, 8F
06/16 11:22, 8F
→
06/16 11:22,
5年前
, 9F
06/16 11:22, 9F
→
06/16 11:23,
5年前
, 10F
06/16 11:23, 10F
→
06/16 11:23,
5年前
, 11F
06/16 11:23, 11F
我這邊看還在耶
→
06/16 11:23,
5年前
, 12F
06/16 11:23, 12F
→
06/16 11:25,
5年前
, 13F
06/16 11:25, 13F
噓
06/16 11:25,
5年前
, 14F
06/16 11:25, 14F
![](https://i.imgur.com/UlrosC3.jpg)
→
06/16 11:25,
5年前
, 15F
06/16 11:25, 15F
→
06/16 11:25,
5年前
, 16F
06/16 11:25, 16F
→
06/16 11:26,
5年前
, 17F
06/16 11:26, 17F
→
06/16 11:27,
5年前
, 18F
06/16 11:27, 18F
→
06/16 11:27,
5年前
, 19F
06/16 11:27, 19F
→
06/16 11:27,
5年前
, 20F
06/16 11:27, 20F
→
06/16 11:28,
5年前
, 21F
06/16 11:28, 21F
噓
06/16 11:28,
5年前
, 22F
06/16 11:28, 22F
→
06/16 11:28,
5年前
, 23F
06/16 11:28, 23F
→
06/16 11:28,
5年前
, 24F
06/16 11:28, 24F
→
06/16 11:28,
5年前
, 25F
06/16 11:28, 25F
![](https://i.imgur.com/iHXPNq9.jpg)
→
06/16 11:29,
5年前
, 26F
06/16 11:29, 26F
![](https://i.imgur.com/MDPKbrc.jpg)
→
06/16 11:29,
5年前
, 27F
06/16 11:29, 27F
→
06/16 11:29,
5年前
, 28F
06/16 11:29, 28F
→
06/16 11:29,
5年前
, 29F
06/16 11:29, 29F
→
06/16 11:30,
5年前
, 30F
06/16 11:30, 30F
→
06/16 11:30,
5年前
, 31F
06/16 11:30, 31F
→
06/16 11:30,
5年前
, 32F
06/16 11:30, 32F
→
06/16 11:30,
5年前
, 33F
06/16 11:30, 33F
我懂你的意思,因為任何統計學的概念,都是抽樣群體要逼近母群體,我這篇是反其道而
行
然而,如果民調真的那麼符合統計學原理,就不會有92%的姚文了
→
06/16 11:33,
5年前
, 34F
06/16 11:33, 34F
※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 11:34:44
※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 11:42:38
推
06/16 11:43,
5年前
, 35F
06/16 11:43, 35F
→
06/16 11:43,
5年前
, 36F
06/16 11:43, 36F
→
06/16 11:44,
5年前
, 37F
06/16 11:44, 37F
噓
06/16 11:47,
5年前
, 38F
06/16 11:47, 38F
→
06/16 11:47,
5年前
, 39F
06/16 11:47, 39F
92%當然是極端例子,我要說的是民調工具演變至今仍然無法跨過取樣偏誤那到坎,而我
認為這次也不例外
※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 12:34:54
推
06/16 12:40,
5年前
, 40F
06/16 12:40, 40F
→
06/16 12:41,
5年前
, 41F
06/16 12:41, 41F
推
06/16 14:56,
5年前
, 42F
06/16 14:56, 42F
→
06/16 14:56,
5年前
, 43F
06/16 14:56, 43F
→
06/16 14:56,
5年前
, 44F
06/16 14:56, 44F
→
06/16 14:56,
5年前
, 45F
06/16 14:56, 45F
→
06/16 14:56,
5年前
, 46F
06/16 14:56, 46F
→
06/16 14:57,
5年前
, 47F
06/16 14:57, 47F
→
06/16 14:57,
5年前
, 48F
06/16 14:57, 48F
→
06/16 14:57,
5年前
, 49F
06/16 14:57, 49F
→
06/16 15:02,
5年前
, 50F
06/16 15:02, 50F
→
06/16 15:02,
5年前
, 51F
06/16 15:02, 51F
→
06/16 15:02,
5年前
, 52F
06/16 15:02, 52F
→
06/16 15:02,
5年前
, 53F
06/16 15:02, 53F
→
06/16 15:02,
5年前
, 54F
06/16 15:02, 54F
→
06/16 15:02,
5年前
, 55F
06/16 15:02, 55F
→
06/16 15:03,
5年前
, 56F
06/16 15:03, 56F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 9 之 9 篇):