Re: [新聞] 綠初選民調5家結果超整齊民調專家當場大笑三聲

看板Gossiping作者spongegod (海綿神)時間5年前 (2019/06/16 11:04)推噓-1(4推 5噓 47→)

留言56則, 8人參與討論串9/9 (看更多)

r大您好，看到你的文深覺八卦版不愧是臥虎藏龍之地果然高手在民間不過雖然小弟統計學只學過生統，python沒上過課但還是覺得有些疑問，想要稍微討論一下還請您高抬貴手 ※ 引述《raiderho (冷顏冷雨)》之銘言 : 正式論證： : 我們只看 (蔡韓柯) 這組對比結果，因為，同時納入 (蔡韓柯) 與 (賴韓柯) : 涉及投票行為的策略，需要對模型做更多假設。本篇旨不在此。 : (題外話：兩組投票結果是高度相關的，假設策略性投票的人不多， : 若一組民調差距有限，另一組的民調差距也有限。) : 假設三個人的支持度如同民進黨中央給的 (v1, v2, v3)。 : (底下的模型2 可以看到，這個假設其實不重要。) : 問題： : 這三個人在五項民調的最高最低差異皆不到 2.6% 的可能性。 : 一次實驗: : 以 multinomial(3000*5, (v1, v2, v3, 1-v1-v2-v3)) 分配抽出「出像」結果。 : 若各候選人在5機構3000樣本獲得的最高與最低支持度的差距皆 < 2.6%， : 稱為 True. : 可能性: : 進行一百萬次實驗 (一百萬個平行世界，每個世界都用同樣方式實施民調)， : 計算有多少個 True, 則可能性 = True / 1000000. : 模型1: 對稱考量 : 考量五項民調都不低於 (v1-0.013, v2-0.013, v3-0.013), : 都不高於 (v1+0.013, v2+0.013, v3+0.013), 問可能性為何？ : 實驗跑出來結果約是 0.22. : 模型2: 不對稱考量 : 放鬆考量，五項民調的上下差距不超過 2.6%, : 不用拘泥於以 (v1, v2, v3) 為中心，這樣的可能性為何？ : 實驗結果大幅提高到 0.60. : 由於模型2 不用拘泥於對稱性， : 對參數的變化比模型1 更不敏感， : 暗示著 (v1, v2, v3) 的「確切真實值」不是很重要， : 模型2 可以避免了模型1 的真實參數估計問題， : 因此是更穩健的模型。 : 我對模型2 在所有合理參數區間作了測試，發現可能性至少都有 0.56. : 因此，目前可以初步回答，只看一組民調對比結果，在正常的抽樣程序下， : 「五項機構民調最高最低差距 < 2.6%」是很可能發生的。 : python code: : import numpy as np : diff = 0.013 : v1, v2, v3 = 0.3508, 0.2451, 0.2270 : v4 = 1 - v1 - v2 - v3 : para = np.array([v1, v2, v3, v4]) : lower_bound = np.array([[v1 - diff, v2 - diff, v3 - diff, 0]] * 5) : upper_bound = np.array([[v1 + diff, v2 + diff, v3 + diff, 1]] * 5) : round = 1000000 : sample_size = 3000 : agency = 5 : ''' model 1: symmetric ''' : result_1 = 0 : for i in range(round): : poll = np.random.multinomial(sample_size, para, agency) / sample_size : q = np.all(np.greater_equal(poll, lower_bound)) * : np.all(np.less_equal(poll, upper_bound)) : result_1 += q : prob_1 = result_1 / round # prob_1 is around 0.22 : ''' model 2: asymmetric ''' : result_2 = 0 : dist = 2 * diff : for i in range(round): : poll = np.random.multinomial(sample_size, para, agency) / sample_size : q = np.all((np.ptp(poll, axis = 0)) < dist) : result_2 += q : prob_2 = result_2 / round # prob_2 is around 0.60 np.random.multinomial中有三個參數一是實驗次數，二是各個結果的概率，三是輸出設定一跟三都沒有問題，問題在二由於此一程式的限制，我們必須在抽樣之前就決定抽樣母群體的分布也就是您文章中所設定的“para” 這邊您使用（35.08% , 24.51% , 22.70% , 未表態）作為多項式分布的分布概率也就是五組民調的抽樣，都是來自一個服從“para”分布的母群體然而，小弟看部分網友及阿騙的言論，主要質疑的點在於五間機構的抽樣群體，「理論上不會是同樣分布群體」這是因為每間機構會有所謂的「機構效應」，亦即民眾對於民調公司的認同不同，會導致不同的作答情形甚或每間民調公司所掌握的電話名單不同，也會導致抽樣群體與母群體（全台灣人）有所誤差（當然吳董說都來自黨中央這未證實的謠言我們先不管它）而小弟亦看到r大為了增加完整性也另外跑了如（0.1,0.1,0.1）(0.2,0.3,0.4）等組的概率分布但在這些情況下，五組民調仍是來自於相同的分布群體因此，小弟想說的是 r大做的驗證比較近似於「五家民調機構從同一or相似的抽樣群體中，得出的民調結構誤差在2.6%內的可能性」 r大幫我們算的是6成但大家比較質疑的，其實是為何五家民調機構的抽樣群體為何會如此相近，乃至於可能是相同的（即網友說的有同一份手機名單）當然小弟不是相關科系出身，也不會python，自承提不出更好的模型單純有些疑問提出而已感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.9.98.30 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1560654274.A.44B.html

→

bmka

06/16 11:07, 5年前 , 1^F

06/16 11:07, 1^F

→

bmka

06/16 11:07, 5年前 , 2^F

06/16 11:07, 2^F

→

bmka

06/16 11:07, 5年前 , 3^F

06/16 11:07, 3^F

當然是已經思考過才丟上來，不然昨天半夜我就會發文了我的理解是，我沒有能力去驗證在這幾家民調機構的訪查名單之間，是否差異度真的可以小於2.6%，因為我廢提不出模型然而從這五份民調皆與先前各大台的民調，乃至於親綠的三立，都有一定程度的落差，顯見機構效應確實存在現在的問題是在於這幾個機構間的機構效應是否確實如此一致，這可以討論小弟只是指出r大的模型無法解決這個疑問而已 ※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 11:19:20

推

mangowater

06/16 11:19, 5年前 , 4^F

06/16 11:19, 4^F

噓

Re: [新聞] 綠初選民調5家結果超整齊 民調專家當場大笑三聲

Re: [新聞] 綠初選民調5家結果超整齊民調專家當場大笑三聲