Re: [新聞] 綠初選民調5家結果超整齊 民調專家當場大笑三聲

看板Gossiping作者 (海綿神)時間5年前 (2019/06/16 11:04), 5年前編輯推噓-1(4547)
留言56則, 8人參與, 5年前最新討論串9/9 (看更多)
r大您好,看到你的文深覺八卦版不愧是臥虎藏龍之地 果然高手在民間 不過雖然小弟統計學只學過生統,python沒上過課 但還是覺得有些疑問,想要稍微討論一下 還請您高抬貴手 ※ 引述《raiderho (冷顏冷雨)》之銘言 : 正式論證: : 我們只看 (蔡韓柯) 這組對比結果,因為,同時納入 (蔡韓柯) 與 (賴韓柯) : 涉及投票行為的策略,需要對模型做更多假設。本篇旨不在此。 : (題外話:兩組投票結果是高度相關的,假設策略性投票的人不多, : 若一組民調差距有限,另一組的民調差距也有限。) : 假設三個人的支持度如同民進黨中央給的 (v1, v2, v3)。 : (底下的模型2 可以看到,這個假設其實不重要。) : 問題: : 這三個人在五項民調的最高最低差異皆不到 2.6% 的可能性。 : 一次實驗: : 以 multinomial(3000*5, (v1, v2, v3, 1-v1-v2-v3)) 分配抽出「出像」結果。 : 若各候選人在5機構3000樣本獲得的最高與最低支持度的差距皆 < 2.6%, : 稱為 True. : 可能性: : 進行一百萬次實驗 (一百萬個平行世界,每個世界都用同樣方式實施民調), : 計算有多少個 True, 則 可能性 = True / 1000000. : 模型1: 對稱考量 : 考量五項民調都不低於 (v1-0.013, v2-0.013, v3-0.013), : 都不高於 (v1+0.013, v2+0.013, v3+0.013), 問可能性為何? : 實驗跑出來結果約是 0.22. : 模型2: 不對稱考量 : 放鬆考量,五項民調的上下差距不超過 2.6%, : 不用拘泥於以 (v1, v2, v3) 為中心,這樣的可能性為何? : 實驗結果大幅提高到 0.60. : 由於模型2 不用拘泥於對稱性, : 對參數的變化比模型1 更不敏感, : 暗示著 (v1, v2, v3) 的「確切真實值」不是很重要, : 模型2 可以避免了模型1 的真實參數估計問題, : 因此是更穩健的模型。 : 我對模型2 在所有合理參數區間作了測試,發現可能性至少都有 0.56. : 因此,目前可以初步回答,只看一組民調對比結果,在正常的抽樣程序下, : 「五項機構民調最高最低差距 < 2.6%」是很可能發生的。 : python code: : import numpy as np : diff = 0.013 : v1, v2, v3 = 0.3508, 0.2451, 0.2270 : v4 = 1 - v1 - v2 - v3 : para = np.array([v1, v2, v3, v4]) : lower_bound = np.array([[v1 - diff, v2 - diff, v3 - diff, 0]] * 5) : upper_bound = np.array([[v1 + diff, v2 + diff, v3 + diff, 1]] * 5) : round = 1000000 : sample_size = 3000 : agency = 5 : ''' model 1: symmetric ''' : result_1 = 0 : for i in range(round): : poll = np.random.multinomial(sample_size, para, agency) / sample_size : q = np.all(np.greater_equal(poll, lower_bound)) * : np.all(np.less_equal(poll, upper_bound)) : result_1 += q : prob_1 = result_1 / round # prob_1 is around 0.22 : ''' model 2: asymmetric ''' : result_2 = 0 : dist = 2 * diff : for i in range(round): : poll = np.random.multinomial(sample_size, para, agency) / sample_size : q = np.all((np.ptp(poll, axis = 0)) < dist) : result_2 += q : prob_2 = result_2 / round # prob_2 is around 0.60 np.random.multinomial中有三個參數 一是實驗次數,二是各個結果的概率,三是輸出設定 一跟三都沒有問題,問題在二 由於此一程式的限制,我們必須在抽樣之前就決定抽樣母群體的分布 也就是您文章中所設定的“para” 這邊您使用(35.08% , 24.51% , 22.70% , 未表態)作為多項式分布的分布概率 也就是五組民調的抽樣,都是來自一個服從“para”分布的母群體 然而,小弟看部分網友及阿騙的言論,主要質疑的點在於五間機構的抽樣群體,「理論上 不會是同樣分布群體」 這是因為每間機構會有所謂的「機構效應」,亦即民眾對於民調公司的認同不同,會導致 不同的作答情形 甚或每間民調公司所掌握的電話名單不同,也會導致抽樣群體與母群體(全台灣人)有所 誤差 (當然吳董說都來自黨中央這未證實的謠言我們先不管它) 而小弟亦看到r大為了增加完整性 也另外跑了如(0.1,0.1,0.1)(0.2,0.3,0.4)等組的概率分布 但在這些情況下,五組民調仍是來自於相同的分布群體 因此,小弟想說的是 r大做的驗證比較近似於「五家民調機構從同一or相似的抽樣群體中,得出的民調結構誤 差在2.6%內的可能性」 r大幫我們算的是6成 但大家比較質疑的,其實是為何五家民調機構的抽樣群體為何會如此相近,乃至於可能是 相同的(即網友說的有同一份手機名單) 當然小弟不是相關科系出身,也不會python,自承提不出更好的模型 單純有些疑問提出而已 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.9.98.30 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1560654274.A.44B.html

06/16 11:07, 5年前 , 1F
你先說說機構效應怎麼造成的?再想想這五份
06/16 11:07, 1F

06/16 11:07, 5年前 , 2F
民調有沒有這些影響因素
06/16 11:07, 2F

06/16 11:07, 5年前 , 3F
要討論先自己思考一下
06/16 11:07, 3F
當然是已經思考過才丟上來,不然昨天半夜我就會發文了 我的理解是,我沒有能力去驗證在這幾家民調機構的訪查名單之間,是否差異度真的可以 小於2.6%,因為我廢提不出模型 然而從這五份民調皆與先前各大台的民調,乃至於親綠的三立,都有一定程度的落差,顯 見機構效應確實存在 現在的問題是在於這幾個機構間的機構效應是否確實如此一致,這可以討論 小弟只是指出r大的模型無法解決這個疑問而已 ※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 11:19:20

06/16 11:19, 5年前 , 4F
有外力介入要有證據啊
06/16 11:19, 4F

06/16 11:20, 5年前 , 5F
其實這串講的很清楚了 確實是在同樣的母
06/16 11:20, 5F

06/16 11:20, 5年前 , 6F
體取樣啊 就電話簿和NCC提供的手機範圍
06/16 11:20, 6F

06/16 11:22, 5年前 , 7F
5間民調都是從黨中央提供的母體中取樣啦
06/16 11:22, 7F

06/16 11:22, 5年前 , 8F
除非你要講黨中央作弊 不過提出證據吧
06/16 11:22, 8F

06/16 11:22, 5年前 , 9F
然後黨內初選民調未必會講自己是哪間
06/16 11:22, 9F

06/16 11:23, 5年前 , 10F
哪來的機構效應 說真的一般人知道山水是
06/16 11:23, 10F

06/16 11:23, 5年前 , 11F
你砍掉回應?
06/16 11:23, 11F
我這邊看還在耶

06/16 11:23, 5年前 , 12F
哪間嗎
06/16 11:23, 12F

06/16 11:25, 5年前 , 13F

06/16 11:25, 5年前 , 14F

06/16 11:25, 5年前 , 15F
我的另個問題是 手機如何抽樣?
06/16 11:25, 15F

06/16 11:25, 5年前 , 16F
同時間另一間跟民進黨無關的民調
06/16 11:25, 16F

06/16 11:26, 5年前 , 17F
結果也是類似
06/16 11:26, 17F

06/16 11:27, 5年前 , 18F
做民調不是亂抽樣的 有黨派年齡性別之分
06/16 11:27, 18F

06/16 11:27, 5年前 , 19F
手機從NCC提供的手機號碼範圍隨機
06/16 11:27, 19F

06/16 11:27, 5年前 , 20F
而且手機還佔50% 很多專家也想知道怎麼做
06/16 11:27, 20F

06/16 11:28, 5年前 , 21F
市話怎麼確認接電話的人黨派年齡性別?
06/16 11:28, 21F

06/16 11:28, 5年前 , 22F
統計學中抽樣數越大 結果會越接近 越準確
06/16 11:28, 22F

06/16 11:28, 5年前 , 23F
手機就怎麼做 專家還不知道手機怎麼做?
06/16 11:28, 23F

06/16 11:28, 5年前 , 24F
請問是哪來的專家? 然後你市話什麼時候厲
06/16 11:28, 24F

06/16 11:28, 5年前 , 25F

06/16 11:29, 5年前 , 26F

06/16 11:29, 5年前 , 27F
害到可以憑號碼知道接電話的人黨派年齡
06/16 11:29, 27F

06/16 11:29, 5年前 , 28F
現今模型是基於市話 那手機模型怎麼做?
06/16 11:29, 28F

06/16 11:29, 5年前 , 29F
性別??? 哪門子專家????
06/16 11:29, 29F

06/16 11:30, 5年前 , 30F
怎樣模型基於市話? 手機早就解釋過了
06/16 11:30, 30F

06/16 11:30, 5年前 , 31F
所以你的意思是市話怎麼做手機就怎麼做囉?
06/16 11:30, 31F

06/16 11:30, 5年前 , 32F
你想想看手機和市話差別在哪
06/16 11:30, 32F

06/16 11:30, 5年前 , 33F
完全不像學過統計的發言
06/16 11:30, 33F
我懂你的意思,因為任何統計學的概念,都是抽樣群體要逼近母群體,我這篇是反其道而 行 然而,如果民調真的那麼符合統計學原理,就不會有92%的姚文了

06/16 11:33, 5年前 , 34F
※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 11:34:44 ※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 11:42:38

06/16 11:43, 5年前 , 35F
差別就是提特定供的 跟從0000-000-000~
06/16 11:43, 35F

06/16 11:43, 5年前 , 36F
9999-999-999 這中間的落差
06/16 11:43, 36F

06/16 11:44, 5年前 , 37F
特定提供
06/16 11:44, 37F

06/16 11:47, 5年前 , 38F
姚文智的92%你要不要看一下哪來的 再看一
06/16 11:47, 38F

06/16 11:47, 5年前 , 39F
下母體???
06/16 11:47, 39F
92%當然是極端例子,我要說的是民調工具演變至今仍然無法跨過取樣偏誤那到坎,而我 認為這次也不例外 ※ 編輯: spongegod (39.9.98.30 臺灣), 06/16/2019 12:34:54

06/16 12:40, 5年前 , 40F
原po問的滿有禮貌感覺不是單純為政治
06/16 12:40, 40F

06/16 12:41, 5年前 , 41F
反而問 回文也噓太兇了吧
06/16 12:41, 41F

06/16 14:56, 5年前 , 42F
哈囉,我在你發文的時間點,補上另一項
06/16 14:56, 42F

06/16 14:56, 5年前 , 43F
驗證了,麻煩你回去一下。那一項驗證是
06/16 14:56, 43F

06/16 14:56, 5年前 , 44F
用暴力的方式,循著合理參數空間尋找「
06/16 14:56, 44F

06/16 14:56, 5年前 , 45F
事件發生最低可能性」(畢竟這是我們關注
06/16 14:56, 45F

06/16 14:56, 5年前 , 46F
的情況),答案是超過 0.562. 這應該足夠
06/16 14:56, 46F

06/16 14:57, 5年前 , 47F
回答你的問題,簡單說,模型2的具體參數
06/16 14:57, 47F

06/16 14:57, 5年前 , 48F
是多少對結果影響很小,我也確實檢查了
06/16 14:57, 48F

06/16 14:57, 5年前 , 49F
06/16 14:57, 49F

06/16 15:02, 5年前 , 50F
抱歉,看錯你的問題,補回小小觀點,其
06/16 15:02, 50F

06/16 15:02, 5年前 , 51F
實和網友都差不多:因為五間民調機構已
06/16 15:02, 51F

06/16 15:02, 5年前 , 52F
經協調,用了同樣的母體(或者事前無法判
06/16 15:02, 52F

06/16 15:02, 5年前 , 53F
斷有差別的母體)、統一的問題、又在同一
06/16 15:02, 53F

06/16 15:02, 5年前 , 54F
時間做,機構效應應該較為一致,當然,
06/16 15:02, 54F

06/16 15:02, 5年前 , 55F
我選擇不去討論這個問題,只專心檢視結
06/16 15:02, 55F

06/16 15:03, 5年前 , 56F
果離散程度。
06/16 15:03, 56F
文章代碼(AID): #1T1R72HB (Gossiping)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 9 之 9 篇):
文章代碼(AID): #1T1R72HB (Gossiping)