川普贏了,但美國(guó)數(shù)據(jù)同行們卻輸了
2016-11-18 14:05:16 編輯:bianji1 訪問(wèn):
我也很意外,因?yàn)榍皫滋煳疫€看到各種民調(diào)希拉里領(lǐng)先優(yōu)勢(shì)明顯,結(jié)局有點(diǎn)出乎意料,說(shuō)好的預(yù)測(cè)希拉里成果率80%的呢?
是的,美國(guó)那邊的數(shù)據(jù)同行們,被“啪啪”打臉了!
說(shuō)好的“啤酒與尿布”呢?哦,對(duì)了,還有說(shuō)好的“成功預(yù)測(cè)流感”呢?咋就不好使了。
莫非,是美國(guó)那邊的數(shù)據(jù)同行們,水準(zhǔn)下降了?!
好了,打住,不要偷偷得意了。
盆友圈里,有個(gè)數(shù)據(jù)同行盆友發(fā)了這樣一個(gè)狀態(tài):“美國(guó)大選出乎意料的核心在于數(shù)據(jù)的不完整性。我們以為全世界的人都在互聯(lián)網(wǎng)上,其實(shí)沒(méi)有在互聯(lián)網(wǎng)的人是多數(shù)。所以這個(gè)時(shí)候的大數(shù)據(jù)分析技術(shù)就是個(gè)偽命題,無(wú)法預(yù)測(cè)也是合理的。”
一語(yǔ)中的!
很多分析這次美國(guó)大選結(jié)果的盆友,很喜歡用的一個(gè)句話“農(nóng)村包圍城市”。
就算在一個(gè)州里,只有相對(duì)發(fā)達(dá)的城市對(duì)希拉里的支持是比較徹底的,例如佛羅里達(dá)州。 所以,確實(shí)是印證了“農(nóng)村包圍城市”的說(shuō)法。
那么,這個(gè)現(xiàn)狀對(duì)于之前我們說(shuō)的數(shù)據(jù)預(yù)測(cè)有什么影響呢?
不可否認(rèn),互聯(lián)網(wǎng)在美國(guó)的普及率也算是足夠高了,但不得不承認(rèn)的一個(gè)事實(shí)是:互聯(lián)網(wǎng)上相對(duì)活躍的人群,肯定是經(jīng)濟(jì)能力相對(duì)較高,整體學(xué)識(shí)素質(zhì)相對(duì)比較高的群體。
從這點(diǎn)來(lái)說(shuō),基于互聯(lián)網(wǎng)的數(shù)據(jù)去做大選預(yù)測(cè),本身就存在數(shù)據(jù)樣本的不公平性。
也就印證了,盆友圈中的那句“其實(shí)很多人都不在互聯(lián)網(wǎng)上的”,那部分人群是沒(méi)有參與到預(yù)測(cè)中的。
還有一個(gè)比較重要的點(diǎn)就是:關(guān)鍵意見(jiàn)領(lǐng)袖(KOL)再加上社交媒體的影響力,使得數(shù)據(jù)預(yù)測(cè)進(jìn)一步偏離了正確的方向。
我們都知道,現(xiàn)任美國(guó)總統(tǒng)奧巴馬公開(kāi)為希拉里拉選票,而蘋(píng)果、Google、臉書(shū)等互聯(lián)網(wǎng)領(lǐng)袖也都公開(kāi)支持希拉里,當(dāng)然還包括很多體育、娛樂(lè)明星等為希拉里站臺(tái)。
這些人在互聯(lián)網(wǎng)的公開(kāi)影響力是不可忽視的,再結(jié)合社交網(wǎng)絡(luò)的病毒式擴(kuò)散,以“精英”階層為主體的互聯(lián)網(wǎng),于是就這樣被偏向了希拉里。
且不論國(guó)外,就算在國(guó)內(nèi)。
就以微信熱點(diǎn)傳播為例,一些微信大號(hào)發(fā)表的一些對(duì)時(shí)事熱點(diǎn)的看法,是很容易大面積覆蓋朋友圈的,而作為吃瓜群眾的我們也很容易受到這種意見(jiàn)領(lǐng)袖的影響(不受影響,你會(huì)轉(zhuǎn)發(fā)嗎)。
而今天雖然智能手機(jī)的普及率已經(jīng)算是比較廣了,但是作為經(jīng)常吃瓜群眾的我們,其實(shí)也算是“精英人士”了,我們是無(wú)法想象三四線城市的情況的,更何況那些農(nóng)村地帶呢?
你朋友圈中經(jīng)常傳播的熱點(diǎn),你那些依然拿著諾基亞的七大姑、八大姨聽(tīng)過(guò)嗎?
你造中國(guó)農(nóng)村人口有多少嗎?
所以,基于互聯(lián)網(wǎng)數(shù)據(jù)的選舉預(yù)測(cè),不可避免的使用了本身成分就不全面的基礎(chǔ)數(shù)據(jù),哪怕美國(guó)同行們用"看似"再精準(zhǔn),再智能的預(yù)測(cè)算法,結(jié)果一樣是錯(cuò)的。
這里又回歸到了我們的原始話題,并不是說(shuō)預(yù)測(cè)的過(guò)程或者說(shuō)算法存在問(wèn)題,而是數(shù)據(jù)源存在問(wèn)題。
這里告訴我們,作為大數(shù)據(jù)領(lǐng)域里開(kāi)挖掘機(jī)的我們,在苦練開(kāi)挖掘機(jī)技術(shù)的時(shí)候,不要忽視了前期數(shù)據(jù)收集,以及數(shù)據(jù)預(yù)處理的重要性。
很多時(shí)候,數(shù)據(jù)源的選取,以及數(shù)據(jù)的預(yù)處理過(guò)程,將會(huì)對(duì)你的后續(xù)挖掘結(jié)果產(chǎn)生巨大的影響,包括我們經(jīng)常說(shuō)的推薦。
當(dāng)然,包括對(duì)數(shù)據(jù)源要求更嚴(yán)格的預(yù)測(cè)模型等。
最后,作為數(shù)據(jù)領(lǐng)域的我們,要正確的看待這一次的美國(guó)大選數(shù)據(jù)預(yù)測(cè)事件,一方面要嚴(yán)謹(jǐn)對(duì)待數(shù)據(jù)選擇的問(wèn)題,另一方面也不要就因此而否定數(shù)據(jù)挖掘的價(jià)值!
文章轉(zhuǎn)載自騰訊論壇