熱門:瘦小腿瘦小腿瘦小腿

  1. 首頁
  2. 科技日報
  3. 網路

Google科學家:對大資料的誤解和大資料的四種力量

  • 小白兔

  • 2018-10-23 09:26:54

大資料是這幾年的一項熱門技術。它和人工智慧、雲端計算一起,已經成為大科技公司的技術標配。但是該如何理解大資料技術?這項技術對我們有什麼影響?這些基本的問題,不少人卻並不清楚。

Google的資料科學家賽斯(賽斯·史蒂芬斯-大衛德維茨Seth Stephens-Davidowitz)寫了一本書《資料、謊言與真相》(Everybody Lies:Big Data,New Data ,and What the Internet Can Tell Us About Who We Really Are ),裡面對這些問題給出了他的回答。

大資料這個名字本身會給人一種誤解,認為大資料的關鍵在於資料量很大。不過,賽斯說,資料集的大小經常被高估。其實所需要的資料集的大小,跟資料本身的效果、資料的真實程度等都有關。

舉個例子,一個火熱的爐子,你只需要碰到一次,就明白,熱爐子很危險,會燙傷你。但是,你可能需要喝幾千杯咖啡,才能確定,咖啡是否會讓你頭疼。原因就在於,熱爐子本身的效果強度很高,因此,只需要一項資料,就能顯現出結果。

賽斯在這本書裡引用了大量人們在Google中搜索的資料。Google的資料之所以這麼有價值,其實原因也不完全是因為Google能拿到的龐大的資料量,還因為,人們在自己的電腦上輸入關鍵詞、進行搜尋時,都很誠實。他們不需要考慮社交壓力、周圍人的眼光等等。

用賽斯的話說,“你未必總是需要大資料,才能得出重要見解,你需要正確的資料。”大資料革命跟收集更多的資料無關,而是跟收集正確的資料有關。還是以Google為例。Google不是僅僅憑藉著能夠比其他搜尋引擎搜尋到更多的內容,就成為世界上最大的搜尋引擎公司,它憑藉的是,可以搜尋到更好的資料。這跟Google的演演算法有關。Google的演演算法,按照一個網頁被連結的數量來對搜尋結果排序。

賽斯介紹了大資料的四種力量。這四種力量,也並不都同資料集本身的大小相關。

大資料的第一種力量是,提供了新型別的資料。比如,包括弗洛伊德在內的思想家,都會從性的角度,來解釋人類的很多行為。但是,這些思想家更多還是在觀念層面進行思考。而現在,大資料時代的研究者,有了一項讓那些過往思想家羨慕不已的資料:人們在網際網路上搜索和觀看色情作品的資料。這些獨特的資料來源,能夠讓研究者進入以前只能靠推理和猜測的領域。

大資料的力量在於,重新想象什麼東西有資格成為資料,提供之前從來沒有收集過的資訊,讓人們可以研究。

作者舉了一個例子。他曾經把2004年至2011年的失業率輸入到Google的資料探勘工具Google Correlate中,結果發現,跟失業最相關的搜尋,一個是色情網站,另一個是蜘蛛紙牌。作者猜測,原因也很簡單,因為失業者會有很多空閒時間。所以,他就發現,“利用一些跟消遣相關的搜尋組合,就能追蹤失業率,而且是預測失業率最佳模式的一部分。”

大資料的第二種力量是,提供了誠實的資料。在數字時代出現之前,可想而知,由於考慮到社會壓力等因素,人往往會隱藏起來那些會讓自己難堪的想法。即使面對詢問,也不會坦誠相告。但是,在數字時代,雖然人們仍然會在現實生活中隱藏起一些真實想法,但是在網際網路上,尤其是可以匿名的網站上,人們往往會透露出自己的想法。

“大資料使我們終於可以看清人們真正想要什麼和真正做了什麼,而不是人們說自己要什麼和做了什麼。”

知名投資人彼得·蒂爾說過,偉大的企業建立在祕密之上。可能是關於自然的祕密,也可能是關於人的祕密。人的祕密,指的是跟自己有關但自己卻不知道,或者不想讓別人知道的事。

舉個例子,流媒體公司奈飛,曾經讓使用者設定一個自己以後想看的電影播放列表。奈飛發現,使用者確實會把電影新增到這個列表中,但是,儘管奈飛會提醒使用者看這些電影,使用者卻很少真的去看。因為,人們說自己想要的,跟自己實際想要的不一致。

後來,奈飛不再要求使用者告訴自己他們想看什麼電影,而是根據使用者點選和觀看的資料建立一個模型,用模型來推測使用者想看什麼電影。結果,使用者果然越來越頻繁地造訪奈飛,在上面看了越來越多的電影。

所以,奈飛前資料科學家澤維爾·艾瑪特里安說:演演算法比你更瞭解你自己。

大資料的第三種力量是,讓我們可以把焦點放在人口中的一個很小的子集,去進行研究。

當然,這要求對小的子集,也有大資料量。打個比方,為了將照片的一小部分放大後還能看清楚,照片需要有很高的畫素。同樣,為了能夠清楚放大檢視資料的小子集,每一個小子集中都需要大量的資料。比如,某一個球隊有多受1978年出生的男性的歡迎。只對幾千人進行的小調查,樣本根本不夠大,1978年出生的男性人數肯定不夠多。

這樣做的意義在什麼地方呢?作者通過資料研究發現,是否成為一個球隊的粉絲,跟這個球隊在一個人特定年齡段的表現有關係。如果在一個人對運動最痴迷、最容易喜歡上某項運動的時間段,這個球隊的表現越好,那它獲得這個年齡段的球迷就越多。

而且,美國人政治觀點的形成也類似。很多美國人會在14歲到24歲這個關鍵時期,形成個人的政治偏好。其中,形成政治觀點最重要的年紀是18歲。受歡迎的共和黨總統或不受歡迎的民主黨總統,將影響很多年輕人成為共和黨人。反之亦然。“大資料允許我們有意義地放大檢視資料集的細部,獲取新的洞察。”

第四種力量是,允許研究者進行因果關係實驗。大資料可以允許研究者進行快速而且可控制的因果關係實驗,而不僅僅是相關性。

這種測試在很多網際網路公司被稱作是A/B測試。臉書(Facebook)每天能進行上千次A/B測試。所謂的A/B測試,指的是,在同一個時間維度,分別讓相似的兩組訪客隨機訪問這些版本,收集資料,來評估出使用者更喜歡的版本。比如,兩個標題,哪一個點選量更高;放哪種型別的照片,更能讓使用者喜歡等等。

有一個網站的CEO說:“你不能假設任何事,必須針對每件事都進行測試才行”,“如果我們瞭解人性,根據我們的生活經驗就能判斷答案是什麼,那麼測試就不會有價值。但事實上,我們不瞭解人性,所以測試才這麼有價值。”

這種方法,網際網路公司已經大量使用,而現在和將來,社會科學家也可以使用,從而把以往模糊的研究,變得更科學。

科技有溫度,點選下方,關注「 酷玩兒 」帶您發現新奇、好玩的科技!

推薦您的文章

其他文章