熱門:瘦小腿瘦小腿瘦小腿

  1. 首頁
  2. 科技日報
  3. 科技

收藏!2019五大頂尖資料科學GitHub專案和Reddit熱帖

  • 小白兔

  • 2019-02-27 23:35:20

沒有什麼比GitHub和Reddit更適合資料科學了。

GitHub是託管程式碼的終極一站式平臺,它擅長於簡化團隊成員之間的協作過程。 多數領先的資料科學家和組織使用GitHub來開源他們的庫和框架。因此,我們不僅能夠及時瞭解領域的最新發展,還可以在自己的機器上覆制模型。

Reddit的討論與該頻譜的目的相同,領先的研究人員和才華橫溢的人才聚集在一起,討論和推斷機器學習和資料科學的最新主題和突破。

從這兩個平臺中,我們可以學習很多東西。本文介紹了2019年以來最新的開源GitHub庫和Reddit討論。

GitHub專案

1. Flair (最先進的NLP庫)

(https://github.com/zalandoresearch/flair)

2018年是自然語言處理(NLP)的分水嶺。像ELMo和Google的BERT這樣的庫就是突破性的版本。正如Sebastian Ruder所說,“NLP的ImageNet時刻已經到來”!

Flair是另一個優秀的NLP庫,易於理解和實現。它最好的部分是什麼?它非常先進。

Flair由Zalando Research基於PyTorch開發並開源。該庫在廣泛的NLP任務上優於以前的方法:

這裡,F1是準確度評估指標。

2. face.evoLVe – 高效能人臉識別庫

(https://github.com/ZhaoJ9014/face.evoLVe.PyTorch)

現在的資料科學領域,應用於計算機視覺的面部識別演算法無處不在。

face.evoLVe是一個基於PyTorch的“高效能人臉識別庫”。它為面部相關分析和應用程式提供全面的功能,包括:

· 面部對齊(檢測、地標定位、仿射變換)

· 資料預處理(例如,擴充、資料平衡、規範化)

· 各種骨幹(例如,ResNet、DenseNet、LightCNN、MobileNet等)

· 各種損失(例如,Softmax、Center、SphereFace、AmSoftmax、Triplet等)

· 提高效能的一系列技巧(例如,培訓改進、模型調整、知識蒸餾等)。

該庫是實際使用和部署高效能深層識別的必備工具,尤其適用於研究人員和工程師。

3. YOLOv3

(https://github.com/wizyoung/YOLOv3_TensorFlow)

YOLO是用於執行物件檢測任務的極其快速且準確的框架。它是在三年前推出的,並且從那以後經歷了幾次迭代,每次都比上一次更加精良。

此儲存庫是在TensorFlow中實現的YOLOv3的完整管道,可以在資料集上使用,以訓練和評估自己的物件檢測模型。以下是此儲存庫的主要亮點:

· 高效的tf.data管道

· 重量轉換器

· 極快的GPU非極大值抑制(Non Maximum Suppression)

· 完整的培訓渠道

· 通過K-means演算法選擇先前的錨箱

4. FaceBoxes: 高準確度的 CPU實時人臉檢測器

(https://github.com/zisianw/FaceBoxes.PyTorch)

計算機視覺中最大的挑戰之一是管理計算資源。並不是每個人都有多個GPU。 這是一個很難克服的障礙。

加強FaceBoxes。這是一種新穎的人臉檢測方法,使用CPU在速度和準確度方面都表現出了令人印象深刻的效能。

該儲存庫在FaceBoxes的PyTorch中執行。它包含安裝、訓練和評估人臉檢測模型的程式碼。不要再抱怨缺乏計算能力——今天就試試FaceBoxes吧!

5. Transformer-XL from Google AI

(https://github.com/kimiyoung/transformer-xl)

這是另一個改變遊戲規則的NLP框架。看到其有Google AI團隊的支援也不足為奇(他們也是那些提出BERT的人)。

長距離依賴性一直是NLP方面的棘手問題。即使去年取得了重大進展,但這個概念還沒有得到很好的解決。使用了RNN和Vanilla變壓器,但它們還不夠好。Google AI的Transformer-XL已經填補了這個空白。以下是關於這個庫的一些要點:

· Transformer-XL能夠學習長距離依賴性,比RNN長約80%,比Vanilla Transformer長450%。

· 即使在計算方面,Transformer-XL也比Vanilla Transformer快1800倍!

· 由於長期依賴性建模,Transformer-XL在長序列中具有更好的混淆效能(在預測樣本時更準確)。

此儲存庫包含TensorFlow和PyTorch中Transformer-XL的程式碼。看看你是否可以匹配(甚至擊敗)NLP中最先進的結果!

Reddit 熱帖

1. 資料科學家是新型業務分析師

(https://www.reddit.com/r/datascience/comments/aj6ohk/data_scientist_is_the_new_business_analyst/)

不要被標題中的熱門話題所迷惑。這是對資料科學當前狀態及其在世界各地的教學方式的認真討論。

在不同的資料科學角色上確定特定標籤總是很困難的。功能和任務各不相同——那麼誰應該準確地學習什麼?該主題探討教育機構如何僅涵蓋基本概念並聲稱教授資料科學。

對於所有處於初級學習階段的人——請務必瀏覽此討論。你將瞭解到很多關於招聘人員如何看待持有認證或學位的潛在候選人聲稱他們是資料科學家這一事件。

當然,你將瞭解商業分析師的工作內容,以及與資料科學家的不同之處。

2. 資料科學中有什麼東西讓你大吃一驚

(https://www.reddit.com/r/datascience/comments/aczhjc/what_is_something_in_ds_that_has_blown_your_mind/)

資料科學讓你感到驚歎的的一件事是什麼?

在這個討論主題中有很多不可思議的理論和事實會讓你參與其中。以下是來自該帖子的幾個很酷的答案:

“世界上有多少地方可以用眾所周知的分佈來建模。很多事物都是正太分佈的這一事實讓我覺得我們正處於模擬中。“

“第一件引起我注意並推動我從事資料科學事業的事情是美聯航每年通過改變用於製作飛行雜誌的紙張型別來節省170,000的燃料。”

3. 頂尖資料科學家在職業生涯早期致力於解決的問題

(https://www.reddit.com/r/MachineLearning/comments/afl3t1/d_machine_learning_people_what_are_some_things/)

大多數資料科學家很確定地說,他們在最初的日子裡很難理解某些概念。甚至像估算缺失值那樣簡單的事情也會成為挫折中的艱苦工作。

這個主題是所有資料科學愛好者的金礦。它由經驗豐富的資料科學家組成,他們分享了自己如何設法學習或瞭解最初難以掌握的概念。其中一些甚至可能對你來說很熟悉:

· “最難的部分是學習不同型別的輸入形狀(DNN,RNN,CNN)如何工作。 我想我花了大約20個小時來確定RNN的輸入形狀。“

· “每次都是,現在仍然充滿挑戰,就是在系統上設定開發環境。安裝CUDA,Tensorflow,PyCharm。 那些日子真是令人恐懼和絕望。“

· “配置TensorFlow以使用我的GPU能夠運作,這需要數小時的Google搜尋和反覆試驗。”

4. 為什麼深度學習網路可以得到很好的推廣

(https://www.reddit.com/r/MachineLearning/comments/abj1mc/d_notes_on_why_deep_neural_networks_are_able_to/)

神經網路長期以來一直有“黑匣子”的聲譽(它不再是真的了)。當概念擴充套件到深度神經網路(DNN)時,事情變得更加混亂。這些DNN是許多最新技術成果的核心,因此瞭解它們的工作原理至關重要。

這個主題中討論的一個關鍵問題是神經網路如何深入推廣。如果你有同樣的想法,但對此沒有答案——準備好大吃一驚吧!

該主題包括深度學習專家提出的觀點。包含了大量的連結和資源,以深入探討該主題。但請注意,對神經網路的基本瞭解將有助於你更多地參與討論。

5. AMA 和 DeepMind的 AlphaStar 團隊

(https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/)

當AlphaGo創作擊敗圍棋冠軍李世石時,Google的DeepMind震驚世界。他們又一次席捲而來!

其最新的演算法AlphaStar在流行遊戲的星際爭霸2中受過訓練。AlphaStar強調將兩位星際爭霸球員放在一邊,以10-1的優勢贏得勝利。

這個Reddit討論主題是由兩個DeepMind AlphaStar的建立者主持的AMA(Ask Me Anything)。他們與Reddit社群討論了各種各樣的主題,解釋了演算法如何工作,使用了多少訓練資料,硬體設定是什麼樣的,等等。

這個討論中有兩個有趣的問題:

“為了達到目前的水平,需要玩多少場比賽? 或者換句話說:以你為例,有多少遊戲是需要長達200年的學習?“

“嘗試了哪些其他方法?我知道人們對是否會涉及任何樹搜尋、深層環境模型或分層RL技術感到非常好奇,它們似乎都不可行;如果嘗試過,他們中的任何一個都取得了可觀的進展嗎?”

本文為一點號作者原創,未經授權不得轉載

推薦您的文章

其他文章