2020 年數據科學的 10 大趨勢
已發表: 2020-08-22各大學的許多研究人員都在加倍投入 NLP 研究
任何數據科學項目的最大障礙之一是缺乏相關的訓練數據
2020 年和未來幾年對於採用數據科學的企業和團隊來說將是非常令人興奮的
人工智能是當今的熱門話題,雖然有一些團體聲稱另一個冬天可能即將到來,但更多的人(包括我自己)強烈認為這一次,夏天來了,這將是一場盛大的聚會。 事實上,隨著硬件和軟件的進步,可能很長一段時間都看不到冬天了。 以下是我對 2020 年最感興趣的 10 大趨勢。
量子計算
接近 2019 年底,谷歌宣布量子計算能力超過標準超級計算機超過 10 億倍,在媒體上引起了軒然大波。 雖然它在今天的實際應用中可能沒有任何直接用途,但谷歌和 IBM 等公司的研究實驗室廣泛關注量子計算。 因此,在 2020 年及以後,我們肯定會在量子計算方面取得決定性的飛躍,並且很快它可能會在實際應用中變得可行。
自然語言處理 (NLP) 的進展
一段時間以來,自然語言處理 (NLP) 一直是一個重要的焦點,隨著最近變形金剛和注意力模型的出現,事情正在全速前進。 幾個月前,Elon Musk 的 OpenAI 發布了 GPT-3 模型。 該模型基於 Transformer 架構模型,該模型接受了多達 175B 個參數的訓練。 這改變了一切。 該模型在各種語言模型任務上實現了 SOTA,並在許多私有任務上繼續這樣做。
不同大學的許多研究人員都在加倍投入 NLP 研究。 從較新的上下文化詞表示到序列到序列建模,大量資源都投入到 NLP 上,使機器能夠像人類一樣理解和響應語言。
數據存儲庫和市場
對於任何數據科學項目來說,最大的障礙之一是缺乏相關的訓練數據。 許多團隊最終花費了高達 80% 的時間來收集正確的訓練數據。 在過去的一年中,許多獨立團隊、開源項目和公共資助項目已經開放了對許多結構化數據集的訪問。 組織也開始涉足將他們可以訪問或充當數據聚合器的數據貨幣化業務,這些數據聚合器以其他數據科學團隊可以使用的格式收集、規範化和結構化數據。 這一新業務線將在未來幾年呈現上升趨勢。
註釋作為一項業務
雖然數據收集和聚合發生在並行的軌道上,但一個關鍵部分,包括對相同的數據進行標記、註釋和準備好訓練,也正在大舉發展。 像土耳其機器人這樣的工具和服務——它可以實現註釋的眾包——已經存在,但現在人們越來越意識到這實際上是一項可行的業務。 許多發展中國家,尤其是那些在勞動力成本較低的經濟體中運營的國家,正在圍繞標記數據開展業務,由大量人員選擇、標記和標記輸入數據,並使其為消費做好準備。
增強現實 (AR)
自 Google Glass 和 Microsoft HoloLens 應用程序(包括過去幾年的其他應用程序)發布以來,AR 取得了重大進展。 今年,我們看到了多家公司在 AR 眼鏡方面的專利和公告,這將使人們能夠在真實世界的模擬環境中進行交互和工作。 2021 年的智能眼鏡將改變世界的工作和交流方式。
為你推薦:
數據分析即服務
大規模分析數據需要良好的軟件和硬件設置。 必須建立機器學習集群,安裝必要的軟件——甚至是“即插即用”軟件——並在分析第一組數據之前產生大量的前期成本。 但是,有許多可用的 SaaS 和自助服務解決方案,人們可以從一分錢一分貨開始。 此外,幾乎所有提供商都可以使用 AutoML 等工具和技術,現在任何人都可以使用高性能數據分析。
人工智能可解釋性
AI 模型,尤其是那些處理更大派生維度的數據和從各種接觸點收集的數據的模型,在很大程度上是深度學習模型的黑匣子。 數據輸入,決策(輸出)出來。 做出某個決定的原因很少。 隨著我們進入未來,人工智能將被用於醫療診斷、自動駕駛汽車、自動交易,甚至招聘和其他決策功能等應用中,確保特定機器的透明度和可見性變得很重要- 學習模型達成了特定的決定。 有許多開源工具和框架在人工智能模型的解釋方面已經產生了良好的早期成果。
負責任和道德的人工智能
如果自動駕駛汽車面臨兩種選擇,這兩種選擇都會對人類造成一定的傷害,那麼模型應該做出哪個決定? 它應該基於數據還是應該有一些覆蓋規則?
如果人工智能取得了非常新穎的進步,是否可以將其用於最終將用於戰爭的軍事應用?
這些是負責任和合乎道德的人工智能試圖解決的一些問題,以及偏見、數據保護、歧視等。 圍繞人工智能的道德使用展開了一場大運動,許多公司正在建立專門的工作組和聯盟來處理這個問題。
數據倉庫和數據管理平台
倉儲已經存在了很長時間,它已成為組織收集和結構化數據以使其開始有意義的主要步驟。 在過去的幾年裡,出現了許多倉儲服務和平台,數據工程團隊可以使用這些服務和平台來啟動他們的數據倉庫和數據湖之旅。
數據科學作為組織的基本能力
許多年前,統計和大數據分析被視為外包給分析團隊的“專家”技能,但幾年前這種情況發生了變化。 目前,許多業務團隊更喜歡讓團隊成員使用分析工具來分析數據。
同樣,今天,在業務團隊中正在建立數據科學技能的運動。 業務團隊正在學習如何管理數據科學項目、期望和時間表,以及技能和團隊管理與傳統軟件開發團隊的不同之處。
總而言之,對於採用數據科學和相關工作領域的企業和團隊來說,2020 年和未來幾年將是非常令人興奮的。