2020 年数据科学的 10 大趋势

已发表: 2020-08-22

各大学的许多研究人员都在加倍投入 NLP 研究

任何数据科学项目的最大障碍之一是缺乏相关的训练数据

2020 年和未来几年对于采用数据科学的企业和团队来说将是非常令人兴奋的

人工智能是当今的热门话题，虽然有一些团体声称另一个冬天可能会到来，但更多的人（包括我自己）强烈认为这一次，夏天来了，这将是一场盛大的聚会。事实上，随着硬件和软件的进步，可能很长一段时间都看不到冬天了。以下是我对 2020 年最感兴趣的 10 大趋势。

量子计算

接近 2019 年底，谷歌宣布量子计算能力超过标准超级计算机超过 10 亿倍，在媒体上引起了轩然大波。虽然它在今天的实际应用中可能没有任何直接用途，但谷歌和 IBM 等公司的研究实验室广泛关注量子计算。因此，在 2020 年及以后，我们肯定会在量子计算方面取得决定性的飞跃，并且很快它可能会在实际应用中变得可行。

自然语言处理 (NLP) 的进展

一段时间以来，自然语言处理 (NLP) 一直是一个重要的焦点，随着最近变形金刚和注意力模型的出现，事情正在全速前进。几个月前，Elon Musk 的 OpenAI 发布了 GPT-3 模型。该模型基于 Transformer 架构模型，该模型接受了多达 175B 个参数的训练。这改变了一切。该模型在各种语言模型任务上实现了 SOTA，并在许多私有任务上继续这样做。

不同大学的许多研究人员都在加倍投入 NLP 研究。从较新的上下文化词表示到序列到序列建模，大量资源都投入到 NLP 上，使机器能够像人类一样理解和响应语言。

数据存储库和市场

对于任何数据科学项目来说，最大的障碍之一是缺乏相关的训练数据。许多团队最终花费了高达 80% 的时间来收集正确的训练数据。在过去的一年中，许多独立团队、开源项目和公共资助项目已经开放了对许多结构化数据集的访问。组织也开始涉足将他们可以访问或充当数据聚合器的数据货币化业务，这些数据聚合器以其他数据科学团队可以使用的格式收集、规范化和结构化数据。这一新业务线将在未来几年呈现上升趋势。

注释作为一项业务

虽然数据收集和聚合发生在并行的轨道上，但一个关键部分，包括对相同的数据进行标记、注释和准备好训练，也正在大举发展。像土耳其机器人这样的工具和服务——它可以实现注释的众包——已经存在，但现在人们越来越意识到这实际上是一项可行的业务。许多发展中国家，尤其是那些在劳动力成本较低的经济体中运营的国家，正在围绕标记数据开展业务，由大量人员选择、标记和标记输入数据，并使其为消费做好准备。

增强现实 (AR)

自 Google Glass 和 Microsoft HoloLens 应用程序（包括过去几年的其他应用程序）发布以来，AR 取得了重大进展。今年，我们看到了多家公司在 AR 眼镜方面的专利和公告，这将使人们能够在真实世界的模拟环境中进行交互和工作。 2021 年的智能眼镜将改变世界的工作和交流方式。

为你推荐：

资源

RBI 的账户聚合器框架将如何改变印度的金融科技

消息

企业家无法通过“Jugaad”创建可持续、可扩展的初创公司：Cit...

资源

元界将如何改变印度汽车业

资源

反暴利条款对印度初创企业意味着什么？

资源

教育科技初创公司如何帮助印度的劳动力提高技能并为未来做好准备……

消息

本周新时代科技股：Zomato 的麻烦仍在继续，EaseMyTrip 发布强...

数据分析即服务

大规模分析数据需要良好的软件和硬件设置。必须建立机器学习集群，安装必要的软件——甚至是“即插即用”软件——并在分析第一组数据之前产生大量的前期成本。但是，有许多可用的 SaaS 和自助服务解决方案，人们可以从一分钱一分货开始。此外，几乎所有提供商都可以使用 AutoML 等工具和技术，现在任何人都可以使用高性能数据分析。

人工智能可解释性

AI 模型，尤其是那些处理更大派生维度的数据和从各种接触点收集的数据的模型，在很大程度上是深度学习模型的黑匣子。数据输入，决策（输出）出来。做出某个决定的原因很少。随着我们迈向未来，人工智能将被用于医疗诊断、自动驾驶汽车、自动交易，甚至招聘和其他决策功能等应用中，确保特定机器的透明度和可见性变得很重要- 学习模型达成了特定的决定。有许多开源工具和框架在人工智能模型的解释方面已经产生了良好的早期成果。

负责任和道德的人工智能

如果自动驾驶汽车面临两种选择，这两种选择都会对人类造成一定的伤害，那么模型应该做出哪个决定？它应该基于数据还是应该有一些覆盖规则？

如果人工智能取得了非常新颖的进步，是否可以将其用于最终将用于战争的军事应用？

这些是负责任和合乎道德的人工智能试图解决的一些问题，以及偏见、数据保护、歧视等。围绕人工智能的道德使用展开了一场大运动，许多公司正在建立专门的工作组和联盟来处理这个问题。

数据仓库和数据管理平台

仓储已经存在了很长时间，它已成为组织收集和结构化数据以使其开始有意义的主要步骤。在过去的几年里，出现了许多仓储服务和平台，数据工程团队可以使用这些服务和平台来启动他们的数据仓库和数据湖之旅。

数据科学作为组织的基本能力

许多年前，统计和大数据分析被视为外包给分析团队的“专家”技能，但几年前这种情况发生了变化。目前，许多业务团队更喜欢让团队成员使用分析工具来分析数据。

同样，今天，在业务团队中正在建立数据科学技能的运动。业务团队正在学习如何管理数据科学项目、期望和时间表，以及技能和团队管理与传统软件开发团队的不同之处。

总而言之，对于采用数据科学和相关工作领域的企业和团队来说，2020 年和未来几年将是非常令人兴奋的。