高技能人才或是未来 5-10 年大365bet 网站_365bet 收不到验证_365bet体育在线滚球发展的最大瓶颈

2019-10-28 16:25 来源:Towards Data Science 网站
浏览量: 收藏:0 分享

  大365bet 网站_365bet 收不到验证_365bet体育在线滚球无疑是当下最流行的热词和前沿技术之一。本质上,大365bet 网站_365bet 收不到验证_365bet体育在线滚球具有三大类特征:快速、海量和复杂,大多数公司都在经历着这三大特征的各种形态组合。目前,这些特征中,还存在很多较难以解决的挑战,诸如处理365bet 网站_365bet 收不到验证_365bet体育在线滚球流中的丢失、重复问题,365bet 网站_365bet 收不到验证_365bet体育在线滚球质量参差不齐,365bet 网站_365bet 收不到验证_365bet体育在线滚球存储成本高,大365bet 网站_365bet 收不到验证_365bet体育在线滚球人才缺乏等。在本文中,我们将对“大365bet 网站_365bet 收不到验证_365bet体育在线滚球”的问题进行拆分,是什么使大365bet 网站_365bet 收不到验证_365bet体育在线滚球充满挑战,以及现在我们如何用最新的方法解决这些问题。

?  在本文中,我们将对“大365bet 网站_365bet 收不到验证_365bet体育在线滚球”的问题进行拆分,是什么使大365bet 网站_365bet 收不到验证_365bet体育在线滚球充满挑战,以及现在我们如何解决这些问题。大365bet 网站_365bet 收不到验证_365bet体育在线滚球一度成为流行语,但本质上它是指具备这三大类特征的365bet 网站_365bet 收不到验证_365bet体育在线滚球:快速,海量和复杂。让我们仔细研究下这些特征,举一些例子,看看如何用最新的方法解决这些难题。

  “大365bet 网站_365bet 收不到验证_365bet体育在线滚球是描述海量的高速、复杂和多变365bet 网站_365bet 收不到验证_365bet体育在线滚球的一个术语,这些365bet 网站_365bet 收不到验证_365bet体育在线滚球需要结合先进的技能和技术来实现信息的捕获、存储、分发、管理和分析”( TechAmerica Foundation’s Federal Big Data Commission, 2012 )

  高速的365bet 网站_365bet 收不到验证_365bet体育在线滚球

  高速的365bet 网站_365bet 收不到验证_365bet体育在线滚球指什么?高速的365bet 网站_365bet 收不到验证_365bet体育在线滚球指在短时间内产生的大量的365bet 网站_365bet 收不到验证_365bet体育在线滚球。比如汽车工厂的传感器365bet 网站_365bet 收不到验证_365bet体育在线滚球,温度监测器,飞行仪表等产生的365bet 网站_365bet 收不到验证_365bet体育在线滚球。

  高速365bet 网站_365bet 收不到验证_365bet体育在线滚球通常被认为是实时的或是准实时的365bet 网站_365bet 收不到验证_365bet体育在线滚球流。365bet 网站_365bet 收不到验证_365bet体育在线滚球流本质上是在生成后就发给处理器的365bet 网站_365bet 收不到验证_365bet体育在线滚球包(比如天线收到的电视信号或是通过固话传输的语音电话)。实时365bet 网站_365bet 收不到验证_365bet体育在线滚球的定义值得深入讨论,但是它本质上可以归结为需要在毫秒内被更新的365bet 网站_365bet 收不到验证_365bet体育在线滚球。处理365bet 网站_365bet 收不到验证_365bet体育在线滚球流有很多挑战,包括在采集时不丢失365bet 网站_365bet 收不到验证_365bet体育在线滚球、处理365bet 网站_365bet 收不到验证_365bet体育在线滚球流中的重复记录、流365bet 网站_365bet 收不到验证_365bet体育在线滚球与更大的历史365bet 网站_365bet 收不到验证_365bet体育在线滚球集集成、以及进行实时分析。

  传统的365bet 网站_365bet 收不到验证_365bet体育在线滚球流服务比如 Rabbit MQ 和 Active MQ 只在单节点上运行因此收到了服务器能力的限制。Apache Kafka 引入了分布式流服务的概念,使得365bet 网站_365bet 收不到验证_365bet体育在线滚球流可以分散到多个节点(服务器)上。这实现了高吞吐的流处理,每秒能达到数百万条。随着服务向云上的迁移,开发者不用再管理底层的硬件。亚马逊的 Kinesis 和谷歌的 Pub/Sub 将后方的服务器完全抽离,使开发者能够更专注于业务逻辑和365bet 网站_365bet 收不到验证_365bet体育在线滚球。

  ELK 是常用的在流式365bet 网站_365bet 收不到验证_365bet体育在线滚球上作实时分析的技术栈。ELK 由多个工具组成,用 Log Stash 将多种365bet 网站_365bet 收不到验证_365bet体育在线滚球源的365bet 网站_365bet 收不到验证_365bet体育在线滚球传输进 Elastic Search(ES)。在 ES 中存储的365bet 网站_365bet 收不到验证_365bet体育在线滚球可以轻松的通过特定的短语和关键词检索到。Kibana 是 ES 最上层的工具,它在365bet 网站_365bet 收不到验证_365bet体育在线滚球流入时就能进行实时分析,用户可以通过它来查询365bet 网站_365bet 收不到验证_365bet体育在线滚球、为365bet 网站_365bet 收不到验证_365bet体育在线滚球创建度量。

  海量365bet 网站_365bet 收不到验证_365bet体育在线滚球

  “大365bet 网站_365bet 收不到验证_365bet体育在线滚球”的第二个

  特征是365bet 网站_365bet 收不到验证_365bet体育在线滚球量足够大。

  典型的例如一个包含顶级投资银行 20 年股票交易历史的超大365bet 网站_365bet 收不到验证_365bet体育在线滚球集,20 年间所有信用卡的交易记录,或是热门网站(如 buzz feed)的用户交互信息等。通常这些365bet 网站_365bet 收不到验证_365bet体育在线滚球都会在 TB 甚至 PB 量级。

  处理超大365bet 网站_365bet 收不到验证_365bet体育在线滚球集通常会受到存储和处理365bet 网站_365bet 收不到验证_365bet体育在线滚球的计算资源的限制。通常一块商用硬盘可以容纳 1TB 的365bet 网站_365bet 收不到验证_365bet体育在线滚球量。有些365bet 网站_365bet 收不到验证_365bet体育在线滚球集能有好多 PB(相当于上千块硬盘的容量)。这些365bet 网站_365bet 收不到验证_365bet体育在线滚球需要在365bet 网站_365bet 收不到验证_365bet体育在线滚球中心内跨多个服务器(或传统的 RAID 盘)存储。除此之外,处理这些365bet 网站_365bet 收不到验证_365bet体育在线滚球也需要大量的物理内存和 CPU。

  Hadoop(一个开源分布式大365bet 网站_365bet 收不到验证_365bet体育在线滚球处理生态)的出现一定程度上降低了365bet 网站_365bet 收不到验证_365bet体育在线滚球处理的成本。这套系统的核心是 Hive,一种能像365bet 网站_365bet 收不到验证_365bet体育在线滚球库一样存储365bet 网站_365bet 收不到验证_365bet体育在线滚球的类 SQL 处理系统。365bet 网站_365bet 收不到验证_365bet体育在线滚球处理在商用硬件上进行,使用 Map-Reduce 算法(专门为分布式处理设计的算法)。这些服务器通常被存放在365bet 网站_365bet 收不到验证_365bet体育在线滚球中心。但是,管理维护365bet 网站_365bet 收不到验证_365bet体育在线滚球中心和 Hadoop 套件的成本非常高。

  但最近,很多的存储和处理都转移到了云上,比如 Amazon Web Service (AWS) 和 Google Cloud Platform (GCP) 这些主流玩家。AWS 和 GCP 都提供受管理的 map reduce 或 spark 服务(AWS Elastic Map Reduce 以及 GCP Cloud data proc)。他们也提供大规模可扩展的365bet 网站_365bet 收不到验证_365bet体育在线滚球库服务(分别是 Google Big Query 和 AWS Redshift),能为 PB 级的365bet 网站_365bet 收不到验证_365bet体育在线滚球集提供关系型365bet 网站_365bet 收不到验证_365bet体育在线滚球库服务。这些解决方案最大的优点是用户不用管理底层的硬件,可以专注于更重要的任务,如存储 / 移动365bet 网站_365bet 收不到验证_365bet体育在线滚球或者是写 SQL。这个生态中的典型玩家是 Snowflake,在 AWS 中提供即买即用的365bet 网站_365bet 收不到验证_365bet体育在线滚球处理服务。

  复杂365bet 网站_365bet 收不到验证_365bet体育在线滚球

  “大365bet 网站_365bet 收不到验证_365bet体育在线滚球”的第三个特征是复杂。在解释什么造成了365bet 网站_365bet 收不到验证_365bet体育在线滚球的复杂性前,我先讲下理想的365bet 网站_365bet 收不到验证_365bet体育在线滚球集是什么样的。理想的365bet 网站_365bet 收不到验证_365bet体育在线滚球集有预先定义的 schema,每种365bet 网站_365bet 收不到验证_365bet体育在线滚球类型(string, number, date)都有定义好的主键,以及完善的365bet 网站_365bet 收不到验证_365bet体育在线滚球字典。365bet 网站_365bet 收不到验证_365bet体育在线滚球集中没有重复,所有的值都是精准的。

  复杂365bet 网站_365bet 收不到验证_365bet体育在线滚球的概念和理想365bet 网站_365bet 收不到验证_365bet体育在线滚球完全相反。所有365bet 网站_365bet 收不到验证_365bet体育在线滚球集都有一定的复杂性,但有一些天生更难处理。通常这些复杂365bet 网站_365bet 收不到验证_365bet体育在线滚球集没有定义结构(没有行列结构),经常变化,365bet 网站_365bet 收不到验证_365bet体育在线滚球质量很差或没有记录。

  比如人工输入的医生的笔记、博客的文字、时刻更新的网页日志以及深嵌套的 XML 或 JSON 文件。

  为复杂365bet 网站_365bet 收不到验证_365bet体育在线滚球做快速标注时,大多数不好的365bet 网站_365bet 收不到验证_365bet体育在线滚球应该在源头就进行识别。365bet 网站_365bet 收不到验证_365bet体育在线滚球工程师需要构建足够强壮的系统来快速获取和过滤这些365bet 网站_365bet 收不到验证_365bet体育在线滚球集,但是这些365bet 网站_365bet 收不到验证_365bet体育在线滚球最终还是要在源头纠正。此外,如果可以,我们建议在365bet 网站_365bet 收不到验证_365bet体育在线滚球产生的源头定好 SLA 来减少低质量的365bet 网站_365bet 收不到验证_365bet体育在线滚球,使365bet 网站_365bet 收不到验证_365bet体育在线滚球更好管理。

  处理复杂365bet 网站_365bet 收不到验证_365bet体育在线滚球集,让它们能遵从整洁的格式需要下很大的功夫。每种365bet 网站_365bet 收不到验证_365bet体育在线滚球质量问题都需要区别处理,比如记录重复、主键缺失、字符 / 字符串的格式错误等。

  有很多工具可以用来处理这种365bet 网站_365bet 收不到验证_365bet体育在线滚球。通常365bet 网站_365bet 收不到验证_365bet体育在线滚球科学家和工程师会用 Jupyter notebook 以及 Pandas 或 Spark 来处理、分析、可视化这些365bet 网站_365bet 收不到验证_365bet体育在线滚球集。Jupyter 为开发者提供了交互式的环境使他们能在代码中逐行遍历365bet 网站_365bet 收不到验证_365bet体育在线滚球集,从而节省很多时间。Databricks 也提供了非常好的365bet 网站_365bet 收不到验证_365bet体育在线滚球处理和分析环境,包含了一个类似 Jupyter notebook 的 UI、独有的 Spark 特性、以及简单易用的节点管理能力。

  还有很多第三方的工具,比如 Trifacta,能够自动进行一些365bet 网站_365bet 收不到验证_365bet体育在线滚球清洗任务,通过提供 UI 和非常好的功能代替完全手写的365bet 网站_365bet 收不到验证_365bet体育在线滚球清洗代码,来加速清洗和分析任务。Google Cloud 在 GCP 中提供了这个工具 cloud Data Prep。

  小结

  可以看出,这些特征中的任何一个挑战都很难解决。但是,大多数的公司都经历着这三种问题的各种形态组合。挑战变得更庞大了,这需要衡量不同的工具和方法来解决他们特定的问题。

  向云服务的转移很大程度上降低了处理和管理大365bet 网站_365bet 收不到验证_365bet体育在线滚球的壁垒,公司不再需要建设365bet 网站_365bet 收不到验证_365bet体育在线滚球中心并且花大量的预算在专用软件上。但是招聘懂得如何使用正确的工具来处理大365bet 网站_365bet 收不到验证_365bet体育在线滚球问题的人才仍然是个难题。

  降低大365bet 网站_365bet 收不到验证_365bet体育在线滚球使用门槛的下一步是利用机器学习技术来理解365bet 网站_365bet 收不到验证_365bet体育在线滚球的结构以及监测365bet 网站_365bet 收不到验证_365bet体育在线滚球发生的变化。由于高技能人才将成为处理大365bet 网站_365bet 收不到验证_365bet体育在线滚球的瓶颈,未来 5-10 年间产生的下一代工具,很可能会关注这些特征。

标签:

责任编辑:bozhihua
在线客服