雅虎采用 Druid,Hadoop 不是“终结一切,成为一切”

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡/ 赠书活动

目前,正在 星球 内带小伙伴们做第一个项目:全栈前后端分离博客项目,采用技术栈 Spring Boot + Mybatis Plus + Vue 3.x + Vite 4手把手,前端 + 后端全栈开发,从 0 到 1 讲解每个功能点开发步骤,1v1 答疑,陪伴式直到项目上线,目前已更新了 204 小节,累计 32w+ 字,讲解图:1416 张,还在持续爆肝中,后续还会上新更多项目,目标是将 Java 领域典型的项目都整上,如秒杀系统、在线商城、IM 即时通讯、权限管理等等,已有 870+ 小伙伴加入,欢迎点击围观

在他们的 工程博客 上,雅虎宣布欢迎 Druid 加入其数据分析工具箱。该公司在十年前创建了 Hadoop,然后将其交给 Apache 基金会,它引用了 MapReduce 风格查询的缓慢、可访问性以及对“adhoc slice-n-dice”的渴望:将数百亿个事件扩展到一个天”和“实时摄取数据”作为采用它们的原因。

Druid 被描述为“专为 OLAP 查询设计的面向列的分布式流式分析数据库”,Druid 忠实于雅虎对开源项目的喜爱。 ADT Mag 报道称,Druid 受到 BigQuery、Dremel 和 PowerDrill 技术的影响,目前由 Druid Community 组织。

Druid.io 网站上,该数据库声称提供“大规模交互式分析”并且“专为分析而设计”。该数据库具有亚秒级查询和实时摄取等功能, 拥有 可扩展至以下规模的生产集群:

  • 3+万亿事件/月
  • 通过 Druid 的实时摄取,1M+ 事件/秒
  • 100+ PB 的原始数据
  • 30+万亿事件
  • 每秒对数千名用户使用的应用程序进行数百次查询
  • 数万个核心

雅虎并没有取代 Hadoop,而是合并了 Druid 来填补空白。 Hadoop 由 Doug Cutting 和 Mike Cafarella 于 2005 年创建。 Cutting 也是 Lucene 的创始人,他以他儿子的玩具大象的名字命名了 Hadoop。 Hadoop 的出现是对谷歌和雅虎搜索引擎的开源回答,Cutting 和 Cafarella 旨在为他们的项目 Nutch 设计这些引擎,他们需要在该项目中索引大量网页。由于 Google 文件系统和 Google MapReduce 研究论文的发布,Cutting 和 Cafarella 能够自动运行他们的项目。

当 Cutting 被雅虎聘用时,当时雅虎的搜索和广告首席架构师雷米·斯塔塔 (Raymie Stata) 与他签约,让他继续从事 Hadoop 方面的工作。雅虎的想法是保持该项目的源代码开放,并将其作为一种“通用”技术来支持,而不是严格地为搜索引擎保留。

目前使用 Hadoop 的公司 名单 包括 Facebook、谷歌、Adobe、LinkedIn、 纽约时报 、Spotify、Twitter 和 eBay。