在 IBM Bluemix 上开始使用 Apache Spark

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡/ 赠书活动

目前,正在 星球 内带小伙伴们做第一个项目:全栈前后端分离博客项目,采用技术栈 Spring Boot + Mybatis Plus + Vue 3.x + Vite 4手把手,前端 + 后端全栈开发,从 0 到 1 讲解每个功能点开发步骤,1v1 答疑,陪伴式直到项目上线,目前已更新了 204 小节,累计 32w+ 字,讲解图:1416 张,还在持续爆肝中,后续还会上新更多项目,目标是将 Java 领域典型的项目都整上,如秒杀系统、在线商城、IM 即时通讯、权限管理等等,已有 870+ 小伙伴加入,欢迎点击围观

最近,IBM 向 IBM Bluemix 添加了新 Apache Spark 服务的测试版。 Apache Spark 是一种用于大规模数据处理的快速通用引擎。 性能基准 表明它的速度可以比 Hadoop 快 100 倍。

Bluemix 上的 Spark beta 服务只能用作 Bluemix 上的 Apache Spark Starter 的 一部分,后者附带用于存储文件的 SWIFT 对象存储 服务和用于交互式和可重现数据分析和可视化的集成 Jupyter Notebook 。笔记本本质上是基于网络的 IDE,供数据科学家编程和记录他们的算法。

Spark Starter 包括三个示例笔记本,展示了如何使用 Python 和 Scala 作为编程语言。所有样本都使用需要上传到对象存储服务的可公开访问的天气数据。下面的屏幕截图来自样本,用于确定美国平均降水量最高的 10 个气象站。前三行数据被加载,然后条目的数量和第一个条目被打印出来。


要了解更多信息,请阅读我的同事 Luis Arellano 的文章 Introducing IBM Analytics for Apache Spark Top 5 Tips to get Started On Apache Spark