你相信你得到的见解吗?对大数据和分析的影响
💡一则或许对你有用的小广告
欢迎加入小哈的星球 ,你将获得:专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论
- 新开坑项目:《Spring AI 项目实战》 正在持续爆肝中,基于 Spring AI + Spring Boot 3.x + JDK 21..., 点击查看 ;
- 《从零手撸:仿小红书(微服务架构)》 已完结,基于
Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...
,点击查看项目介绍 ;演示链接: http://116.62.199.48:7070 ;- 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;
截止目前, 星球 内专栏累计输出 90w+ 字,讲解图 3441+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 3100+ 小伙伴加入学习 ,欢迎点击围观
您相信 从 大数据分析 中 获得的见解吗 ?您应该考虑哪些因素来决定您是否 可以信任 结果。在这篇文章中,我考虑了最重要的问题。 你 能 对 我提出的问题 回答是或 否吗 ?
信任 是一个如此强大的情感词。 在我加入 Informatica 负责 数据 质量研发 后不久 ,这是与我的新老板 Ivan Chong 的第一次谈话之一 ,我 问了这个 问题;与客户交谈时的 关键信息是什么?在他的回答中,他提到了 信任这个词 。 哇,如何 用一个词来 概括 DataProfiling 和 Data Quality 功能; 客户 可以 更加信任他们的数据。
作为 Oracle 的数据库迁移大师,我没有使用信任这个词,但我相信我试图表达同样的观点。我在 Oracle Migration Workbench 所做的事情中使用了等效性。如果您总共有 10 个表和 100 万行,当您迁移到 Oracle 时,您应该有相同的 10 个数据类型相同的表,并且存在相同的 100 万行。我提到过侵入性和非侵入性的变化。 Oracle 分区功能是非侵入性的,因为它对应用程序或用户是透明的。由于返回结果的及时性,用物化视图替换标准视图可被视为侵入性更改。这可能对应用程序和用户都很好,但它应该是经过深思熟虑的决定。
在 Singularities ,当我们将 基于 SaaS 的 解决方案 推向 针对商业 用户的 市场时 , 信任 我们正在做出的决策中的重要特征。 这些是我们 问 自己的 问题 :
我 信任 我的托管供应商吗?
由于 我们将 通过 SaaS 交付我们的 解决方案 ,因此我们必须提出这个 问题 。 如果我 查看当前的 市场领导者 Amazon Web Services ( AWS) ,我 会 在他们的网站上 看到一个涉及 安全性的 部分 。通过查看 他们的 功能列表和最近的 Forrester Wave™:公共云 平台 服务提供商的 安全性 , 2014 年 第 4 季度 ,他们被显示作为彻头彻尾的 领导者 。我有信心 可以 回答 对 那个问题 是的 。
我信任 我的 平台 吗 ?
为了 从 我们选择 Hadoop 的 平台 上获得 我们想要的 可伸缩性和开放性 。 我可以信任 Hadoop 吗?要 回答这个问题 ,您必须考虑 您将 选择 哪种 Hadoop 发行版 、 您将 如何 配置它以及托管供应商是否支持您选择的发行版。 在流行的 Hadoop 发行版 之一 Cloudera 中,我很高兴地发现:
-
Cloudera Navigator - 合规就绪 数据 治理
-
Cloudera 导航器 加密 - Hadoop数据 透明 加密
-
敏感数据 编辑 - 从 不需要的 地方删除敏感信息 。
我 想 我 可以 对 这个问题 回答 是 。
我信任我的原始数据 吗 ?
我 如何 信任我的原始数据 ?你不能 100% 信任 它,但你 可以 采取措施建立对它的信心。 如果我 戴上 Data Wrangler 的帽子,给我原始 数据 ,因为它来自生成它的实体。忘掉您的经典 数据 仓库技术,不要对其建模并挑选 IT 认为 最 有趣的 内容 。 请让我 这样做。 考虑到 Hadoop 是 一个可扩展的 平台 ,我通常会 以原始原始格式 保存 数据 ,直到找到可证明的洞察力。 然后 我 可以 优化数据 管道。 请 不要过滤或汇总 数据 ,因为我可能对寻找随 时间变化的模式(时间 序列分析)大海捞针感兴趣。有了 强大的 数据 处理 平台 , 让我 找到了那些宝贵的金针。使用 您选择的 数据 整理工具的 数据分析 功能 ,推动 数据 集质量改进或发现 数据 质量 问题。 使用这种方法,轻松地说 是 。
我信任我的 分析 吗 ?
我 使用了 哪些分析函数 ,为什么选择它们? 我使用了 哪些 参数 ? 对于机器 学习算法, 我 使用的 训练 集是什么 ? 它与我 现在 使用的 数据集 有很大不同吗 ?从 我们自己的 角度来看,Singularities 是一个基础完善的 平台 ,可以学习、存储 个人和实体的 全面而精确的 模型 并与之交互 ,因此它们 可以用于 刺激、预测、诊断和探索建议的应用程序,以影响他们 在不同场景下的 行为 。 奇点模型可以是 在自治系统中执行复杂操作的代理。
Singularities 基于强大的 信息建模 数学理论 。 它 使用 变量 和 信息 方程 来表示实体及其信念状态和 行为 。 对于奇点这个问题 , 我 可以 回答 是。
我相信我所看到的吗?
什么 可视化 工具显示从您信任的 分析 中获得的见解 ?它是实时访问这些见解还是使用缓存机制?在 选择包含在您的仪表板中的 可视化 中,您是否进行了任何预过滤 , 这在显示的结果中是不明显的?
本文阐述了要考虑的主要问题,您是否会 相信您所看到的那些 引人注目的 可视化效果 ?我不 认为信任 应该是假设的,它应该是 赚来的 。我 已经 指出了 5 个问题,您也应该 能够 回答是。
我们对您 对信任的想法 以及对大 数据 和 分析的 影响 很感兴趣 。您可以给我发电子邮件: donal.daly@singularities.com 。