你相信你得到的见解吗?对大数据和分析的影响

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡/ 赠书活动

目前,正在 星球 内带小伙伴们做第一个项目:全栈前后端分离博客项目,采用技术栈 Spring Boot + Mybatis Plus + Vue 3.x + Vite 4手把手,前端 + 后端全栈开发,从 0 到 1 讲解每个功能点开发步骤,1v1 答疑,陪伴式直到项目上线,目前已更新了 204 小节,累计 32w+ 字,讲解图:1416 张,还在持续爆肝中,后续还会上新更多项目,目标是将 Java 领域典型的项目都整上,如秒杀系统、在线商城、IM 即时通讯、权限管理等等,已有 870+ 小伙伴加入,欢迎点击围观

您相信 大数据分析 获得的见解吗 ?您应该考虑哪些因素来决定您是否 可以信任 结果。在这篇文章中,我考虑了最重要的问题。 我提出的问题 回答是或 否吗

信任 是一个如此强大的情感词。 在我加入 Informatica 负责 数据 质量研发 后不久 ,这是与我的新老板 Ivan Chong 的第一次谈话之一 ,我 问了这个 问题;与客户交谈时的 关键信息是什么?在他的回答中,他提到了 信任这个词 哇,如何 用一个词来 概括 DataProfiling Data Quality 功能; 客户 可以 更加信任他们的数据。

作为 Oracle 的数据库迁移大师,我没有使用信任这个词,但我相信我试图表达同样的观点。我在 Oracle Migration Workbench 所做的事情中使用了等效性。如果您总共有 10 个表和 100 万行,当您迁移到 Oracle 时,您应该有相同的 10 个数据类型相同的表,并且存在相同的 100 万行。我提到过侵入性和非侵入性的变化。 Oracle 分区功能是非侵入性的,因为它对应用程序或用户是透明的。由于返回结果的及时性,用物化视图替换标准视图可被视为侵入性更改。这可能对应用程序和用户都很好,但它应该是经过深思熟虑的决定。

Singularities ,当我们将 基于 SaaS 的 解决方案 推向 针对商业 用户的 市场时 信任 我们正在做出的决策中的重要特征。 这些是我们 自己的 问题

信任 我的托管供应商吗?

由于 我们将 通过 SaaS 交付我们的 解决方案 ,因此我们必须提出这个 问题 如果我 查看当前的 市场领导者 Amazon Web Services ( AWS) ,我 在他们的网站上 看到一个涉及 安全性的 部分 。通过查看 他们的 功能列表和最近的 Forrester Wave™:公共云 平台 服务提供商的 安全性 2014 年 第 4 季度 ,他们被显示作为彻头彻尾的 领导者 。我有信心 可以 回答 那个问题 是的

我信任 我的 平台

为了 我们选择 Hadoop 的 平台 上获得 我们想要的 可伸缩性和开放性 我可以信任 Hadoop 吗?要 回答这个问题 ,您必须考虑 您将 选择 哪种 Hadoop 发行版 您将 如何 配置它以及托管供应商是否支持您选择的发行版。 在流行的 Hadoop 发行版 之一 Cloudera 中,我很高兴地发现:

可以 这个问题 回答

我信任我的原始数据

如何 信任我的原始数据 ?你不能 100% 信任 它,但你 可以 采取措施建立对它的信心。 如果我 戴上 Data Wrangler 的帽子,给我原始 数据 ,因为它来自生成它的实体。忘掉您的经典 数据 仓库技术,不要对其建模并挑选 IT 认为 有趣的 内容 请让我 这样做。 考虑到 Hadoop 是 一个可扩展的 平台 ,我通常会 以原始原始格式 保存 数据 ,直到找到可证明的洞察力。 然后 可以 优化数据 管道。 不要过滤或汇总 数据 ,因为我可能对寻找随 时间变化的模式(时间 序列分析)大海捞针感兴趣。有了 强大的 数据 处理 平台 让我 找到了那些宝贵的金针。使用 您选择的 数据 整理工具的 数据分析 功能 ,推动 数据 集质量改进或发现 数据 质量 问题。 使用这种方法,轻松地说

我信任我的 分析

使用了 哪些分析函数 ,为什么选择它们? 我使用了 哪些 参数 对于机器 学习算法, 使用的 训练 集是什么 它与我 现在 使用的 数据集 有很大不同吗 ?从 我们自己的 角度来看,Singularities 是一个基础完善的 平台 ,可以学习、存储 个人和实体的 全面而精确的 模型 并与之交互 ,因此它们 可以用于 刺激、预测、诊断和探索建议的应用程序,以影响他们 在不同场景下的 行为 奇点模型可以是 在自治系统中执行复杂操作的代理。

Singularities 基于强大的 信息建模 数学理论 使用 变量 信息 方程 来表示实体及其信念状态和 行为 对于奇点这个问题 可以 回答 是。

我相信我所看到的吗?

什么 可视化 工具显示从您信任的 分析 中获得的见解 ?它是实时访问这些见解还是使用缓存机制?在 选择包含在您的仪表板中的 可视化 中,您是否进行了任何预过滤 这在显示的结果中是不明显的?

本文阐述了要考虑的主要问题,您是否会 相信您所看到的那些 引人注目的 可视化效果 ?我不 认为信任 应该是假设的,它应该是 赚来的 。我 已经 指出了 5 个问题,您也应该 能够 回答是。

我们对您 对信任的想法 以及对大 数据 分析的 影响 很感兴趣 。您可以给我发电子邮件: donal.daly@singularities.com