数据科学:你已经知道的东西会伤害你

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡/ 赠书活动

目前,正在 星球 内带小伙伴们做第一个项目:全栈前后端分离博客项目,采用技术栈 Spring Boot + Mybatis Plus + Vue 3.x + Vite 4手把手,前端 + 后端全栈开发,从 0 到 1 讲解每个功能点开发步骤,1v1 答疑,陪伴式直到项目上线,目前已更新了 204 小节,累计 32w+ 字,讲解图:1416 张,还在持续爆肝中,后续还会上新更多项目,目标是将 Java 领域典型的项目都整上,如秒杀系统、在线商城、IM 即时通讯、权限管理等等,已有 870+ 小伙伴加入,欢迎点击围观

Einstellung 效应 是一种心理现象,它改变了我们寻求解决方案的方式并阻碍了创新。

我们每天都在解决问题——从选择最快的工作方式到我们将如何为那个客户解决问题。我们怎么知道我们的解决方案是否有用?如果有一个我们还没有想到的更好的解决方案怎么办?

我最近看到一封求职信,其中有人说,“每个解决方案最终都会找到我”。这让我觉得很奇怪。我们无法了解每个解决方案;我们都有未知的未知数。但更进一步,已知的知识甚至可能无法为某个问题建立联系。可能会出现 Einstellung 效应,使我们无法考虑所有可用的解决方案。

Einstellung 效应发生在先前存在的知识阻碍一个人达到最佳解决方案的能力的地方。当我们认为我们已经有了一个解决方案时,我们就无法考虑其他解决方案,即使它可能不准确或最佳。它让我们在认知上无法区分以前的经验和当前的问题。所以我们可能会解决一个问题,但我们实际上并没有创新。

Einstellung 是一个德语单词,意为环境、心态或态度。大脑试图通过参考过去的解决方案来有效地工作,而不会过多地考虑当前的问题。它陷入了一种心态。我们将以前的方法应用于一个看似相似的问题,而不是根据问题本身来评估问题。这种影响跨学科和技能水平。不管我们是否知道,我们都经历过。

实验

用来验证这种效果的经典实验是 Abraham Luchins 在 1942 年进行的——水罐问题。

参与者被分成两组,一组在核心问题之前先回答几个启动问题。启动问题将第一组的注意力引向解决方案的特定方法。当遇到核心问题时,无法用相同的技术解决的问题,他们无法解决。另一方面,第二组的参与者在没有入门的情况下被问到相同的核心问题,而且往往能够找到最佳解决方案。 (你可以 在这里 找到问题。你自己试试吧!)

另一个实验涉及 分析棋手 和他们在棋盘上的眼球运动。参与者再次被分成两组,第一组在棋盘上有一个次优解决方案和一个最优解决方案,另一组只有一个最优解决方案。具有次优解决方案的小组继续查看与找到的解决方案相关的方块,尽管他们提到他们正在积极寻找更好的解决方案。他们的目光落在了已知的解决方案上。 Einstellung 效应使他们无法以公正的眼光看待棋盘,尽管他们是有意这样做的。

这种影响表明,一旦我们获得了经验,我们就越有可能陷入其影响的陷阱而无法评估每个问题的优点。我们需要询问与这个问题的根本区别是什么,并无偏见地评估每个新问题。防止我们的大脑进入机械化的自动驾驶状态。导致这些错误的不是缺乏知识,而是根据以前的经验形成的初步想法。

在数据科学

数据科学是一个新兴领域,新技术和方法似乎每天都在涌现。但要小心,因为趋势方法可能会影响我们的判断。这些新工具和想法可以像闪亮的物体,即使它不是解决我们问题的正确工具,我们也无法将目光移开,例如为了使用流行的东西或“大数据”而使用 Hadoop 和 NoSQL 等工具' 联系。我们没有充分利用较小的数据集,而是在没有充分推理或准备的情况下跳入未开发数据的海洋。或者通过盲目地使用当天的趋势算法来解决问题。 (循环神经网络和随机森林如今风靡一时。)这可能会导致解决方案失明,尤其是在流程中过早添加智能时。有时我们围绕解决方案形成问题,而不是相反。

Einstellung 效应也会在确认偏差的背景下出现,在这种情况下,我们会忽略不支持我们对模型或假设的初始表示的结果。特征和模型选择需要反映对数据的准确描述。探索性数据分析是数据科学中经常被忽视的关键阶段。在寻求解决方案之前,我们需要以各种方式探索和可视化数据,以消除先入为主的观念。

“好是伟大的敌人。” ——伏尔泰

虽然有点极端,但这个问题与 JK Simmon 在最近的电影 Whiplash 中扮演的角色的哲学是同义的:“英语中没有两个词比‘干得好’更有害。”一个人满足于局部最大值而不是绝对最大值。

解决方案

我们的大脑正在破坏我们想出新点子的能力!我们对于它可以做些什么呢?打破格局。

分心

通常,当我们想到天才时,他们是具有大量工作记忆的人。他们能够在一个时间点处理更多。然而,工作记忆,即前额叶皮层,可以阻止其他记忆建立联系,从而阻碍创造性思维。一个著名的创作过程看起来像这样:

  1. 收集尽可能多的信息
  2. 想出点子——它们不会很好
  3. 忘记项目并考虑或做其他事情。

第三点是提出新颖解决方案和绕过 Einstellung 效应的关键。暂时将注意力从手头的任务上移开,可以有效地激活大脑皮层,让您脱离工作记忆,去探索新的想法和联系。

交织

与分心类似,交错是一种在正在进行的任务之间切换以提高记忆力、保留力和学习能力的技术。它允许一个主题在您的脑海中渗透并提取一般规则。这不要与多任务处理相混淆。它同样可能导致生产力下降,因为在项目和思维模式之间切换可能很耗时。但是,如果能找到更好的解决方案,那么跳入和跳出问题的额外好处可能会大大超过所需的时间。保持灵活性并允许自己探索从一开始就不一定有希望的路径是让您的思维发现问题的新维度的好方法。

合作

合作,获得不同的观点,是打破陈规的好方法。我喜欢的一种方法是让多人分别研究一个初始概念,然后汇集他们的发现并探索彼此的公正想法。如果过早提出解决方案,可能会导致其他人受到 Einstellung 效应的影响。

数据科学领域缺乏有意义的协作工具。数据科学涵盖广泛的知识领域,很多时候需要不止一个视角。有像 Kaggle 这样的竞赛,人们可以在项目上一起工作,但是有意义的协作工具不仅可以让数据科学家在数据集上相互合作,还可以跟踪过程中做出的决策。例如,可视化重新设计可以从中受益匪浅。 Edward Tufte 对挑战者数据的重新设计 有效地显示了事后想要的结果。但他对结果的了解而不是对过程中做出的决定的了解导致了不公平的批评。大部分数据都被遗漏了,以突出显示导致灾难的主要数据点。

在生产环境中,有时真的足够好。获得最佳解决方案可能不值得付出额外的努力。以目前的技术甚至可能无法实现。边际收益可能不值得花费时间来找到更好的解决方案。关键在于了解权衡和何时探索。反复出现的问题是探索是否有更好的解决方案的最佳选择,因为它可能指日可待。

认知网络

在 Exaptive,我们正在努力促进的一件事是一种更好的方法来发现围绕数据的新颖创新。我们想要消除我们领域中的 Einstellung 效应,并消除任何相关的效率损失。 (嘿,有远大的目标是件好事。)我们相信类似于建议引擎的东西是各种数据从业者所需要的。除了建议新方法外,正确的建议引擎还会揭示设计这些方法的潜在合作者。我们喜欢称之为 认知网络 ——一个值得单独发表的概念——允许人们以各种方式与不同的合作者一起探索数据,并提出不同的方式来思考问题。

认知网络的核心是关注连接,如果 Einstellung 效应与它有任何关系,这些连接就不会建立。联系让我们知道什么时候适合特定应用,在哪里应用技术,或者将概念转化为另一个领域或研究领域。它们是通过用途和意义将信息片段粘合在一起的粘合剂。这样的联系对创新至关重要,缺少一个联系是有害的。

我们应该留出一些时间来确定我们是否正在接受一个已知的、足够好的解决方案,或者我们是否正在以清晰的眼睛评估问题并查看所有解决方案。归根结底,我们可能仍未考虑所有解决方案。然而,即使出现了明显的解决方案,也要注意 Einstellung 效应并接受新方法,这将有助于在我们传统的思维方式之外找到这些解决方案并带来创新。


来源

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0075796

http://dspace.brunel.ac.uk/bitstream/2438/2276/1/Einstellung-Cognition.pdf