400-0011-866
太阳城娱乐官网 > 我司 > 行业资讯 > 数据分析

关于数据科学的十大误区

时间:2019-01-03  来源:数据分析  浏览数:4

数据科学现在被用作竞争武器。正如可以改变公司运营方式的其他技术和流程一样,有很多相互矛盾的信息会引起相当大的混乱。

今天的大多数业务领导者都听说过数据科学可以提高运营效率和客户关系,但并不总是清楚如何实施数据科学或具体的业务收益。

什么是数据科学?

数据科学是一个总括性术语,包括当今最热门的主题,如机器学习,分析,建模和数据可视化。在实践中,数据科学是一个过程。它从一个假设开始,然后收集数据,希望产生有价值的见解。收集数据后,它将用于检验假设

并建立模型。最后,分析结果并作为报告或仪表板呈现给决策者。

这些模型倾向于近似现实世界中的事件或行为,用于做出重要决策。例如,流失检测模型通常用于预测哪些客户面临向竞争对手叛逃的最高风险,因此企业可以采取预防措施。根据具体情况,预防措施可以采取来自经理的电话,折扣订阅续订率或优惠券的形式。

不幸的是,没有单一的数据科学定义,但许多数据科学家和供应商将其描述为一个过程,类似于上面提出的定义和工作流程。有些人认为数据科学是统计建模或分析的同义词(识别数据中的模式并通过仪表板显示结果),这只会增加混乱。建模和分析是数据科学过程的子集。

好消息是,企业可以选择在组织中实施数据科学的方式,因为没有“正确”的方法。数据科学的实施方式取决于许多因素,包括组织可用的专业知识,工具和数据。数据科学最有效的实现往往始于业务目标并与之保持一致。

经验丰富的数据科学家了解这些细微差别 这种理解促进了清晰度 不幸的是,围绕数据科学存在许多神话,这些神话在澄清道路上起到了障碍作用。通过面对这些神话,我们希望更多的组织,特别是有开发团队的组织,将实施数据科学。

误区1:很难找到数据科学家

数据科学家的短缺在媒体中得到了很好的记录。事实上,Fast Company和其他人引用了麦肯锡的一份报告,该报告预测到2024年美国仅有250,000名数据科学家短缺。今天的许多公司都在竞争“真正的”数据科学家或“独角兽”。独角兽是罕见的生物数学或统计学研究生学位(博士学位优先),强大的编程技能和扎实的专业知识。很少有候选人在这三个领域拥有深厚的专业知识,这就是数据科学家短缺的原因。为克服这一障碍,一些组织正在尝试开发一种结合了几个人的专业知识的数据科学实践。

一个常见的错误是在必要之前聘请专业知识,如博士级统计学家或数据科学家。公司决策者认为公司需要这样的人才能获得竞争优势,但目前还不清楚该人应该做什么以及为谁做什么。缺乏使命和目的的是统计学家或数据科学家,他们渴望对业务产生积极影响,但不可能从另一个雇主那里得到更好的报价。这就是为什么雇用专业人才比保留专业人才更容易的原因。

大多数组织可以在没有高度专业化的专业知识或昂贵的软件的情况下开始获得数据科学的好处,但通常他们不知道从哪里开始。我们建议您向内部寻找并从软件开发团队开始。根据我们的经验,软件开发团队可以接受培训,以接受数据科学任务。

误区2:数据科学仅适用于大型组织

大型组织通常拥有构建正式数据科学实践所需的财务资源。但是,这并不意味着他们的数据科学实践将会成功。

当这些大型组织取得成功时,媒体喜欢将它们作为公司可以实现的例子,例如更有效地竞争,提高运营效率,甚至扰乱整个行业。由于大型品牌公司通常被定位为其行业的领导者,因此中小型企业(SMB)可能认为数据科学需要对昂贵的软件和使用该软件所需的专业知识进行大量投资。

事实上,数据科学既不需要这些东西。在这个领域,巨大的资源并不能保证成功。智能资源。如果由合格的团队正确实施,各种规模的组织都可以在数据科学活动中取得成功。

误区3:数据科学只是一个流行语

商业领袖,记者和行业分析师很快就会使用最新的术语。由此产生的噪声使得难以辨别工业炒作和经得起时间考验的技术或工艺。鉴于近来关于数据科学的极度炒作,有些人认为它只是另一个流行词或时尚,这并不奇怪。

然而,数据科学不是流行语或时尚。它是经过时间考验的学科的汇合,包括统计和预测,几个世纪以来一直以某种形式存在。例如,精算师和气象学家长期以来一直使用模型来预测风险和天气。现在,几乎每个行业的企业都在尝试使用数据来提高绩效。

将数据科学与其前身(包括精算科学和统计学)区分开来的一些事情是可以获得可以廉价存储的大量数据,强大的计算能力以及对预定义模型的快速访问。与过去相比,组织可以比以往更多地了解自己,市场和客户,因为他们需要的数据丰富,易于复制,易于共享,并且相对容易处理。这些功能与当今强大的编程环境相结合,使开发人员可以对数据的操作,清理,预处理,分析和可视化方式进行大量控制。

误区4:复杂模型比简单模型更好

决策树,统计回归和线性回归并不新鲜,因此与深度学习和神经网络相比,媒体对它们的关注较少。深度学习和神经网络使用的复杂模型比用于解决更简单问题的模型要复杂得多,因为它们试图模拟任意复杂的函数。

由于一些原因,复杂模型不一定比简单模型更好。首先,如果问题相对简单,复杂模型的效率可能低于简单模型。其次,复杂的模型在处理能力方面可能是昂贵的。最后,复杂的模型可能导致难以或无法解释的黑盒方法。虽然黑盒解决方案的结果可能是“好的”,但黑盒解决方案不允许用户探索如何得出结果。如果用户无法探索结果的来源,他们就无法理解其中的内容。如果他们无法理解导致结果的原因,他们无法解释细节,这是不好的,特别是在审计方案中。

更简单的模型更容易理解和解释。例如,可以使用相对简单的逻辑回归模型来预测哪些潜在客户可能会购买您的产品。

一个常见的错误是认为复杂模型在所有情况下都必然会产生比简单模型更好的结果。但是,不必要的复杂性会导致收益递减。在这种情况下,最好花更少的时间来调整模型,花更多的时间来理解和清理数据。

误区5:数据科学需要对统计和统计方法有深刻的理解

虽然数据科学确实需要了解统计数据,但企业可以利用数据科学而无需统计人员。大多数开发人员对统计学有基本的了解,因为他们在大学里至少学过一门课程。

如果您是一名负责在组织中构建数据科学功能的开发人员,或者您希望自己开始构建功能,那么刷新或增加统计知识是明智的,这样您就可以了解常用的基础知识楷模。

你不必参加正式课程。你不必攻读研究生学位。本白皮书末尾提到的电子书和其他资源将帮助您了解基础知识。有了这些知识,您将能够构建对您的组织有意义的模型。

如果您想稍后修改模型,您可能需要多学习一点,以便了解特定假设如何影响您正在做的事情。

误区6:受监管公司无法利用数据科学

受监管的公司必须小心他们使用的信息以及他们如何使用它们。但是,这些限制并不意味着受监管的公司无法利用数据科学或构建模型。

例如,医院正在使用数据科学来改善患者护理,紧急分诊和成本控制。同样,金融服务,石油和天然气以及制药等其他受监管行业的公司也在不使用法律禁止的信息的情况下从数据科学中受益。

但请注意推理。出于特定目的,您的公司可能被禁止使用某些类型的信息,例如个人身份信息(PII)。然而,可以通过组合不受限制的其他数据点来推断敏感信息。此类使用可能会使您的公司面临监管罚款和损害赔偿。

您可以通过避免不必要的属性来最小化此类风险的可能性,这些属性允许推断个人信息,这可能是法律禁止的。例如,如果将收入作为歧视的依据是非法的,那么可以从她的邮政编码,汽车品牌和型号等推断出一个人的近似收入水平。

即使法律不禁止某些类型的个人信息,它们的使用也可能具有品牌损害性。例如,福布斯报道Target根据她的购买习惯推断出一名少女的怀孕。基于这种洞察力,Target将相关的优惠券发送到女孩的家庭住址,由她毫无戒心的父亲发现。

因为推理可以打开法律和其他风险的大门,组织应该了解他们的数据可以推断出什么以及相关风险是什么。

误区7:数据科学工具太贵了

一些最复杂的数据科学产品购买成本极高且难以使用。但是,为了从数据科学中受益,没有必要在软件上投入数百万美元。

16 /如何-

首先,有许多比较实用的,如我司华辰的数据分析软件我司BI,易上手,功能强大。

还有一些商业产品比传统解决方案便宜得多。

您无需为昂贵的工具预算来利用Data Science。

误区8:数据科学需要大规模的计算能力

大数据和人工智能炒作给人的印象是数据科学需要大规模并行GPU加速的机器或大型集群。虽然大型深度学习和神经网络有时需要这种计算能力,但许多用例却没有。

使用简单模型可以解决的问题可能只需要具有64 GB或128 GB RAM的PC。如果这还不够,那么在云上花费两三个小时可能就是构建和测试模型所需的全部内容。如果数据处理或数据清理要求超出单个节点的容量,则可能还需要云环境(如腾讯云或阿里云)。

从本质上讲,根据需要扩展计算资源比过度设计比问题需要的更复杂和更昂贵的计算环境更具成本效益。

误区9:数据无法货币化,因为它是难以使用的格式

数据优先的公司,如谷歌和Facebook,都是数据货币化的主人。他们收集了大量的信息,以丰厚的利润出售给各方。

一些中小型企业认为数据货币化只是行业巨头可以做的事情,因为他们是数据优先的公司。但是,大多数企业都拥有宝贵的客户数据,可用于改善公司运营,并可能带来新的收入来源。例如,大多数公司都有交易信息,无论是客户订单还是信用卡销售。他们可能还从他们的网站或呼叫中心获得客户服务记录,并支持门票。然而,许多企业无法有效利用这些数据,更不用说将其货币化了。

事实上,通过建模或分析数据可能会从数据中看出什么是不清楚的。更糟糕的是,数据可能无法轻易访问,因为它存储在各种数据库,纸上或尚未互连的业务系统中。

部分问题可以使用数据集成平台解决。使用集成平台,组织能够连接点,这意味着他们的洞察力超越了存储在任何一个系统中的数据。使用这种方法,组织可以更好地优化业务流程和客户旅程。常见的连接包括销售,营销和客户支持,尽管该信息也可以与供应链信息和其他系统的信息相关联。

趋势信息(例如天气,交通和客户购买模式)通常被买卖,以提高销售,营销或运营效率。将这些数据货币化的公司通常会对其进行转换,以便其他应用程序可以轻松使用它(这是数据集成平台所做的一部分)。然后,数据通过API提供给第三方。

简而言之,数据集成平台降低了信息共享和货币化的障碍。

误区10:数据科学难以采用,因为它很复杂

数据科学可能是一项非常复杂的任务,但并非必须如此。事实上,最好简单地开始,用它推动成功,然后扩展你的能力。

许多组织首先汇总他们认为有价值的数据,从中收集一些见解,并通过报告和仪表板将这些见解推广给决策者。之后,他们开始在数据之上构建模型,以推动新的和更细粒度的洞察力。

虽然没有单一的“正确”路径可以采用数据科学,但是当更简单的解决方案更优雅,更有效且更具成本效益时,错误的路径不可避免地会使问题过于复杂。

结论

数据科学不一定是一项复杂而昂贵的工作,需要强大的博士学位。您现在拥有的软件开发功能可以提供您曾经认为不可能的宝贵见解,而无需在额外资源上进行大量投资。

克服组织障碍的一种方法是通过对统计数据的基本了解来补充您的计算机科学和业务领域专业知识,以便您可以开始构建有益于您组织的模型。随着业务需求的增长,您可以扩展您的知识,帮助您的公司走上成功的数据科学之路。



联系
电话

您好,商务咨询请联系

渠道咨询电话:137-0121-6790

直销热线电话:137-0121-6791

技术
支持

您好,技术支持请联系

QQ:400-0011-866

(工作日9:00-18:00)