最新新闻:
  • 一文让你分清数据管理与数据治理
  • 一份更好的云灾难恢复计划指南
  • 机器学习已经悄悄潜入你的生活,你可能还没有发现
  • 为什么人工智能可以下好围棋却写不好诗?答案在这
  • 启动大数据项目之前需要问的5个问题
  • 数据高端人才十一项全球最具权威的大数据资质认证
  • 云技能黑带:点评十大顶级云计算认证
  • 为什么大数据工程师会在2017年越过越滋润?
  • “新零售”的新能力
  • 关于“大数据”的15条干货思考
  • 如何设计成功而有价值的数据可视化
  • 论数据中心德赢官网vwin工作的提升技巧
  • 数据中心网络布线工程必备七大件
  • 网络钓鱼进化之路
  • 为什么我们不能再过度依赖网关了?
  • 对象存储九大关键特征
  • 人工智能会统治世界吗?马克思早就给出了回答
  • 企业如何实现互联网+业务与IT的融合
  • PaaS是位好同志,但SaaS公司搞PaaS却不大靠谱
  • 如何构建一个私有存储云
  • 这是网络安全的基石:密码学2016大盘点
  • 为何企业无法从数据科学中真正获得价值?
  • 云灾难恢复服务:客户想要“DR即服务”
  • 展望2017年:这些技术将冲击我们的生活
  • 2017年云计算和数据中心五大趋势
  • 年关将至,历数今年悲催的宕机灾难
  • 2017科技行业七大趋势:无人机远途送货 5G测试全面
  • 又到年终,看九大企业技术趋势
  • CIO们的2017——5大领域4个技术将遭遇颠覆
  • 大数据失败案例提醒:8个不能犯的错误
  • CIO:IT从德赢官网vwin到运营
  • 面对网络边界的迷失?在虚拟环境获得真实可视性是
  • 马云乌镇演讲实录:未来30年是谁的天下?
  • AI技术大力冲击就业市场 哪些工作将被自动化取代?
  • 2016热门数据存储技术
  • CIO:淘汰你的不是新技术,而是旧思维
  • 如何成为数据分析师
  • 十大IT工作和工程
  • 三大恶意软件的绝密藏身之地:固件、控制器与BIOS
  • 网络与应用基础设施如何协同发展
  • 云端迁移需注意的9大要点
  • 成功的安全分析你需要注意这五个要素
  • 没有IT流程文档 企业将为IT所“绑架”
  • 网络安全:要通过去,晓未来
  • 让IT安全人员夜不能寐的11个数据问题
  • 人工智能、机器学习、深度学习的区别在哪?
  • 如何让云德赢官网vwin变得简单
  • 互联网下半场战争已打响 谁会成为下一个超级独角兽
  • 奥运看完看什么?这里有关于奥运背后的大数据
  • 思科第四财季净利同比增21% 宣布裁员5500人
  • 数据中心网络德赢官网vwin一指禅
  • 数据中心虚拟化所必备的条件
  • 技术分享:十大服务器虚拟化优化窍门揭秘
  • 国内最适宜建设数据中心地区,原来在这里
  • 智能时代:物联网10个商业模式
  • 传统咨询业必死,拥抱大数据才是未来
  • 微软纳德拉:自然语言对话将淘汰菜单 成为APP用户
  • 解密 Uber 数据团队的基础数据架构优化之路
  • 大数据挖掘价值在哪里?
  • 物联网未来十年将重构这八大行业
  • 中国CIO肩负三大任务
  • CIO:云计算数据中心德赢官网vwin管理要点
  • 云计算:如何辨识真正的云业务
  • 如何看待互联网时代的网络金融安全?
  • “互联网+”的数据地图:沟壑的显现与超车的可能
  • 大数据与统计新思维
  • AT&T如何成为美国物联网市场老大?
  • 全球大数据发展呈现六大趋势
  • 传统企业将向大规模定制转型升级
  • 云计算市场未来将会是谁的天下?
  • 凯文·凯利:大数据时代没有旁观者
  • IaaS市场大整合:云用户喜忧参半
  • 大牛数据分析师养成日记
  • 一大波威胁报告来袭,我们从中能get到什么?
  • 如何建立各部门都满意的影子IT战略
  • 我经历的IT公司面试及离职感受
  • 恶意软件逃避反病毒引擎的几个新方法
  • 德赢官网vwin好数据中心的四大法宝
  • 云管理成功的关键:应用工作流
  • 豪车虚拟钥匙虽然很炫酷 但也给了黑客机会
  • 数据中心业务迁移面临的五大挑战
  • 在你想不到的暗网上,黑客雇佣市场正蓬勃发展
  • 12年程序员职业生涯得到的12个经验教训
  • 人人都谈大数据,你考虑过小数据的感受吗?
  • 作为数据科学家应该知道的11件事
  • 提高攻击成本的“网络安全检查表”有多牛?
  • 确保AWS安全:避免犯常见错误
  • 从菜鸟成为数据科学家的 9步养成方案
  • 数据分析工作常见的七种错误及规避技巧
  • 分析信息化现状 企业IT规划成关键
  • 这些数据科学技能,才是老板们最想要的
  • 职业生涯提升计划:迈入数据科学新世界
  • 你get了无数技能,为什么一事无成
  • 【概念】IT德赢官网vwin服务的概念与维保的区别
  • 见招拆招 六招抓住代维违规“黑手”
  • 数据中心德赢官网vwin工作的提升技巧
  • 如何做好高效IT德赢官网vwin
  • 高效能人士的七个习惯
  • 云计算如何改变IT德赢官网vwin管理的未来
  • 如何做好IT德赢官网vwin管理
  • 如何做好大型数据中心的德赢官网vwin
  • 有效的项目管理(三)
  • 有效的项目管理(二)
  • 2016年的十大技术趋势
  • 有效的项目管理(一)
  • 新浪创业&IT桔子盘点:2015年创业格局盘点上篇
  • 微软将在下周一口气停止对IE8 IE9和IE10的支持
  • 七字诀,不再憋屈的德赢官网vwin
  • 高效数据中心德赢官网vwin团队的7个习惯
  • 联通电信合并 促进竞争还是加强垄断?
  • 智能家居是CES重头戏 但物联网通信才是关键
  • 山东vwin德赢app下载恭祝大家元旦快乐
  • 杨元庆:应尽快出台个人信息保护法
  • IBM称不会放弃硬件业务
  • 习近平:把我国从网络大国建设成为网络强国
  • 传IBM启动新一轮裁员:至少波及1.3万人
  • 甲骨文与IBM纷纷展开并购 云计算倒逼转型加速
  • vwin德赢app下载公司恭祝大家新春快乐
  • vwin德赢app下载公司开通全国统一客服电话4008531853
  • vwin德赢app下载公司正式开通新浪企业微博
  • vwin德赢app下载微信订阅号正式上线
  • 山东vwin德赢app下载网络技术有限公司成功签约山东联通Sybase
  • 云计算战争中国开打:国际巨头落地公有云
  • 虚拟运营带给中国通信业的六个变化
  • 英特尔将推出15核服务器芯片
  • 4G发牌深入分析:移动互联网公司受益最大
  • 英将发报告“积极评价”华为 解除“安全警报”
  • 电子卖场衰落谋转型:IT+美食+时尚成趋势
  • 数据显示Win8全球市场份额继续下滑
  • 高交会风向:科技“恋不上”资本
  • 山东vwin德赢app下载网络技术有限公司成功中标济南移动服务器
  • 山东vwin德赢app下载网络技术有限公司顺利通过一般纳税人认定
  • 山东vwin德赢app下载网络技术有限公司正式开通官方网站
  • 数据分析工作常见的七种错误及规避技巧
    作者:admin  来源: 199it  发表时间:2016-3-22  点击:1850

      商业领域的数据科学家和侦探类似:去探索未知的事物。不过,当他们在这个旅程中冒险的时候,他们很容易落入陷阱。所以要明白,这些错误是如何造成的,以及如何避免。

      “错误是发现的入口。”——JamesJoyce(着名的爱尔兰小说家)。

     

      这在大多数情况下是正确的,但是对于数据科学家而言,犯错误能够帮助他们发现新的数据发展趋势和找到数据的更多模式。说到这儿,有一点很重要:要明白数据科学家有一个非常边缘的错误。数据科学家是经过大量考察后才被录用的,录用成本很高。组织是不能承受和忽视数据科学家不好的数据实践和重复错误的成本的。数据科学的错误和不好的数据实践会浪费数据科学家的职业生涯。数据科学家追踪所有实验数据是至关重要的,从错误中吸取教训,避免在未来数据科学项目中犯错。

      福尔摩斯有一句名言是如何定义侦探的,而数据科学家在商业中的角色就类似侦探。

      “我是福尔摩斯,我的工作就是发现别人不知道的。”

      企业要想保持竞争力,它必须比大数据分析做的更多。不去评估他们手中的数据质量,他们想要的结果,他们预计从这种数据分析中获得多少利润,这将很难正确地找出哪些数据科学项目能够盈利,哪些不能。当发生数据科学错误时,一次是可以接受的,考虑到有一个学习曲线,但是如果这些错误发生在两次以上,这会增加企业成本。

      避免常见的数据科学错误:

      1、相关关系和因果关系之间的混乱

      对于每个数据科学家来说,相关性和因果关系的错误会导致成本事件,最好的例子是《魔鬼经济学》的分析,关于因果关系的相关性错误,导致伊利诺斯州给本州的学生发书,因为根据分析显示家里有书的学生在学校能直接考的更高分。进一步分析显示,在家里有几本书的学生在学业上能表现的更好,即使他们从来没有读过这些书。

      这改变了之前的假设和洞察:父母通常买书的家庭,能营造愉快的学习环境。

      大部分的数据科学家在处理大数据时假设相关关系直接影响因果关系。使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用“因果”类比可能导致虚假的预测和无效的决定。要想实现利用大数据的最好效果,数据科学家必须理解相关关系和根源的区别。关联往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。在数据科学,这是两个完全不同的事情,但是许多数据科学家往往忽视了它们的区别。基于相关性的决定可能足以采取行动,我们不需要知道原因,但这还是完全依赖于数据的类型和要解决的问题。

      每位数据科学家都必须懂得——“数据科学中相关关系不是因果关系”。如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。

      2、没有选择合适的可视化工具

      大部分的数据科学家专心学习于分析的技术方面。他们不能通过使用不同的可视化技术理解数据,即那些可以令他们更快获得洞察力的技术。如果数据科学家不能选择合适的可视化发展模型,监控探索性数据分析和表示结果,那么即使是最好的机器学习模型,它的价值也会被稀释。事实上,许多数据科学家根据他们的审美选择图表类型,而不是考虑数据集的特征。这个可以通过定义可视化的目标避免。

      即使数据科学家开发了一个最优秀和最好的机器学习模型,它也不会大叫说“尤里卡”——所有这些所需要的是结果的有效可视化,可以理解数据模式的不同,和意识到它的存在可以被利用来获得商业成果。常言道“一张图片胜过1000个单词。”——数据科学家不仅要熟悉自己常用的数据可视化工具,也要理解数据有效可视化的原理,用令人信服的方式获得结果。

      解决任何数据科学问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达,可以形成分析基础和建立相应模型。

      3、没有选择适当的模型-验证周期

      科学家认为,建立了一个成功的机器学习模型,就是获得了最大程度的成功。但是,这只是成功了一半,它必须要确保模型的预测发挥作用。许多数据科学家经常忘记或者倾向性的忽视这样的事实,就是他们的数据必须在指定的时间间隔进行反复验证。一些数据科学家经常犯的一个普遍性错误:如果和观察到的数据吻合,就认为预测模型是理想的。已建立的模型的预测效果可以因为模型的关系在不断变化而瞬间消失。为了避免这种情况,数据科学家最好的解决方式就是每个小时都对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。

      由于几个因素,模型的预测能力往往会变弱,因此数据科学家需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。有实例即数据科学家可以重建数据模型。能建立几个模型和解释变量的分布总是更好的,而不是考虑单个模型是最好的。

      为了保留已建模型的预测效果和有效性,选择迭代周期是非常重要的,如果做不到,可能会导致错误的结果。

      4、无问题/计划的分析

      数据科学协会主席MichaelWalker说:“数据科学的最高级用途就是设计实验,提出正确的问题和收集正确的数据集,一切工作都要根据科学的标准。然后你将获得结果,并解释它。”

      数据科学是一个结构化的过程,以明确的目标开始,随后出现一些假设的问题,最终实现我们的目标。数据科学家往往站在数据之上而不考虑那些需要分析回答的问题。数据科学项目必须要有项目目标和完美的建模目标。数据科学家们如果不知道他们想要什么——最终得到的分析结果将会是他们不想要的。

      大多数数据科学项目最终是回答“是什么”的问题,这是因为数据科学家通过手头的问题作分析而不遵循做分析的理想路径。数据科学是使用大数据回答所有关于“为什么”的问题。数据科学家应该通过整合以前未被整合的数据集,主动分析给与的数据集,回答以前没人解答的问题。

      为了避免这种情况,数据科学家应该集中精力获得正确的分析结果,这可以通过明确实验,变量和数据准确性和清晰明白他们想要从数据中获得什么实现。这将简化以往通过满足假设的统计方法来回答商业问题的过程。引用伏尔泰的一句话——“判断一个人,是通过他的问题而不是他的答案。”——先确定明确的问题是及其重要的,能够实现任何企业的数据科学目标。

      5、仅关心数据

      根据博思艾伦咨询公司的数据科学家KirkBorne,“人们忘记在数据的使用,保护以及统计产生的问题如认为相关关系就是因果关系会产生伦理问题。人们忘记了如果你处理的数据足够长,它就会告诉你任何事,如果你有大量的数据,那么你就可以找到相关关系。如果人们拥有大数据他们会相信他们看到的任何事情”。

      数据科学家常常因为得到来自多个数据源的数据而兴奋,并开始创建图表和可视化来做分析报告,忽视发展所需的商业智慧。这对任何组织来说都是危险的事情。数据科学家经常给与数据太多决策制定的权力。他们不够重视发展自身商业智慧,不明白分析如何令企业获益。数据科学家应该不仅仅让数据说话,而且善于运用自身的智慧。数据应该是影响决策的因素而不是数据科学项目决策制定的最终声音。企业雇佣的数据科学家应该是可以将领域知识和技术特长结合起来的,这是避免错误的理想情况。

      6、忽视可能性

      数据科学家经常倾向性忘记方案的可能性,这将导致作出更多的错误决策。数据科学家经常犯错,因为他们经常说,如果企业采取了X操作一定会实现Y目标。对于特定的问题这没有唯一的答案,因此要确认数据科学家从不同可能性中所做的选择。对指定问题存在不止一个可能性,它们在某种程度是不确定的。情景规划和可能性理论是数据科学的两个基本核心,不应该被忽视,应该用以确认决策制定的准确性频率。

      7、建立一个错误人口数量的模型

      如果一个数据项目的目的是建立一个客户影响力模式的模型,但是他们仅仅考虑那些具有高度影响力的客户的行为数据,这不是对的做法。建立该模型不仅要考虑那些具有高度影响力的客户的行为数据,也要考虑那些不怎么有影响力但是具有潜在影响力的客户的行为数据。低估任何一边人口的预测力量都可能导致模型的倾斜或者一些重要变量的重要性下降。

      这些都是数据科学家在做数据科学时常见的错误。如果你能想到的任何其他常见的数据科学错误,我们很乐意在下面的评论听到你的想法。(责编:pingxiaoli)

    微信扫一扫

    关注vwin德赢app下载订阅号

    服务项目

    维保德赢官网vwin服务

    信息系统集成服务

    机房搬迁服务

     
     
     
     
    电话:
    0531-88818533
    客服QQ
    2061058957
    1905215487