最新新闻:
  • 一文让你分清数据管理与数据治理
  • 一份更好的云灾难恢复计划指南
  • 机器学习已经悄悄潜入你的生活,你可能还没有发现
  • 为什么人工智能可以下好围棋却写不好诗?答案在这
  • 启动大数据项目之前需要问的5个问题
  • 数据高端人才十一项全球最具权威的大数据资质认证
  • 云技能黑带:点评十大顶级云计算认证
  • 为什么大数据工程师会在2017年越过越滋润?
  • “新零售”的新能力
  • 关于“大数据”的15条干货思考
  • 如何设计成功而有价值的数据可视化
  • 论数据中心德赢官网vwin工作的提升技巧
  • 数据中心网络布线工程必备七大件
  • 网络钓鱼进化之路
  • 为什么我们不能再过度依赖网关了?
  • 对象存储九大关键特征
  • 人工智能会统治世界吗?马克思早就给出了回答
  • 企业如何实现互联网+业务与IT的融合
  • PaaS是位好同志,但SaaS公司搞PaaS却不大靠谱
  • 如何构建一个私有存储云
  • 这是网络安全的基石:密码学2016大盘点
  • 为何企业无法从数据科学中真正获得价值?
  • 云灾难恢复服务:客户想要“DR即服务”
  • 展望2017年:这些技术将冲击我们的生活
  • 2017年云计算和数据中心五大趋势
  • 年关将至,历数今年悲催的宕机灾难
  • 2017科技行业七大趋势:无人机远途送货 5G测试全面
  • 又到年终,看九大企业技术趋势
  • CIO们的2017——5大领域4个技术将遭遇颠覆
  • 大数据失败案例提醒:8个不能犯的错误
  • CIO:IT从德赢官网vwin到运营
  • 面对网络边界的迷失?在虚拟环境获得真实可视性是
  • 马云乌镇演讲实录:未来30年是谁的天下?
  • AI技术大力冲击就业市场 哪些工作将被自动化取代?
  • 2016热门数据存储技术
  • CIO:淘汰你的不是新技术,而是旧思维
  • 如何成为数据分析师
  • 十大IT工作和工程
  • 三大恶意软件的绝密藏身之地:固件、控制器与BIOS
  • 网络与应用基础设施如何协同发展
  • 云端迁移需注意的9大要点
  • 成功的安全分析你需要注意这五个要素
  • 没有IT流程文档 企业将为IT所“绑架”
  • 网络安全:要通过去,晓未来
  • 让IT安全人员夜不能寐的11个数据问题
  • 人工智能、机器学习、深度学习的区别在哪?
  • 如何让云德赢官网vwin变得简单
  • 互联网下半场战争已打响 谁会成为下一个超级独角兽
  • 奥运看完看什么?这里有关于奥运背后的大数据
  • 思科第四财季净利同比增21% 宣布裁员5500人
  • 数据中心网络德赢官网vwin一指禅
  • 数据中心虚拟化所必备的条件
  • 技术分享:十大服务器虚拟化优化窍门揭秘
  • 国内最适宜建设数据中心地区,原来在这里
  • 智能时代:物联网10个商业模式
  • 传统咨询业必死,拥抱大数据才是未来
  • 微软纳德拉:自然语言对话将淘汰菜单 成为APP用户
  • 解密 Uber 数据团队的基础数据架构优化之路
  • 大数据挖掘价值在哪里?
  • 物联网未来十年将重构这八大行业
  • 中国CIO肩负三大任务
  • CIO:云计算数据中心德赢官网vwin管理要点
  • 云计算:如何辨识真正的云业务
  • 如何看待互联网时代的网络金融安全?
  • “互联网+”的数据地图:沟壑的显现与超车的可能
  • 大数据与统计新思维
  • AT&T如何成为美国物联网市场老大?
  • 全球大数据发展呈现六大趋势
  • 传统企业将向大规模定制转型升级
  • 云计算市场未来将会是谁的天下?
  • 凯文·凯利:大数据时代没有旁观者
  • IaaS市场大整合:云用户喜忧参半
  • 大牛数据分析师养成日记
  • 一大波威胁报告来袭,我们从中能get到什么?
  • 如何建立各部门都满意的影子IT战略
  • 我经历的IT公司面试及离职感受
  • 恶意软件逃避反病毒引擎的几个新方法
  • 德赢官网vwin好数据中心的四大法宝
  • 云管理成功的关键:应用工作流
  • 豪车虚拟钥匙虽然很炫酷 但也给了黑客机会
  • 数据中心业务迁移面临的五大挑战
  • 在你想不到的暗网上,黑客雇佣市场正蓬勃发展
  • 12年程序员职业生涯得到的12个经验教训
  • 人人都谈大数据,你考虑过小数据的感受吗?
  • 作为数据科学家应该知道的11件事
  • 提高攻击成本的“网络安全检查表”有多牛?
  • 确保AWS安全:避免犯常见错误
  • 从菜鸟成为数据科学家的 9步养成方案
  • 数据分析工作常见的七种错误及规避技巧
  • 分析信息化现状 企业IT规划成关键
  • 这些数据科学技能,才是老板们最想要的
  • 职业生涯提升计划:迈入数据科学新世界
  • 你get了无数技能,为什么一事无成
  • 【概念】IT德赢官网vwin服务的概念与维保的区别
  • 见招拆招 六招抓住代维违规“黑手”
  • 数据中心德赢官网vwin工作的提升技巧
  • 如何做好高效IT德赢官网vwin
  • 高效能人士的七个习惯
  • 云计算如何改变IT德赢官网vwin管理的未来
  • 如何做好IT德赢官网vwin管理
  • 如何做好大型数据中心的德赢官网vwin
  • 有效的项目管理(三)
  • 有效的项目管理(二)
  • 2016年的十大技术趋势
  • 有效的项目管理(一)
  • 新浪创业&IT桔子盘点:2015年创业格局盘点上篇
  • 微软将在下周一口气停止对IE8 IE9和IE10的支持
  • 七字诀,不再憋屈的德赢官网vwin
  • 高效数据中心德赢官网vwin团队的7个习惯
  • 联通电信合并 促进竞争还是加强垄断?
  • 智能家居是CES重头戏 但物联网通信才是关键
  • 山东vwin德赢app下载恭祝大家元旦快乐
  • 杨元庆:应尽快出台个人信息保护法
  • IBM称不会放弃硬件业务
  • 习近平:把我国从网络大国建设成为网络强国
  • 传IBM启动新一轮裁员:至少波及1.3万人
  • 甲骨文与IBM纷纷展开并购 云计算倒逼转型加速
  • vwin德赢app下载公司恭祝大家新春快乐
  • vwin德赢app下载公司开通全国统一客服电话4008531853
  • vwin德赢app下载公司正式开通新浪企业微博
  • vwin德赢app下载微信订阅号正式上线
  • 山东vwin德赢app下载网络技术有限公司成功签约山东联通Sybase
  • 云计算战争中国开打:国际巨头落地公有云
  • 虚拟运营带给中国通信业的六个变化
  • 英特尔将推出15核服务器芯片
  • 4G发牌深入分析:移动互联网公司受益最大
  • 英将发报告“积极评价”华为 解除“安全警报”
  • 电子卖场衰落谋转型:IT+美食+时尚成趋势
  • 数据显示Win8全球市场份额继续下滑
  • 高交会风向:科技“恋不上”资本
  • 山东vwin德赢app下载网络技术有限公司成功中标济南移动服务器
  • 山东vwin德赢app下载网络技术有限公司顺利通过一般纳税人认定
  • 山东vwin德赢app下载网络技术有限公司正式开通官方网站
  • 作为数据科学家应该知道的11件事
    作者:佚名  来源:36大数据  发表时间:2016-4-5  点击:2452

    背景


    在我们举办的聚会期间,我们见到了很多朋友。从数据科学领域完全的菜鸟到专家,在同一个屋檐下,每个人都发出自己的疑惑。然而,当我们面对这群朋友——很大比例的这部分人(包括一些专家),一件事情显得尤为突出,他们没有自己的机器,也没有将自己的身份调整过来。他们中的很多人从未抽出时间开启他们作为数据科学家的旅程。结果他们只是得到了一个能够涉及多个产业资源的机会。

    没有人告诉他们该关注哪些博客,该订阅哪些时事新闻,去哪里阅读行业最新的讯息。他们从不调整他们的机器,也没有必要的硬件或者软件。这导致了极低的生产率,在某些情况下甚至遭遇挫折,在这样的时候他们应该喜欢上这样的经历。

    还是没有联想起什么?试想下在浏览一个网页的时候,载入就耗费了10秒中。在这个时候你很可能会很不耐烦,然后打开一个新站点的网页避免浪费时间。同样的事情也会发生在数据科学身上。代码运行的时间越长,从工作中避开的机会也越多。

    这就是我们怎样发现行业里的人们不曾说过的问题,因此我们想给这些朋友准备成为数据科学家的一些指引。

    谁适合本指引?


    如上所述,这个指引是写给那些还没调好机器的数据科学行业的工作者。我想这更多的是给新手们写的,但是我同样也希望资深工作者也能从中受益。

    让我们从设置机器开始

    1.硬件-机器的选择

    首先应该确认的是你有适合数据科学的硬件配置。如果你的硬件已经足够好的话,那也没什么可以做的了。既然笔记本电脑已经成为现在的主流,以下是我对笔记本的配置建议。如果你用台式机或者iMac,你可以有更好的硬件配置。

    当然最终的选择将由你可以付出多少钱来决定,我建议一台四核心,英特尔i7处理器的机子就可以了。确保你选的机子是四核处理器而不是双核的。在现在,选用好的四核芯片还是比较困难的。你可以在cpuboss这类网站上查看各种芯片的benchmark性能表现,再根据自己的预算来选择。

    我们总是建议你配置尽量大的内存,很多工具在计算的时候都会消耗大量内存,你也不想让内存溢出吧。

    如果你的预算充裕,将机械硬盘升级为固态硬盘可以为数据的读写提升很大的性能。对那些真想深入学习机器学习的人来说,建议配置一块英伟达的GPU,这样的话对于那些需要强烈计算的时候可以用上CUDA技术。

    这里有一些比较好的建议配置:

    ·          15吋的MacBookPro.

    ·          3年前我购置了一台联想Z510,i7(3632QM)处理器,16GB内存,英伟达的GPU的电脑,我觉得还不错。性能方面,它仍然是现在市场上一台比较不错的设备。

    ·          如果你在美国,需要更好的设备,可以试下Malibal9000,它很漂亮,只是有点重。

    一些其他的说明:

    ·          6代的英特尔Skylake处理器最近才发布,基于这款处理器的设备才刚刚兴起。我相信他们将再次掀起一场革命。你可以在联想ThinkpadP50和P70的配置上得到检验。所以,如果你现在有一台中等配置的机器,我建议你再等2-3个月购置一台基于6代处理器的设备。

    ·          如果现在你不得不买一台设备的话,四代四核i7处理器是一个不错的选择。在写这篇文章的时候,5代的处理器还没有什么好的选择。

    人们可能会说没有必要在怎么高配的设备上做投资。你可能在一些中等机器的云上更好的工作。我个人很喜欢个人电脑提供的方便的可访问性,我可以在没有网络的情况下随时随地的工作。

    2.操作系统

    一旦你已经选定了你的机器,下一步重要的选择就是操作系统了。

    ·          如果你有一台mac机,那么你的操作系统就已经定了。一些软件比如QlikView在MAC下没有兼容版本,你可以在虚拟机里运行它们。

    ·          如果你用的是PC电脑,我建议安装双系统。Linux在高级计算上有更好的表现,Windows系统对于像微软Office等一起其他的软件只能在Windows系统运行。所以两个系统最好都要有。

    ·          另一个选择是我看到很多人在Windows机上跑一台Linux虚拟机,这样的话在内存和性能上将受到一些限制。

    ·          也可以在Linux上使用微软的Office360.我本人没怎么干过,所以我就不评论了,但是看起来也是个选择。再次重申,可能有很多软件没法再Linux上运行。

    一旦选定了操作系统确保你的操作系统发挥了最大的性能。比如,在Windows上,你可以关掉一些透明等界面的效果。去到高级选项卡->性能->设置,将视觉效果禁用,取消一些没必要自启动的程序,然后将电源调成性能模式。

    3.常用软件

    除了一些数据分析工具,这里有一些你需要用到的软件。

    ·          微软Office比如Excel,用来展现结果,编写文档等。

    ·          FileZilla用FTP传送文件。

    ·          Git&GitHub用来控制版本.

    ·          VMWare/OracleVirtualBox/Vagrant用来运行虚拟机。

    ·          Cygwin/Putty(forwindows)

    ·          我使用Evernote来整理笔记.如果在Linux里,我使用浏览器。

    ·          Terminator(forLinux)在单个视图下运行多个终端的工具,很不错的。

    ·          SublimeText用来编写代码.你需要安装额外的你所使用的语言插件。

    4.分析数据的软件

    这部分将非常依赖于你所选用的数据挖掘的工具。如果你仍然选用主要的工具,看下这里的比较–SASvs.Rvs.Python.如果你已经有一个选用的工具,选一个适合你的:

    ·          SAS–基于SAS的企业级指引、企业级数据挖掘模块将依赖于你的许可证.它也提供了TextMiner/JMP和一些行业应用的模块。

    ·          R–R语言提供了一些关键的库.RStudio是一个不错的开发环境。

    ·          Python–iPythonnotebooks,Dato(Graphlab),vowpal-wabbit,import.io是另外很有意思的相互独立的科学库。

    其他可供选择的有MATLAB/Octave/RapidMiner。

    5.数据可视化软件

    除了以上提到的软件,有一个专门用来做数据可视化的工具是很重要的。他们通常会在每一个项目的末尾,当你将数据呈现在客户面前时显现出重要性。有很多可供选择的软件。关于这些软件的更多信息,请参考他们自己的文档。我推荐QlikView–它很易用,有一个个人免费版本可以下载,对于大的数据量它真的可以很好的处理.Tableau是另外一个很不错的选择,使用起来同样非常直观,但是据我的经验,对于大数据量的处理并不是很出色。

    如果你了解JavaScript,你可以使用基于它的库比如D3.js

    6.数据库/文件存储

    很多时候,当数据集很庞大或者你给你的用户编译程序时,你将需要使用数据库–SQL是最常使用的.你也可以使用MySQL或者PostgreSQL.SQLite捆绑在Python的包里时对于一些小的应用是非常高效的。如果你经常跟大数据量打交道,建立一个Hadoop集群是不可避免的。如果你要处理实时的数据流,你也将需要用到Spark.

    除了这些数据库,你需要了解下NoSQL,以防日后用到它.我建议使用MongoDB和Neo4j.

    其他资源

    6.云服务

    假如你要处理400GB的数据量,你要怎么办呢?即使我上面建议的机器配置用R语言来处理,也无法一次将他们装载到内存里。对于这样的场景,有一个云账号是很方便的。你可以使用两家云服务提供商——亚马逊网络服务(人们常说的AWS)或者微软公司的Azure.他们都提供了高度伸缩性的解决方案。Azure平台界面可能会更加友好些,但是亚马逊才是云服务的霸主。你可以在两个公司都申请个账号体验一下。

    7.行业博客和时事新闻

    我假设你已经订阅了AnalyticsVidhya的文章。如果没有,请到这里订阅.除了AnalyticsVidhya,你也可以关注KDNuggets和DataScienceCentral.

    在时事新闻方面,我推荐O’Reilly,DataScienceWeekly和DataElixir的时讯.

    8.移动app

    我经常使用手机阅读很多内容。不论我是在乘坐地铁或者只有5分钟浏览最新的出版物,我都使用移动端。我用Prismatic和Flipboard这些聚合软件去发现新的东西。两者都给我提供了行业最新的发展动态。

    另外,我也使用Termux,它是一个功能完善的Linux终端,以防我需要ssh连接服务器的时候使用。我也偶尔使用它在Python脚本里编写原型程序。

    9.聚会

    你可以找到很多聚会在你周围.它给需要相互交流的人们提供了很好的机会。AnalyticsVidhya在印度很多城市主办了编程马拉松活动。DataKind也有很多聚会.

    10.可用来实践的数据集

    对于新手,你可以看看这在AnalyticsVidhya上的讨论.除了这个,KDNuggets维护了一些开源的数据集。UCI也提供了一些可用于机器学习的数据.

    你也可以访问data.gov来寻找一些开源的数据。

    11.社区和社交媒体

    如果你还没有完成,注册我们的讨论门户.你不能只是跟其他的数据科学家在社区上交流,也可以参加各种我们主办的编程马拉松.除此之外,你可以看看Kaggle竞赛和DataTau这是黑客行业的一些动态.

    另外,你也可以在Twitter,LinkedIn,GitHub,Facebook和Reddit找到数据科学的社区.你同样可以订阅YouTube的频道。

    微信扫一扫

    关注vwin德赢app下载订阅号

    服务项目

    维保德赢官网vwin服务

    信息系统集成服务

    机房搬迁服务

     
     
     
     
    电话:
    0531-88818533
    客服QQ
    2061058957
    1905215487