安基网 首页 资讯 职场族 查看内容

干货:成为一名数据科学家,高薪仅仅是个附带品!

2019-1-1 13:59| 投稿: xiaotiger |来自: 互联网


免责声明:本站系公益性非盈利IT技术普及网,本文由投稿者转载自互联网的公开文章,文末均已注明出处,其内容和图片版权归原网站或作者所有,文中所述不代表本站观点,若有无意侵权或转载不当之处请从网站右下角联系我们处理,谢谢合作!

摘要: 数据科学家们是当前科技领域中炙手可热的香饽饽,一个合格的数据科学家,完全可以直接和高薪挂上等号。他们是互联网公司职业鄙视链中最顶端的存在,一个优秀的数据科学家,即使面对管理层也可以很有底气,毕竟人才难 ...

数据科学家们是当前科技领域中炙手可热的香饽饽,一个合格的数据科学家,完全可以直接和高薪挂上等号。

他们是互联网公司职业鄙视链中最顶端的存在,一个优秀的数据科学家,即使面对管理层也可以很有底气,毕竟人才难得。

现在很多人都想成为数据科学家,但是却不知道朝着什么方向努力。我今天整理了一份文档,详细讲述了数据科学是什么、数据科学家的工作职责和能力要求等,感兴趣的朋友不要错过哦!

主要内容如下:

  • 一、数据科学家与大数据
  • 二、数据科学的重要性
  • 三、数据科学家的类型
  • 四、数据科学家的思维体系
  • 五、技术资质
  • 六、经验
  • 七、社交圈
  • 八、所用的软件
  • 九、学习新知与解决问题
  • 十、机器学习与R语言平台
  • 十一、数据科学的处理流程
  • 十二、所需的具体技能

一、数据科学家与大数据

  1. 大数据是一个最近发生的现象,具有大规模的数据、快速移动、各种各样的从结构化到非结构化的数据结构(以及在两者中间的其他结构),以及各不相同的可靠性的特点。这常常被引用为大数据的4个V的维度:体量、高速、多样以及准确性。由于这4个V的维度,处理大数据是一个极具挑战性的难题。数据科学是我们对于大数据挑战的应对之法。
  2. 数据科学家是那些将数据整理出规则的人。通过利用最新的技术和原理,他们可以从中导出可操作的信息,通常是推出一个数据产品。
  3. 大数据在各行各业都会产生,利用它们可以在包括提速生产力以及增加收益方面产生可观的效果。
  4. 数据科学诞生了有超过20年的历史,但直到最近才起飞,这源于相关技术的开发(并行计算、智能数据分析方法以及低成本的强大计算能力)。
  5. 数据科学家的职务第一次在文章中出现是在2005年,而它在2009年开始变得炙手可热。在哈佛商业评论的一篇文章中,数据科学家被称为21世纪“最迷人”的职业。
  6. 数据科学被认为还有继续发展的空间,包括在商业价值、技术、可用知识和原理,以及在未来几年的人气方面。
  7. 大数据产业
  • 零售业(特别是在提高生产力方面)
  • 电信业(特别是在提高收益方面)
  • 咨询业
  • 医疗护理
  • 航空运输
  • 建筑业
  • 食品加工
  • 钢铁以及广义上的制造业
  • 工业设备
  • 汽车产业
  • 客户关怀
  • 金融服务
  • 出版业
  • 物流行业

二、数据科学的重要性

1. 数据科学的历史比人们通常想象得要悠久,然而,直到上一个十年(2000~2010年)才得以落地。

2. Drew Conway在2010年9月创作的著名的韦恩图,有效地总结了数据科学的本质。

3. 数据科学带来了许多新规则,它们改变了我们传统处理数据的方式,主要有如下几个:

  • MapReduce
  • Hadoop分布式文件系统(HDFS)
  • 高级文本分析
  • 大规模数据编程语言(如Pig、R、ECL等)
  • 替代性数据库结构(如HBase、Cassandra、MongoDB等)

4. 数据科学的规则转变了我们处理数据的手段,而这对我们的生活产生了巨大的影响。正如它带来对处理大数据有至关重要价值的新思维一样。

5. 数据科学的提升带来的新思维,同样带来了数据科学家的职业生活和他与人相处的新变化。

三、数据科学家的类型

1.数据开发者

  • 编程专家,通常来自于IT行业。

2.数据研究者

  • 数据分析专家,同时也能处理机器学习以及其他领域的最新技术。
  • 常来自于学术界,有着扎实的统计学背景或是深处应用统计学的科学领域。

3.数据创意师

  • 有深厚的学术经历,同时极其擅长大数据技术、机器学习以及编程。

4.数据商务人士(高级数据科学家)

  • 数据科学家的最高等级,同时常常担任管理角色,相较于数据科学本身,他们更多地接近于商务世界。

5.混合/普适类型

  • 最为平衡的,同时或多或少地培养了数据科学所需的各个方面。他们多面发展,具有各个类型的背景,但在经验的广度上,都亚于数据商务人士。通常,混合/普适的数据科学家会晋升为数据商务人士。

四、数据科学家的思维体系

1.数据科学家所具有的最重要的特质

  • 好奇心。健康的好奇心必须伴随着自律。
  • 乐于实验
  • 创造力与系统性工作的能力
  • 沟通能力

2.数据科学家所具有的主要的素质与才能

  • 建模
  • 计划
  • 解决问题
  • 快速学习
  • 适应性
  • 团队合作
  • 变通
  • 研究
  • 关注细节
  • 报告

3.数据科学家,在众多的事情中,最为渴望的东西

  • 掌握大数据的众多层面
  • 持续学习新知
  • 让自己熟悉大数据世界中的各种开放性问题与挑战,以及存在的各种机会。

五、技术资质

1.综合的编程能力

  • 编程语言应具备的特点:稳健、业界流行、可扩展(尤其是遇到大数据集的时候)
  • 掌握至少一门数据科学家中流行的编程语言:Java/Python/C++/C#/Perl
  • 必备:SQL,SQL是其他数据相关语言的基础,如(HQL/NoSQL/AQL/BigSQL等)

2.科学背景

  • 科学性的流程
  • 众多数据分析技术背后的理论知识
  • 在实践中使用以上这些技术
  • 定义以及检测各种假设
  • 理解数据分析方法的结果

3.专业化知识

  • R/SPSS/SAS/Stata/Matlab
  • 大数据存储架构(schema)的经验,像Hadoop、Hive、大规模分段关系型数据库等,都是数据科学家需要熟悉的。
  • 其他可能是也可能不是有关数据科学工作的专业知识,例如可视化、关系型数据库、用户建模、大数据集成处理系统等。

六、经验

  1. 1.经验对于大部分数据科学工作而言是必不可少的,而且这是贯彻于整个行业的。经验能够使你在工作中更有效率,也可以促进交流,使你对你所使用的方法和工具有更深刻的理解。
  2. 企业和学术类型的经验都有它的优势,都可以作为数据工作的经验。
  3. 获得最初工作经验的方法如下所示,但不仅限于此:
  • Kaggle竞赛
  • 相关实习
  • 若是在校生,论文案例可以是一个有数据相关问题的公司
  • 在数据科学团体中做志愿者
  • 追随一位导师,例如在DataScienceCentral里的那种

七、社交圈

  1. 社交圈对成为数据科学家是至关重要的,特别是在职业生涯的早期阶段。
  2. 社交圈可以帮助你培养沟通技巧,并让你适应各种类型的人群,而这对于数据科学家来说十分重要。
  3. 在获取大数据科学领域以及其他相邻的领域中最近的革命性技术方面,社交圈可以是一个无价的资源。
  4. 数据科学家需要与学术界保持健康的关系,通过社交圈让自己跟进最新进展以及结识潜在的合作伙伴。
  5. 数据科学家要立足现实,这可以通过社交圈去保持与商业世界的关系来达到。这可以帮助他更好地了解需要什么,并且除了带来工作机会之外,还可以让自己触及有趣的商业机会。

八、所用的软件

1.数据科学家在日常工作中会利用各类工具,其中最具有代表性的包括:

  • Hadoop/Spark
  • 面向对象编程语言(如Java/Python)
  • 数据分析平台(如R)
  • 可视化软件
  • 一些辅助工具(如GIT/Oracle等)
  • 行业所需求的特定程序

2.Hadoop是大数据软件界的凯迪拉克,它的套件由几类组件组成,包括:

  • 文件系统(HDFS)
  • 将数据分布到计算机集群的方法(MapReduce)
  • 机器学习程序(Mahout)
  • 编程语言(Pig)
  • 数据库程序(Hive/HBase等)
  • 调度器(Oozie)
  • 元数据和数据表管理框架(HCatalog)
  • 调试管理器和协同程序(Zookeeper)

3.Hadoop套件有很多替代方案,如Storm、Spark、BashReduce、Disco project等。

4.有几款可以并行帮助Hadoop开展工作的程序:Drill、Julia、D3.js、Impala等。

5.数据科学家应该能处理至少一个面向对象的语言,如Java、C++、Ruby、Python、C#等。

6.函数性编程语言(如Clojure、OCaml、Clean、ML、Scala和Haskell)都是很优秀的资产,特别是如果擅长编程且想要扩展编程技能。

7.必须对至少一种现下流行的分析工具极为熟悉,R/Matlab/Octave/SPSS/SAS/Stata,其中只有R和Octave是开源的。

8.Tableau则是数据可视化软件中的最好选项,尽管还有类似于Spotfire、Qlikview、Brist、inZite、Prism和SP Business Objects的工具。

9.集成大数据系统(如IBM的BigInsights平台)同样值得研究,因为它们使整体的数据科学流程更高效,同时将你从MapReduce所需的低层编程中解放出来。

10.其他一些程序值得你花时间去了解,如GIT/Oracle/MS Excel/MS Outlook/Eclipse/Emcien以及Filezilla等。

九、学习新知与解决问题

  1. 让你的知识与时俱进是成为数据科学家非常重要的一个方面,特别是当这个领域在不断创新的时候。
  2. 研讨会是学习新知识的最有效途径,特别是技术性主题。研讨会可能会设计话费,但他们是颇具投资价值的,因为你可以通过它们来修饰简历,并且它们时常能提供比大学课程更具实用性的知识。
  3. 会议是一种扩展数据科学知识的好方法,你可以在会议中了解最近的创新成果,结交许多领域内有趣的人,同时学习一些有用的东西,让你有机会把它们用到你的难题或是正在面对的数据科学挑战中。
  4. 在线课程,特别是MOOC,是最能增长和改善你对各种主题知识的途径之一。
  5. 数据科学小组是一个学习领域新知的既有效又充满乐趣的方法。你需要找到一个举办大量教育活动的小组,有大量活跃在数据科学领域内的成员,同时与小组内的其他成员积极地参与交流。
  6. 资源问题十分普遍,并涉及以有限的资源来处理数据分析业务。
  7. 需求问题是老生常谈的问题,牵涉到沟通不畅、误解以及曲解了包括你的经历和客户所提出的需求的实现。这可以积极地通过创造力、外交手段、沟通以及耐心得到解决。
  8. 缺乏专业知识可以通过阅读好的文章、书籍、网站来克服,或是资讯专业人士。
  9. 综合运用各种工具在IT世界中极为普遍,它牵涉使各种程序、数据集以及各种数据格式协同工作,这会在新开发一个程序时显得十分棘手。你可以通过良好积极的沟通、创造性以及耐心来克服这些问题。

十、机器学习与R语言平台

  1. 机器学习是数据科学领域一项非常重要而且有趣的研究领域
  2. 虽然机器学习在过去几年才被广泛运用在方方面面,它其实在20世纪50年代就出现了,并且一直发展到了今天这种适用于多种系统和数据分析方法的程度。这些方法包括决策树、人工神经网络、随机森林、聚类算法以及最近的深度学习(深度神经网络)。
  3. 机器学习是一个在研究与应用两个方向都备受重视的领域。
  4. 统计学与机器学习各有其优缺点,简单地分析用统计学比较好,但是对于比较复杂的问题,用机器学习更为合适。
  5. 在数据科学领域使用机器学习方法有诸多优点,尤其是在数据分析阶段。
  6. R是一个非常好的数据分析平台,拥有各种库和包用于机器学习。如果可以扎实地掌握R包,就等于掌握了一项能处理各种数据分析和可视化问题的强大工具。
  7. 针对机器学习和R都有线上线下各种资源供选择,综合运用这些网上公开课、书籍以及专业的学习小组,可以让这个学习过程更有效率更加有趣。

十一、数据科学的处理流程

1.数据准备

  • 通过数据清洗和标准化将原始数据准备成便于之后步骤处理的形式。这一步骤也包括数据格式的识别转换以及数据的读取。

2.数据探索

  • 数据探索是数据分析者通过有效的信息搜索的过程来整合信息以及得到真实可信的分析结果的过程,这一过程包括通过检索数据来找到有用的模式和隐藏规则,发现重要的变量特征,画出简单的图以及识别出这一批数据中有什么有意思的信息以及确定之后的研究方向。

3.数据表示

  • 数据在计算机以二进制的形式存储的方法。这一过程是将各种原始变量数据通过特定的计算机存储结构高效地转换存储在计算机中的过程,在存储空间利用和之后的利用过程中都尽量达到最优化。

4.数据发现

  • 合一过程旨在通过提出假设和统计检验的方式来发现数据中的各种潜在模式、关联关系等。这其中要用到很多统计知识以及个人直觉来从大量无规则数据中找到真正有显著意义的结论。

5.数据学习

  • 这一过程主要是通过统计学和机器学习方法在数据中找到有用的模式和规律。它的目标是使找到的结论尽量地能被运用到更多的数据和实际生活中,并且形成一个数据产品的雏形。

6.开发数据产品

  • 这可能是所有步骤中最重要的一个,基于已有的数据开发出一个产品,并将其与其他人分享。一个数据产品,是一个由数据和算法组合而成的产品。

7.洞察、交付和可视化

  • 这一部分的作用是将产品呈现给最终的用户,并且接受用户反馈、微调程序以及计划产品升级的方案。

十二、所需的具体技能

1.数据分析技能

  • 数据清洗
  • 建立数学模型
  • 运用合适的统计方法来分析数据
  • 开发运用机器学习算法
  • 检验模型的正确与否
  • 实现数据可视化

2.编程技能

  • 精通一种或多种数据分析工具(R/Matlab/SPSS/SAS)
  • 精通一种或多种面向对象编程语言(Python/C++/Java/C#/Perl)
  • 其他IT公司经常需要的技能

3.数据管理技能(尤其针对大规模数据)

  • Hadoop(尤其是Hive/HBase/HDFS/MapReduce)
  • SQL
  • NoSQL
  • 其他IT公司常用数据管理技能

4.商业知识

  • 熟悉瀑布模型和敏捷模型等软件开发模式
  • 理解公司运作规则
  • 对于产业所属领域有所了解
  • 其他公司常用商业技巧

5.交流技巧

  • 做演讲和PPT演示来展示产品
  • 撰写报告
  • 懂得倾听重点信息
  • 能够将用户的需求转换为实际产品
  • 其他公司常用交流交往技能

想成为数据科学家吗?


小编推荐:欲学习电脑技术、系统维护、网络管理、编程开发和安全攻防等高端IT技术,请 点击这里 注册账号,公开课频道价值万元IT培训教程免费学,让您少走弯路、事半功倍,好工作升职加薪!

本文出自:https://www.toutiao.com/a6641361696784908813/

免责声明:本站系公益性非盈利IT技术普及网,本文由投稿者转载自互联网的公开文章,文末均已注明出处,其内容和图片版权归原网站或作者所有,文中所述不代表本站观点,若有无意侵权或转载不当之处请从网站右下角联系我们处理,谢谢合作!


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

 最新
返回顶部