安基网 首页 资讯 职场族 查看内容

自学Python入行数据挖掘,听听数据挖掘美女工程师怎么说

2018-11-27 03:33| 投稿: xiaotiger |来自: 互联网


免责声明:本站系公益性非盈利IT技术普及网,本文由投稿者转载自互联网的公开文章,文末均已注明出处,其内容和图片版权归原网站或作者所有,文中所述不代表本站观点,若有无意侵权或转载不当之处请从网站右下角联系我们处理,谢谢合作!

摘要: 这次我请到了在数据挖掘岗位的一位美女工程师Cathy,程序员本来就是一个比较少的群体,男的居多,女的工程师很少,美女就更少了!这次非常荣幸请到了Cathy,她原来是海外从事海量数据挖掘工作,目前在上海一家大型的 ...

这次我请到了在数据挖掘岗位的一位美女工程师Cathy,程序员本来就是一个比较少的群体,男的居多,女的工程师很少,美女就更少了!这次非常荣幸请到了Cathy,她原来是海外从事海量数据挖掘工作,目前在上海一家大型的互联网公司工作,她从数据挖掘岗位内部人士的角度来解读,什么是数据挖掘,需要那些技能,那些注意事项,希望对大家有帮助。

分享主要分为四个方面:

什么是数据挖掘?

工作中我们是怎么做的呢?

想入行?

如何提升?

1

什么是数据挖掘

机器学习和人工智能可能是这几年最火的话题了,但其实不论是人工智能还是机器学习,是战胜李世石的阿尔法狗还是各种深度学习模型算法,都是数据挖掘的一个分支。所以每当别人问我是做什么的时候,我也不想说的很玄乎,通常就说我是一只数据挖掘攻城狮了。

数据挖掘的方法有很多种,除了上面讲到的深度学习,和各种算法模型,任何能从数据中挖掘,总结出有用结果的,都叫数据挖掘。所以说,可视化,数据分析,看分布,哪怕是一拍屁股定下来的rule base,都可以算。

2

工作中我们是怎么做的

我在这里指的工作主要还是指在工业界,学术界可能就是另一种模式,我就不在这里不懂装懂了。在上班的时候,我们算法模型组里经常自黑,其中有一张图很好解释了我们的日常工作……

其实现在大多数模型都开源了,并且也有了很多现成的包,我们的工作就变成了将一堆数据整一整,丢进模型,有时候就能得到一个不错的结果。如果结果不好呢?也不着急……调调参数,多增加几轮迭代,或者换个模型…… (哭笑不得)。。

我说这些其实不光是为了自黑,目的是为了告诉大家,其实机器学习也好,深度学习也好,重要的永远不是在模型本身,而是在特征工程。

如何做特征,如何变幻特征,体现了你对业务的理解,也体现了你经验的积累,和你的灵光一现。有时候做了很久的模型,AUC 总在一个地方上不去,但突然有天想到一个牛逼的特征,于是就一下子拉上了一个台阶。

而且,在使用每个模型之前,阅读一下模型相关的paper也是一个很好的习惯。这会帮助你更好的选择最合适的模型,而不是每个万精油模型都用一遍。

所以,即使是在万物开源的年代,急于求成,也是很难做好一个模型,特征工程是需要智慧、耐心和积累的,也是机器学习中最最重要的一环。

3

想入行

我记得去年有一篇获奖的paper和当时作者获奖的视频,名字具体是啥我忘了,当时在圈子里火了好一阵,说的就是希望大家不要一入门就直接深度学习,因为效果好就一股脑儿的都丢进去,不用管背后的逻辑,也不用feature engineering。作者还说到在他们那个年代,大家都是认认真真的推倒svm的公式,而现在大家都浮躁到只管结果,过程是黑盒也没关系。

其实我很认同作者的说法,想要入门确实是要认真的从最原汁原味的machine learning开始学起,学习每一个经典的模型和背后的逻辑。其实我的专业是金融经济,编程和算法完全是我自学的。

跟大部分人不同的是,我是先在youtube上看完了stanford的machine learning算法公开课的录像,跟着老师推导了所有的公式,图示,笔记,记了厚厚一本。然后才开始学Python,一路自学起来,这样上手也很快!

接着我就开始设计自己的量化交易模型,直接0基础开始写代码(之前没有任何其他语言基础),这样盲写的代价就是几乎每写一行都要在Stack Overflow上查半天,但是好处就是记忆特别深刻,一个星期以后,我就直接从0基础的小白,写出了一个能选股,有几个关键指标的简单量化交易模型。相信我直接上手的这种方式,过程特别痛苦,但是效果特别好!

4

如何提升

我们老板经常跟我们说,现在做算法缺的不是算力,而是脑力。所以想提升我觉得有以下几种途径:

比较基础的话,就要多看youtube视频,stanford 的名师的课程,都是有全程录像,基础打扎实很重要。

光说不练假把式,不光要练习写代码,也要练习自己思考和解决问题的能力,因为代码永远只是工具,你不能不会写,也不能只会写。可以尝试写点自己想实现的算法,或者多去Kaggle

多看paper,关注顶级学术会议的获奖论文,让自己能紧跟前沿,知道现在最流行,最有效的解决问题的方法和模型。

如果是已经在工作的,就多尝试拓宽思路,试着用多重方法解决问题,看看能不能找到最优解!

Python工作圈

目前加入Python工作圈的有来自苹果,腾讯,爱奇艺,百度,Nokia,顺丰,三胞集团,商汤科技,万矿等各行各业的小伙伴。还在邀请趋势科技的AI产品负责人,新浪微博的自然语言处理的大牛。有爬虫岗位,有Web开发后端岗位,有机器学习岗位,有自动化测试,有数据分析,有自动化测试,有运维,有金融量化等几乎涉及了Python各个岗位。

Tag标签:

小编推荐:欲学习电脑技术、系统维护、网络管理、编程开发和安全攻防等高端IT技术,请 点击这里 注册账号,公开课频道价值万元IT培训教程免费学,让您少走弯路、事半功倍,好工作升职加薪!

本文出自:https://mbd.baidu.com/newspage/data/landingsuper?context={

免责声明:本站系公益性非盈利IT技术普及网,本文由投稿者转载自互联网的公开文章,文末均已注明出处,其内容和图片版权归原网站或作者所有,文中所述不代表本站观点,若有无意侵权或转载不当之处请从网站右下角联系我们处理,谢谢合作!


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

 最新
返回顶部