当前在线人数15472
首页 - 分类讨论区 - 电脑网络 - 数据科学版 -阅读文章
未名交友
[更多]
[更多]
文章阅读:转行数据科学很彷徨?你是不是一开始就错了?
[同主题阅读] [版面: 数据科学] [作者:luoganfeng] , 2020年07月14日04:22:49
luoganfeng
进入未名形象秀
我的博客
[上篇] [下篇] [同主题上篇] [同主题下篇]

发信人: luoganfeng (luoganfeng), 信区: DataSciences
标  题: 转行数据科学很彷徨?你是不是一开始就错了?
关键字: Ds;De;Mle;Sde
发信站: BBS 未名空间站 (Tue Jul 14 04:22:49 2020, 美东)

    这一年来,我跟很多有意向转数据科学的同学聊过。发现很大一部分同学跟我当年
一样,犯了一个很严重的错误:没有想清楚自己的目标就开始盲目地学。这些同学一会
学 SQL,一会学Deep Learning,一会学 ABTesting,一会又开始刷算法题。觉得越学
越多,有一种学死都学不完的感觉。而且,这些同学面试总是过不了。明明觉得自己对
machine learning 了解的不错,面试的时候一聊细节,就发现自己很多问题从来没想
过。或者明明刷了不少 SQLZoo 和Leetcode 上的题,面试的时候考 SQL却一点思路都
没有。

    

    原因其实很简单。数据科学是很宽泛的。不同公司对data scientist 的要求完全
不一样。而面试的时候,他们都对所需要的技术在深度和广度上有很高的要求。那些没
有明确目标而又盲目学习的同学,把自己的时间和精力像撒胡椒面一样撒在各种零零散
散的知识点上。结果知识体系既不系统,也不深入。感觉什么都懂,但什么也不透。

    

    我们对这些同学的建议就是:在开始学习前,务必要先定好目标,然后根据自己的
目标针对性地学习,并把所需要的知识和技术学透。

    

    为了帮助各位同学确定自己的目标,我们列了一下数据科学中几个常见的方向,以
及所需要的技术:

    

    Data Analyst / Analytic Data Scientist

    ·      这一类的岗位包括大部分的 business analyst,data analysts,
analytic data scientist。

    ·      这些岗位需要的技术,主要有 SQL,data visualization,statistics,
business case study,AB testing,experiment design。SQL 是安身立命的技术。如
果面大厂的位置,据我们观察,只是把 sql zoo 和 leetcode 上的 sql 做熟,是不够
的。SQL 可以考的很难。SQL 之外,BA和 DA 一般更侧重于 business case study和
data visualization。DS 需要对 statistics 和 experiment design 有比较好的理解
,而且有些岗位需要 DS 能做一些 machine learning modeling。但是这些 modeling
的主要目标是 get insights from data。对模型的可解释性要求比较高。

    ·      这类岗位比较常见的种类有 marketing,product 和fraud。要求
candidates 对相应的领域有比较好的domain knowledge 和 communication skills。

    ·      我们一般建议商科,社会学,统计,bioinfo 背景的同学考虑这个方向。
一般理工科的 phd 走这个方向并没有优势。

    

    General Data Scientist

    ·      需要这类岗位的公司一般都有比较成型的经营模式,他们希望
candidates 能够应用 machine learning 帮他们解决一些的很具体问题。所以,这一
类岗位需要比较扎实的 machine learning 知识。能够理解公司的需求,把这种需求转
化为machine learning 问题,并且能够设计合理的 metric 来定量衡量模型对
business 的影响。于此同时,知道如何去找数据,清理数据,建模和测试模型。为了
考察这些能力,这些公司会设计一些 take home challenge,要求 candidate 在限定
时间内完成。

    ·      在take home challenge 之外的面试中,面试官会比较喜欢从简历上的项
目开始,逐层展开地考察candidate 的 machine learning 知识,解决问题的能力,以
及交流能力。此外,也会考 coding 和/或 SQL。但是一般来说不会太难。

    ·      这类岗位总的来说比较欢迎有 research 背景的 candidate,特别是 phd
。因为很多要解决的问题并没有现成的方案,需要做各种尝试,和学术研究有所类似。
我们一般鼓励理工科博士走这个方向。

    

    Machine Learning Engineer (MLE)

    ·      MLE是近几年新出现的一类岗位。本质上还是 software engineer,但是
更侧重于 machine learning。这类岗位需要的就是 coding。面试官会对 candidate
的 coding 能力进行全方位的考察。

    ·      在Machine Learning 方面,MLE 和之前两类岗位都不相同。相对于
General DS 来说,MLE 碰到的 machine learning 模型往往是比较成熟的,对于算法
本身不需要太多的投入,更多的是怎么设计和建立一个 robust 的 AI system。这类系
统设计的经验很难通过做个人项目来积攒,所以对于 junior MLE 的 candidate,面试
官会更侧重于考察一些 machine learning 的基本概念。另一方面,相对于 Analytic
DS来说,模型的可解释性就相对来说不那么重要,用户往往更重视模型结果的准确性。

    ·      这一类岗位比较新,目前需求量也大。只要是 coding 过硬的同学都可以
试试。

    

    Data Engineer / BI Developer

    ·      前三类岗位往往比较能吸引大家的注意力,但是 Data Engineer 和 BI
Developer 的岗位需求量也很大。很多转行的同学也可以看看。

    ·      其中,BIDeveloper,在我们看来,是一个理工科背景的同学可以相对来
说快速入行的方向。BI Developer 也叫做 Data Warehouse Developer 或者 SQL
Developer。所做工作包括设计,建立,以及维护 data warehouse、data loading
procedures、和 report generation pipeline。需要熟练掌握 SQL、ETL、Data
Visualization、Advanced Excel、Server Administration 等技术。上手比较容易,
不需要花大力气去准备 coding 或者 business sense。

    ·      DataEngineer 定义比较模糊。很多公司里头的 DE 其实就是 BI
Developer。而有部分公司的 Data Engineer 做的却是 MLE 的工作。我们为了比较好
地区分各类岗位,在这里,我们定义 DE 为那些设计建立和维护 Hadoop 和 Spark 这
一类大数据系统的工程师。

    

    知道了这些方向还有相应的技术知识后,我们怎么才知道有没有学透呢?

    欢迎留言讨论。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 35.]

[上篇] [下篇] [同主题上篇] [同主题下篇]
[转寄] [转贴] [回信给作者] [修改文章] [删除文章] [同主题阅读] [从此处展开] [返回版面] [快速返回] [收藏] [举报]
 
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996