这几年我连续完成了好几轮数据科学的美研申请,在这个专业的申请上有所收获,这篇推文总结一下分享给大家。
一、数据科学是什么
维基百科定义:数据科学(Data Science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助。
数据科学是一门结合计算机科学+数理统计+具体领域应用的交叉学科
这个图很直观的表达了数据科学作为一门交叉学科的知识结构组成,也符合了大部分项目的课程设置。数据科学是在数据基础之上,运用计算机和数理统计的知识,在某一个具体领域(商业、IT、医疗等)解决具体问题。
二、美研数据科学项目开设情况
目前已经在美研院校大范围开设,我统计了一下,目前综合排名前30的院校中有24所学校开设了26个相关项目,总体选择丰富。数据科学项目多数开设在统计系下,也有开设在计算机系下,或者统计系和工程学院联合授课。
数据科学最常见的学科名称是Master in Data Science,也有部分学校命名为Master in Analytics,基本就这两类命名方式。
在学制上,所有数据科学项目都是1-2年完成,3个学期毕业,即秋季-春季-秋季这种学制安排最为常见,多数项目毕业要求为30个学分,修完10-12门课程毕业。 基本只提供秋季开学,只有约翰霍普金斯等少数几个学校提供春季开学。
三、美研数据科学项目本科申请背景要求
总体以数学、统计、工程、经济学这几类专业为主,没有绝对的本科专业要求,本科开设数据科学专业的学校数量相对没有硕士多,以杜克大学2021级学生为例:工程类背景占比34%;经济学占比24%;自然科学类占比10%。同时也可参考西北的MS in Aalytics项目的学生背景如下图:
西北大学这个项目对于纯数理背景的申请者偏好明显更高。
对于申请先修课程有严格要求,最常见的要求为:
- 两个学期的微积分课程,对应美本Calculus I & II,要求掌握多元微积分(Multivariable Calculus)
- 线性代数(Linear Algebra)
- 统计与概率论(Probability and Statistics)
- 编程语言(Computer Programming Language),以Python和R最为常见
以上四门课程最为常见,个别项目还有其他高阶要求,比如微分方程、随机过程、SPSS/STATA等。
对于不能在自己本科院校完成相关课程要求的学生,多数学校都表示可以通过社区大学或者线上课程(Coursera,Edx)的方式来满足要求,其中乔治城大学给出了很详细的参考如下:https://analytics.georgetown.edu/admissions/requirements/
四、数据课程项目申请材料
各个项目申请材料比较类似,总结如下:
1. 成绩单。这个最为重要,申请前30的项目总体建议不能低于3.5/4,竞争激烈的项目不低于3.7,个别学校比如范德堡需要提前做WES评估。
2. 托福。申请前30项目必须要考到100+,大部分项目托福要求100,哥伦比亚大学公布过2017级平均托福录取分为106.5,斯坦福公布过录取平均托福分数在110左右。
3. GRE。这两年因为疫情,大部分的项目对于GRE要求为可选,建议目标分数325+,NYU公布的平均录取GRE各部分平均分数:159.3(阅读)+167.4(数学)+4.14(写作)。
4. 个人陈述。我举例宾大对于个人陈述内容的要求如下:
To help us better determine your candidacy for admission into the Data Science Program, your personal statement should clearly discuss your background while placing special emphasis on your coursework and/or your professional experience relevant to the Data Science Program. It should further elaborate your future plans and how they make you an ideal fit for the program.
主要讨论三部分内容:一是过往在数据科学方面的课程和经历,二是对于该项目的理解和认识,三是对于未来的规划。
5. 三封推荐信
6. 简历
7. 先修课程要求
五、数据科学项目的主要开设课程
数据科学项目都会以核心合成+选修课程两部分组成,以哥伦比亚大学为例,核心课程包括以下七门:
1. Computer Systems for Data Science/数据科学中的计算机系统
2. Machine Learning for Data Science/数据科学中的机器学习
3. Algorithms for Data Science/数据科学中的算法
4. Probability and Statistics for Data Science/数据科学中的统计与概率论
5. Exploratory Data Analysis and Visualization/探索性数据分析和可视化
6. Statistical Inteference and Modeling/统计推理与建模
7. Data Science Capstone and Ethics/数据科学大作业
除了以上七门核心课程,哥大还要求学生完成三门选修课程,一共十门课程毕业,这也是数据科学项目常见的课程开设模式,大家上的主体课程内容相近,差别不大。
也有少部分学校比如纽约大学和乔治亚理工大学,将培养计划还分成了不同方向,也就是大家在相同的核心课程之上,通过不同方向的集中选修确立了自己的方向/Track,纽约大学的数据科学项目分为了三个Track:Data Science Track/数据科学,Data Science Biology Track/生物数据科学,Biomedical Informatics Track/生物医学信息学。乔治亚理工的分析学项目也分为了三个Track:Analytical Tools track/分析工具,Business Analytics/商业分析,Computational Data Analytics/计算数据。
六、数据科学项目毕业就业情况
数据科学总体就业情况还不错,市场需求比较大。常见的就业职位包括:数据分析师,数据工程师等。以纽约大学的就业报告举例如下:
70.18%的毕业生在毕业时已找到全职工作,主要去向三个行业:技术科技类公司(51.61%),金融行业(22.58%),生物技术和健康产业(6.45%)。2021届毕业生年薪范畴为110,000-125,000美金。
详细就业报告可参考链接:https://cds.nyu.edu/placement-stats/
七、数据科学与分析学的联系和区别
虽然我把数据科学(Data Science)和分析学(Analytics)在这篇推文中合并在一起总结介绍,但这两个专业在侧重点上还是有一些区别。
数据科学侧重于数据的存储、恢复、清理、挖掘、可视化、分析等处理内容,创造和运用算法在原始数据基础上来理解数据的意义。分析学是通过已处理的数据,来寻找规律回答问题,在数据基础上提供决策分析。打个比方,数据科学像是种地收获粮食,分析学像是把生米煮成熟饭。
八、美国综合TOP30大学数据科学项目汇总及申请难度评估
表格说明:
1. 招生数量一列中,能列出的为学校公布的准确数据,「/」表示没有公布数据。
2. GRE一列中,「不需要」表示申请审核中不参考GRE成绩;「optional」表示可选择是否提交;具体的数据如「168+170+4.5」表示学校公布的GRE阅读、数学、写作三部分的平均分数。所列的GRE要求只适用于2021-2022申请季,未来可能出现要求变化。
3. 申请难度一列中,「一档」、「二档」、「三档」为具体申请数据外加主观经验判断的申请难度分档。
九、数据科学和计算机科学在IT行业的岗位区别
因为我家里人刚好有人在互联网行业从事数据分析的工作,TA本来是学计算机出身,先做的开发岗位,也就是传统意义上的码农,然后转做了数据,我也请教了一些TA,总结下来几点行业经验。
1. CS的行业起点相对低,但是职业路线比较广,上限下限相差巨大,涉及到开发性的工作都可以去尝试。目前本科cs出来大部分做的还是基础性研发工作,在工作技能上比较注重Java或者其他开发性语言这块的能力。工作比较辛苦,加班比较多。
2. Data Science更重视的是数据思维能力,需要有一定的开发基础。毕业生基本上从事的是数据相关的工作,比如数据分析,数据产品,大数据相关的开发或者算法之类更高级的数据岗位,综合能力要求更高一些,行业能够提供的岗位数量相对少,基本都需要研究生背景才能进大厂。数据岗位的技能要求不是单一的,根据具体岗位和业务性质,来判断人员偏重哪个方向,需要更高的逻辑思维能力,和基础的开发能力。
十、其他
我之前的申请经验里,还总结出一个很受用的经验,即背景不够强势可以直接申请CS的学生,以及对理科不排斥的文科生,都可以从就业的角度考虑来准备数据科学的申请。
数据科学最重要的四门前期课程:微积分I & II,线性代数,概率统计,编程语言,对于大部分学生,只要你想要去准备都还是有机会能学到的,甚至在完成了这几门课程之后,也能顺便加强对商业分析、金融等商科领域的申请背景,大范围开拓了自己的申请选择。 另外就是上文提到的数据类岗位招聘学历要求更高的现状,这是数据科学的学生必须面对的问题,读一个数据科学硕士几乎变成了入行要求。
今年我明显感受到美研的申请数量在增加,申请难度在变大。原因很简单,国内经济下行就业岗位不足,国内有更多的本科生在准备考研或者出国,就业问题也在影响美本学生,他们的主要就业方向也是国内,我估计至少有七成的美本学生也在申请美研,大家就只能凑在一起可劲卷了。