很多人不敢说,在申请CS/DS等这类火爆的专业时,除了理论知识的积累的和学习,最好也要具备相应的实习、竞赛、科研经历,这会是很大的加分项。
美国计算机院校第一梯队的卡内基梅隆大学申请要求指出:除了要求申请人本科成绩优秀、有扎实基础知识、有相关领域研究经验。
此外,CMU在录取过程中会要求申请者提交一份专门的文书来描述自身的参与的计算机竞赛or科研项目,显示学校对于学术背景的要求。
作为Google旗下全球最大的数据科学社区,Kaggle成为申请CS/DS专业时的一块含金量高、快速提升计算机背景的“敲门砖”。
为了帮25fall&26fall的同学更全面地了解kaggle,老师从计算机视觉竞赛、自然语言处理竞赛、多静态竞赛、时序数据竞赛等几个方向,给大家找了一些TOP级别的经典赛题,并附上了Top解决方案,需要的小伙伴赶紧码住!
自然语言处理(NLP)竞赛
01BirdCLEF 2023(kaggle-鸟类叫声识别 )
- 方向:NLP-语音识别的多标签多分类任务
- 介绍:在这次比赛中,参赛者将使用先进的机器学习技能,通过声音识别东非鸟类物种。通过算法以处理连续的音频数据,并通过其呼叫来识别物种。
Top解决方案:
02CommonLit Readability Prize(文本复杂性识别大赛)
- 方向:NLP-文本分类-教育
- 介绍:在本次竞赛中,参赛者将构建算法来评估 3-12 年级课堂使用的阅读段落的复杂性
Top解决方案:
03NBME - Score Clinical Patient Notes(临床患者病例评分大赛)
- 方向:NLP-Token分类-医疗
- 介绍:在本次竞赛中,参赛者将在患者笔记中确定特定的临床概念。具体来说,参赛者将开发一种自动化方法,将临床概念从考试量规(例如,“食欲减退”)映射到这些概念在医学生撰写的临床患者笔记中表达的各种方式
Top解决方案:
04U.S. Patent Phrase to Phrase Matching(美国专利短语相似度大赛)
- 方向:NLP-文本相似度-教育
- 介绍:在本次竞赛中,参赛者将在新颖的语义相似性数据集上训练模型,通过匹配专利文献中的关键短语来提取相关信息。
Top解决方案:https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/discussion/332243
时序数据竞赛(5场)
01CAFA 5 Protein Function Prediction(蛋白功能预测大赛)
- 方向:ML、时序预测
- 介绍:该竞赛的目标是预测一组蛋白质的功能。参赛者将开发一个针对蛋白质的氨基酸序列和其他数据进行训练的模型。
02M5 Forecasting - Accuracy(M5-时间序列预测大赛)
- 方向:时间序列预测-零售
- 介绍:在本次竞赛(第五次迭代)中,参赛者将使用全球收入最大的公司沃尔玛的分层销售数据来预测未来 28 天的每日销售额。
Top解决方案:
03Riiid Answer Correctness Prediction(回答准确性预测大赛)
- 方向:时间序列预测-教育
- 介绍:在本次竞赛中,参赛者的挑战是为“知识追踪”创建算法,即随着时间的推移对学生知识进行建模。目标是准确预测学生在未来互动中的表现。
Top解决方案:
04Jane Street Market Prediction(简街市场预测大赛
- 方向:时间序列预测-金融
- 介绍:参赛者将使用历史数据、数学工具和技术工具来创建一个尽可能接近确定性的模型。
Top解决方案:
05Optiver Realized Volatility Prediction(股票市场波动率预测大赛)
- 方向:时间序列预测-金融
- 介绍:参赛者将构建模型来预测不同行业数百只股票的短期波动,可以使用数亿行高度精细的财务数据设计模型,预测 10 分钟内的波动率。
Top解决方案:
多模态竞赛
01Stable Diffusion - Image to Prompts(Stable Diffusion大赛)
- 方向:多模态、数据挖掘、时序预测
- 介绍:比赛的目标是扭转生成文本到图像模型的典型方向:不是从文本提示生成图像,而是可以创建一个模型来预测给定生成图像的文本提示。参赛选手需要对包含由 Stable Diffusion 2.0 生成的各种(提示、图像)对的数据集进行预测,以了解潜在关系的可逆性。
Top解决方案:
02Shopee - Price Match Guarantee(Shopee商品匹配大赛)
- 方向:多模态-电商
- 介绍:在本次竞赛中,参赛者将应用机器学习技能来构建一个模型,以预测哪些商品是相同的产品。
Top解决方案:
03PetFinder.my - Pawpularity Contest(宠物预测大赛)
- 方向:多模态-动保
- 介绍:在这场比赛中,参赛者将分析原始图像和元数据来预测宠物照的“Pawpularity”,在PetFinder数据上训练和测试模型。
Top解决方案:
扫码回复“Kaggle”了解项目详情、竞赛组队、大佬辅导
计算机视觉(CV)竞赛
01Google - Isolated Sign Language Recognition(kaggle-Google手语识别大赛)
- 方向:CV-图像分类
- 介绍:本次比赛的目的是对孤立的美国手语 (ASL) 标志进行分类。参赛者将创建一个 TensorFlow Lite 模型,该模型使用使用 MediaPipe 整体解决方案提取的标记数据进行训练。
Top解决方案:
02UW-Madison GI Tract Image Segmentation(UW-Madison 肠胃道图像分割大赛)
- 方向:CV-图像分割-医疗
- 介绍:在本次竞赛中,参赛者将创建一个模型,以便在 MRI 扫描中自动分割胃和肠,基于这些扫描的数据集来制定算法,以提出创造性的深度学习解决方案,帮助癌症患者获得更好的护理。
Top解决方案:
03HuBMAP - Hacking the Kidney(入侵肾脏大赛)
- 方向:CV-图像分割-医疗
- 介绍:本次竞赛的目标是实施成功且强大的肾小球FTU检测器。参赛者面临的挑战是检测不同组织制备管道中的功能性组织单位(FTU)
Top解决方案:
04Cassava Leaf Disease Classification(木薯叶病分类大赛)
- 方向:CV-图像分类-农业
- 介绍:参赛者的任务是将每个木薯图像分为四个疾病类别或第五个类别,表明健康的叶子。农民借此能够快速识别患病植物,在作物造成无法弥补的损害之前挽救它们。
Top解决方案:
05SETI Breakthrough Listen - E.T. Signal Search(搜索外星人信号大赛)
- 方向:CV-图像分类-天文
- 介绍:在本次竞赛中,参赛者使用自己的数据科学技能来帮助识别突破性聆听目标扫描中的异常信号。
Top解决方案:
KAGGLE
Q&A
关于新手小白的十大问
1Kaggle 什么时候报名比赛?
全年滚动,随时可以报名比赛。
2Kaggle 账号注册会显示注册地吗?
不会的
3Kaggle 在比赛过程中会有摄像头监控吗?
没有
4kaggle这个比赛还有报名费以及其他费用之类的吗?
没有
5学生的账号主页会显示什么?
学生自定义的头像、参与的项目以及获奖结果。
6Kaggle 学生主页会显示指导老师是谁吗?
不会
7Kaggle 比赛流程是怎么样的?
流程:
一场比赛一般三个月左右,主办方提供训练数据,然后导师和学生需要设计并训练一个模型推理主办方给出的测试数据。
测试数据一般有两部分,一个是公榜部分一个是私榜部分,公榜部分的测试数据结果,在你提交模型之后就可以看到,私榜部分的测试数据结果在比赛结束之后才可以看到,最终得分也是看私榜部分的测试数据结果。
公榜部分的测试数据结果起到一个参考作用,用以指导的模型训练
8Kaggle 奖项是如何设置的?
具体要看比赛的具体参赛人数,举个例子:
如果这个比赛在99 支队伍以内,前40%能获得铜牌,前20%获得银牌,前10%获得金牌。以此类推...........
9Kaggle 获奖后怎么用作申请?
比赛获奖后,官方不会颁发奖状,但学生的账号会显示获奖结果,到时候申请可以给学校看学生的主页链接即可。
10kaggle有哪几个赛道?
Getting star、playground、featured、research
近期可报Kaggle竞赛
01、UM-蒙特卡洛树搜索游戏能力预测
报名截止:2024 年 11 月 16 日
所属领域:数据挖掘、人工智能、强化学习
留学申请:适合于机器学习 ML,人工智能 AI,计算机 CS 研究生项目
求职相关:科技公司 的 AI Engineer,Data Scientist 和 AI Researcher 岗位
02ARC Prize 2024
报名截止: 2024 年 11 月 03 日
所属领域 : 人工智能,算法相关方向。
留学申请 : 适合于人工智能 AI,数据科学 DS,计算机 CS 研究生项目
求职相关 : 科技公司的 AI Researcher,Data Scientist,ML Engineer 岗位
03NeurIPS - Ariel 数据挑战赛2024
报名截止:2024 年 10 月 25 日
所属领域:数据挖掘、人工智能、信号处理,天文学
留学申请:适合于机器学习ML,人工智能AI,计算机CS,电子工程EE项目
求职相关:科技公司的AI Engineer,Data Scientist 和AI Researcher岗位
04Eedi - 挖掘数学中的错误概念
报名截止:2024年12月05日
所属领域:自然语言处理、人工智能、深度学习、大语言模型
留学申请:适合于机器学习ML,人工智能AI,计算机科学CS项目
求职相关:科技公司的AI Engineer,Data Scientist和AI Researcher岗位
05CMI — 青少年互联网使用预测
报名截止:2024年12月13日
所属领域:数据科学、机器学习、人工智能、时间序列分析、心理健康
留学申请:适合于机器学习(ML)、人工智能(AI)、数据科学(DS)、计算机科学(CS)等相关领域项目
求职相关:适用于科技公司中的AI工程师、数据科学家和AI研究员等岗位