大数据时代下的数据科学

前言:目前数据科学及深度学习在全球大热,经过几年的学习及实践,仍感只知皮毛,一点不像搞前端那样有成就感,为了便于记忆,也给后来者填坑铺路,决定不定期发布关于数据科学、深度学习及医学图像处理方面的博文,如果你略懂编程那是极好的,不懂也没关系,先试着看,要是看着看着睡着了,最起码也起到了些许催眠作用~

数据科学简介

数据科学是一门通过大数据提取有价值的部分来产生新数据的学科,它结合了诸多领域的理论和技术,包括数学、统计、机器学习及高性能计算等。数据科学技术可以帮助我们正确的处理数据,并协助我们在生物医学及社会科学等领域进行研究,更好的写paper。数据科学简单说就是,不要靠拍脑袋下结论,要以数据为根据,让事实说话,并根据以往数据解决新问题。

数据科学家被哈佛商业评论称为《二十一世纪最Sexy的职业》。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。数据科学家在美欧在需求巨大,早在2011年,麦肯锡公司就宣布全世界上此职业人才短缺超过二十万人,缺口仍在逐年递增[1]。而如果你有大数据,或者具备分析这些数据的能力,你就是其中不可或缺的那一位。Drew Conway给出的数据科学的一个文氏图,很好的诠释了数据科学的技能要求[2]。

{% asset_img 1.png %}

尽管数据科学家们通常被描述成精通R、Python、SQL、Hadoop和统计学的程序员,但这只是冰山一角,就像实验技术员可以自称物理学家一样,真正的物理学家远不止这样,而且领域专业知识各种各样:天文学、数学、物理学、核物理、力学、电学、信号处理(也是数据科学的一个子领域)等等。以此类比数据科学家,真正涉及到的领域可能多种多样,生物信息学、信息技术、模拟和质量控制、金融工程、传染病学、工业工程等。

数据科学、机器学习、深度学习及统计学之间的关系

机器学习中的学习一词表示算法依赖于一些数据(被用作训练集),来调整模型或算法的参数。这包含了许多的技术,比如梯度下降、激活函数、回归、朴素贝叶斯或监督聚类等等。机器学习是在一系列数据集上进行训练的算法,从而对新数据做出预测。例如,基于历史数据,监督分类算法就被用来分类潜在的客户或贷款意向;根据生活饮食习惯及临床症状的大数据预测胃癌发病几率;学习正常胸片的灰阶分布,分类出异常胸片等。这些都是数据科学的分支。当这些算法被用于自动化的时候,就像在自动飞行或无人驾驶汽车中,它被称为人工智能,更具体的细说,就是深度学习[3]。

机器学习和统计学都是数据科学的一部分,统计学实际上是在置信区间内的机器学习,基于数据进行推断,而机器学习是基于数据进行预测,不过上述这些概念仍然在争论不休中,在国内的知乎,国外的quora里搜索相关概念,你会发现绝对打成一锅粥。

先聊这些,有时间继续写。

[1] https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation

[2] http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

[3] http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

大数据时代下的数据科学

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动到顶部