大数据时代下的数据科学

前言：目前数据科学及深度学习在全球大热，经过几年的学习及实践，仍感只知皮毛，一点不像搞前端那样有成就感，为了便于记忆，也给后来者填坑铺路，决定不定期发布关于数据科学、深度学习及医学图像处理方面的博文，如果你略懂编程那是极好的，不懂也没关系，先试着看，要是看着看着睡着了，最起码也起到了些许催眠作用~

数据科学简介

数据科学是一门通过大数据提取有价值的部分来产生新数据的学科，它结合了诸多领域的理论和技术，包括数学、统计、机器学习及高性能计算等。数据科学技术可以帮助我们正确的处理数据，并协助我们在生物医学及社会科学等领域进行研究，更好的写paper。数据科学简单说就是，不要靠拍脑袋下结论，要以数据为根据，让事实说话，并根据以往数据解决新问题。

数据科学家被哈佛商业评论称为《二十一世纪最Sexy的职业》。所谓性感，既代表着难以名状的诱惑，又说明了大家都不知道它干的是什么。数据科学家在美欧在需求巨大，早在2011年，麦肯锡公司就宣布全世界上此职业人才短缺超过二十万人，缺口仍在逐年递增[1]。而如果你有大数据，或者具备分析这些数据的能力，你就是其中不可或缺的那一位。Drew Conway给出的数据科学的一个文氏图，很好的诠释了数据科学的技能要求[2]。

{% asset_img 1.png %}

尽管数据科学家们通常被描述成精通R、Python、SQL、Hadoop和统计学的程序员，但这只是冰山一角，就像实验技术员可以自称物理学家一样，真正的物理学家远不止这样，而且领域专业知识各种各样：天文学、数学、物理学、核物理、力学、电学、信号处理（也是数据科学的一个子领域）等等。以此类比数据科学家，真正涉及到的领域可能多种多样，生物信息学、信息技术、模拟和质量控制、金融工程、传染病学、工业工程等。

数据科学、机器学习、深度学习及统计学之间的关系

机器学习中的学习一词表示算法依赖于一些数据（被用作训练集），来调整模型或算法的参数。这包含了许多的技术，比如梯度下降、激活函数、回归、朴素贝叶斯或监督聚类等等。机器学习是在一系列数据集上进行训练的算法，从而对新数据做出预测。例如，基于历史数据，监督分类算法就被用来分类潜在的客户或贷款意向；根据生活饮食习惯及临床症状的大数据预测胃癌发病几率；学习正常胸片的灰阶分布，分类出异常胸片等。这些都是数据科学的分支。当这些算法被用于自动化的时候，就像在自动飞行或无人驾驶汽车中，它被称为人工智能，更具体的细说，就是深度学习[3]。

机器学习和统计学都是数据科学的一部分，统计学实际上是在置信区间内的机器学习，基于数据进行推断，而机器学习是基于数据进行预测，不过上述这些概念仍然在争论不休中，在国内的知乎，国外的quora里搜索相关概念，你会发现绝对打成一锅粥。

先聊这些，有时间继续写。

[1] https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation

[2] http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

[3] http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

大数据时代下的数据科学

数据科学简介

数据科学、机器学习、深度学习及统计学之间的关系

发表回复 取消回复

发表回复取消回复