Part 1
机器学习概览
什么是机器学习? 机器学习和人工智能的关系 机器学习的工作方式
-
选择数据:将你的数据分成三组:训练数据、验证数据和测试数据 -
模型数据:使用训练数据来构建使用相关特征的模型 -
验证模型:使用你的验证数据接入你的模型 -
测试模型:使用你的测试数据检查被验证的模型的表现 -
使用模型:使用完全训练好的模型在新数据上做预测 -
调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现
机器学习所处的位置
-
传统编程:软件工程师编写程序来解决问题。首先存在一些数据→为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做→计算机遵照这一流程执行,然后得出结果
-
统计学:分析师比较变量之间的关系
-
机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。首先存在大数据→机器会学习使用训练数据集来进行分类,调节特定的算法来实现目标分类→该计算机可学习识别数据中的关系、趋势和模式
-
智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据
机器学习的实际应用

-
快速三维地图测绘和建模:要建造一架铁路桥,PwC的数据科学家和领域专家将机器学习应用到了无人机收集到的数据上。这种组合实现了工作成功中的精准监控和快速反馈。
-
增强分析以降低风险:为了检测内部交易,PwC将机器学习和其它分析技术结合了起来,从而开发了更为全面的用户概况,并且获得了对复杂可疑行为的更深度了解。
-
预测表现最佳的目标:PwC使用机器学习和其它分析方法来评估 Melbourne Cup 赛场上不同赛马的潜力。
Part 2
机器学习的演化

五大流派
-
符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,最喜欢的算法是:规则和决策树
-
贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫
-
联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,最喜欢的算法是:神经网络
-
进化主义:生成变化,然后为特定目标获取其中最优的,最喜欢的算法是:遗传算法
-
Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要离开道路),最喜欢的算法是:支持向量机
演化的阶段

-
1980年代 —— 主导流派:符号主义,架构:服务器或大型机,主导理论:知识工程,基本决策逻辑:决策支持系统,实用性有限
-
1990年代到2000年 —— 主导流派:贝叶斯,架构:小型服务器集群,主导理论:概率论,分类:可扩展的比较或对比,对许多任务都足够好了
-
2010年代早期到中期 —— 主导流派:联结主义,架构:大型服务器农场,主导理论:神经科学和概率,识别:更加精准的图像和声音识别、翻译、情绪分析等
流派有望合作融合到一起

-
2010年代末期 —— 主导流派:联结主义+符号主义,架构:许多云,主导理论:记忆神经网络、大规模集成、基于知识的推理,简单的问答:范围狭窄的、领域特定的知识共享
-
2020年代+ —— 主导流派:联结主义+符号主义+贝叶斯+……,架构:云计算和雾计算,主导理论:感知的时候有网络,推理和工作的时候有规则,简单感知、推理和行动:有限制的自动化或人机交互
-
2040年代+ —— 主导流派:算法融合,架构:无处不在的服务器,主导理论:最佳组合的元学习,感知和响应:基于通过多种学习方式获得的知识或经验采取行动或做出回答
Part 3
机器学习的算法
决策树
Decision Tree
支持向量机
Support Vector Machine

回归
Regression
朴素贝叶斯分类
Naive Bayes Classification

隐马尔可夫模型 Hidden Markov model 随机森林 Random forest

循环神经网络
Recurrent neural network
长短期记忆与门控循环单元神经网络
LSTM & GRU nerual network

卷积神经网络
convolutional neural network
