lijinlei 发表于 2024-11-26 16:51

【《人工智能实践教程》测评】机器学习

# 【《人工智能实践教程》测评】机器学习

基础介绍包括三部分:

1.人工智能和机器学习

2.机器学习和数学

3.机器学习的应用

第二部分为机器学习的算法借介绍。

## 认识机器学习

### 机器学习和人工智能的区别

只要能让计算机模拟人类行为的技术,都叫人工智能

### 人工智能的分类领域



#### 图像识别应用领域

自动驾驶 -> 深度神经网络/图像识别/模式识别 -> 特斯拉,百度,xx汽车集团有限公司
图像识别/图像处理 -> 深度神经网络/LSTM -> 学科网,华为,大疆

工业自动化 -> 机器学习/图像识别 -> 三一重工,大学

光学影像 -> 深度学习/模式识别 -> 西工大博士 李学龙教授
……

#### NLP应用领域

(大)数据分析 -> 大数据(Hadoop/Spark/MR, 深度学习/LSTM, NLP)-> 字节跳动(互联网),汇丰、华为

文本分析 -> 模式识别/NLP/LSTM -> 爱彼迎,大众点评、SAP

……

#### 语音识别应用领域

个人助手 -> 深度学习 -> 苹果(Siri),微软(Cortana)

自动话务员 -> 深度学习/模式识别/LSTM -> 科大讯飞

声纹识别 -> 深度学习/LSTM -> SpeakIn

### 机器学习与人工智能

机器学习是现阶段人工智能的核心技术,是通过统计学原理,来对数据进行分析与建模



### 机器学习的基本方法 – 数据训练

逻辑推理和数据训练

机器学习的基本思想是通过大量数据的学习,找到一定的规律(这个规律就叫做模型),当有新数据出现时,把新数据带入模型

- 优点
- (1)速度快
- (2)高度抽象化,简单易用
- 缺点
- (1)极度依赖数据
- (2)模型的好坏至关重要

### 深度学习和普通机器学习的区别

通过更高的复杂度,加强了让机器自我归纳总结的能力,并且通过规则的设计,让算法的扩展性更大

普通机器学习算法:一般就一个公式,一层推导,比较直接

深度学习算法:多个公式,多层推导,层层递进

强化学习和普通机器学习的区别:强化学习模拟人的认知过程,加入评价体系

### 机器学习的基本步骤



### 机器学习主要涉及的数学知识

- 高等数学
- 线性代数
- 概率论与数理统计

### 概率与高斯分布函数

概率: 上帝的骰子

中心极限定理与高斯分布函数

中心极限定理:

在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。



## 机器学习的算法

机器学习 ≈ 构建一个映射函数

- 机器学习:通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。
- 规律:决策(预测)函数

### 机器学习的三要素

模型

- 线性方法:
- 广义线性方法:

如果 φ(x) 为可学习的非线性基函数,f(x,θ)就等价于神经网络。

- 学习准则
- 期望风险
- 优化
- 梯度下降

### 模型

以线性回归(Linear Regression)为例

模型:



- 损失函数
- 0-1损失函数

- 平方损失函数

### 学习准则

- 期望风险未知,通过经验风险近似
- 训练数据:

- 经验风险最小化
- 在选择合适的风险函数后,我们寻找一个参数θ^*^ ,使得经验风险函数最小化

- 机器学习问题转化成为一个最优化问题





### 梯度下降法( Gradient Descent )

- 学习率是十分重要的超参数!

### 随机梯度下降法

随机梯度下降法(Stochastic Gradient Descent,SGD)也叫增量梯度下降,每个样本都进行更新小批量(Mini-Batch)随机梯度下降法。

### 过拟合

过拟合:经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高。

过拟合问题往往是由于训练数据少和噪声等原因造成的。

### 泛化错误

期望风险不等于经验风险

如何减少泛化错误?

- 优化 —— 经验风险最小
- 正则化 —— 降低模型复杂度

正则化(regularization):所有损害优化的方法都是正则化。

- 增加优化约束——L1/L2约束、数据增强
- 干扰优化过程——权重衰减、随机梯度下降、提前停止

### 提前停止

我们使用一个验证集(Validation Dataset)来测试每一次迭代的参数在验证集上是否最优。

如果在验证集上的错误率不再下降,就停止迭代。



### 线性回归(Linear Regression)

模型:

增广权重向量和增广特征向量

#### 优化方法

经验风险最小化(最小二乘法)

结构风险最小化(岭回归)

最大似然估计

最大后验估计

### 经验风险最小化

最大似然估计

### 概率

概率(Probability):一个随机事件发生的可能性大小,为0到1之间的实数。

- 随机变量(Random Variable)
- 概率分布(Probability Distribution)
- 伯努利分布(Bernoulli Distribution)
- 二项分布(Binomial Distribution)

连续随机变量的概率分布一般用概率密度函数( Probability Density Function , PDF )描述

- 高斯分布(Gaussian Distribution)
- 条件概率(Conditional Probability)

- 贝叶斯公式

- 最大似然估计

- 最大后验估计

### 多项式回归



### 机器学习的几个关键点

常见的机器学习类型



如何选择一个合适的模型?

#### 模型选择

拟合能力强的模型一般复杂度会比较高,容易过拟合。

如果限制模型复杂度,降低拟合能力,可能会欠拟合。

- 偏差与方差分解

- 模型选择:偏差与方差

- 集成模型:有效的降低方差的方法

#### PAC学习

Probably Approximately Correct

根据大数定律,当训练集大小|D|趋向无穷大时,泛化错误趋向于0,即经验风险趋近于期望风险。

#### 样本复杂度

PAC学习理论可以帮助分析一个机器学习方法在什么条件下可以学习到一个近似正确的分类器。

如果希望模型的假设空间越大,泛化错误越小,其需要的样本数量越多。

### 归纳偏置(Inductive Bias)

- 很多学习算法经常会对学习的问题做一些假设,这些假设就称为归纳偏置。

- 在最近邻分类器中,我们会假设在特征空间中,一个小的局部区域中的大部分样本都同属一类。

- 在朴素贝叶斯分类器中,我们会假设每个特征的条件概率是互相独立的。

- 归纳偏置在贝叶斯学习中也经常称为先验(Prior)。

页: [1]
查看完整版本: 【《人工智能实践教程》测评】机器学习