机器学习(ML )

概率近似正确 - PAC(Probably Approximately Correct)

最重要理论模型 :

P (| f (X) - y | \leq ϵ) \geq 1 - δ

其中:

$X : d a t a$
$f (X) : 对 X 的判断$
$y : 真实值$
$ϵ : 一个趋于零值$
$P : 概率值$
$δ : 一个趋于零值$

NFL定理: 具体问题, 具体分析.

没有最好的算法,只有相对较优的算法

( 马哲贯彻人生🙃 )

误差

Underfitting(欠拟合)
Overfitting(过拟合)

三个关键问题

1. 评估方法

留出法(hold-out)
将data切分为两个set,训练集和测试集(0.8:0.2 ...)
- 保证数据分布一致性(分层采样)
- 多次重复划分(百次测试求均值,去除切分数据的影响)
- 最终预测模型为全数据训练
$k$ -fold交叉验证法(cross calidation)
进行 $k$ 次划分,去除划分扰动,再根据 $k$ 划分 data后,循环训练这 $k$ 个集合
- 留一法( $k = X - 1$ , 则得到 level-one-out, LOO )
自助法(bootstrap)
基于可重复采样, 约有36.8%的数据不会被抽中
- 训练集与原样本集相同
- 包外估计(out-of-bag estimation)

lim_{m \to \infty} {(1 - \frac{1}{m})}^{m} = \frac{1}{e} \approx 0.368

参数

算法的参数: 一般由人设定,也称为 “超参数”
模型的参数: 一般由学习确定

2. 性能度量

回归任务

常用均方误差Err :

E (f, X) = \frac{1}{2 m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}

分类任务

错误率Err:

$E (f, X) = \frac{1}{m} \sum_{i = 1}^{m} I \cdot (f (x_{i}) \neq y_{i})$

精度Acc:

$A (f, X) = \frac{1}{m} \sum_{i = 1}^{m} I \cdot (f (x_{i}) = y_{i})$

$= 1 - E (f, X)$

查准率: $P = \frac{T P}{T P + F P}$
查全率: $R = \frac{T P}{T P + F N}$
$F_{1}$ 度量: $\frac{1}{F_{1}} = \frac{1}{2} \cdot (\frac{1}{P} + \frac{1}{R})$
$F_{β}$ 度量:

$\frac{1}{F_{β}} = \frac{1}{1 + β^{2}} \cdot (\frac{1}{P} + \frac{β^{2}}{R})$

$当 {\begin{cases} β < 1, & 查准率影响更大 \\ β > 1, & 查全率影响更大 \end{cases}$

3. 比较检验

统计假设检验为学习器性能比较提供了重要依据

交叉验证t检验(基于成对t检验)
- k-fold交叉检验; $5 \times 2$ 交叉验证
McNemar检验(基于列联表,卡方检验)

线性模型

1. 线性回归

$y ⋍ \sum_{i = 1}^{m} w_{i} x_{i} + b = w^{T} x + b$

离散变量
- 有序: 0,1,2
- 无序: 001,010,100 (k维向量)

令均方误差最小化:

$(w^{*}, b^{*}) = \arg min_{(w, b)} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$

$= \arg min_{(w, b)} \sum_{i = 1}^{m} (w x_{i} + b - y_{i})^{2}$

对 $E (w, b) = \sum_{i = 1}^{m} (w x_{i} + b - y_{i})^{2}$

最小二乘法估计

$\frac{\partial E (w, b)}{\partial w} = 2 (w \sum_{i = 1}^{m} x_{i}^{2} - \sum_{i = 1}^{m} (y_{i} - b) x_{i})$

$\frac{\partial E (w, b)}{\partial b} = 2 (m b - \sum_{i = 1}^{m} (y_{i} - w x_{i}))$

令导数为0,得到闭式(closed-form)解:

$w = \frac{\sum_{i = 1}^{m} y_{i} (x_{i} - \overset{―}{x})}{\sum_{i = 1}^{m} x_{i}^{2} - \frac{1}{m} {(\sum_{i = 1}^{m} x_{i})}^{2}}$

$b = \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - w x_{i})$

2. 多元(multi-variate)线性回归

$y ⋍ w_{0} + w^{1} x^{1} + w^{2} x^{2} + \cdot \cdot \cdot + w^{n} x^{n}$

$= \sum_{i = 0}^{m} w^{i} x^{i} = W^{T} X$

后面我们对观测集,采用下面记号:

$X_{N \times p} = [\begin{matrix} x_{11} & x_{12} & \dots & x_{1 p} \\ x_{21} & x_{22} & \dots & x_{2 p} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{N 1} & x_{N 2} & \dots & x_{N p} \end{matrix}]$

$= (x_{1}, x_{2}, x_{3}, \dots, x_{N})^{T}$

其中 $x_{i} = (x_{i 1}, x_{i 2}, \dots, x_{i p})^{T} (i \in N)$

最小二乘估计

${\hat{w}}^{*} = \arg min_{\hat{w}} (y - X \hat{w})^{T} (y - X \hat{w})$

令 $E_{\hat{w}} = (y - X \hat{w})^{T} (y - X \hat{w})$

对 $\hat{w}$ 求导: $\partial E_{\hat{w}} = 2 X^{T} (X_{\hat{w}} - y)$ 令其为零可得 $\hat{w}$

若 $X^{T} X$ 满秩或正定, 则 ${\hat{w}}^{*} = (X^{T} X)^{- 1} X^{T} y$
若 $X^{T} X$ 不满秩, 则可以解出多个 $\hat{w}$
- 设置归纳偏好或表达为引入正则化

3. 广义线性模型

一般形式:

y = g^{- 1} (W^{T} X)

例如对于 $f (x) = e^{W^{T} X}$ 可以通过对其求 $\ln$ 来降幂从而达到线性拟合,如下图

4. 对率回归:

对数几率回归(logistic regression) 简称对率回归
$\frac{y}{1 - y} ⟶ \frac{P (p o s t i v e | X)}{P (n e g e t i v e | X)}$ :几率(odds) 即 log odds $⟶$ logit

对于线性回归模型产生的实值输出 $z = W^{T} X$ 和期望输出 $y \in {0, 1}$

理想函数 $y (z) = {\begin{cases} 0, & z < 0 \\ 0.5, & z = 0 \\ 1, & z > 0 \end{cases}$ 的函数性质较差,因此寻找如下替代函数 $y = \frac{1}{1 + e^{- z}}$

相比之下,替代函数的性质更好

对率函数(logistic function)与逻辑没有任何关系
实值函数,在 $y \in (0, 1)$ 连续
用回归模型做分类

因此对 $y = \frac{1}{1 + e^{- z}}, z = W^{T} X$

$⟹ y = \frac{1}{1 + e^{- (W^{T} X)}} ⟹ \ln \frac{y}{1 - y} = W^{T} X$

无需事先进行假设数据分布
可以得到“类别”的近似概率预测
可直接应用现有数值优化算法求取最优解

通过极大似然法求解

不能通过求梯度为零得极值点，因为目标函数，并不是凸函数

$max \ln (P (True-Positive) P (Positive) + P (True-Negative) P (Negative))$

即 $max \ln (y \cdot \frac{e^{W^{T} X}}{1 + e^{W^{T} X}} + (1 - y) \frac{1}{e^{W^{T} X}})$

简化之后可得

$max (\ln (y \cdot e^{W^{T} X} + 1 - y) - \ln (1 + e^{W^{T} X}))$

由于 $y = 0$ 或 $y = 1$

那么 $max {\begin{cases} W^{T} X - \ln (1 + e^{W^{T} X}), & if y = 1 \\ - \ln (1 + e^{W^{T} X}), & if y = 0 \end{cases}$

合并上述讨论可得函数 $max (y \cdot W^{T} X - \ln (1 + e^{W^{T} X}))$

$\to z = min (\ln \frac{1 + e^{W^{T} X}}{e^{y \cdot W^{T} X}}) \to z = min (\ln \frac{1 + e^{f (x)}}{e^{y \cdot f (x)}})$

一般情况下，到此处使用梯度下降法求解，更适合计算机迭代，可以使用二阶导得到，但并不通用。

梯度下降法如果矩阵不是满秩，没有逆矩阵，就无法使用最小二乘法。

5. 线性鉴别分析

Linear Discriminant Analysis
目标：最大化广义瑞利商
尽可能的最小化同类之间的距离，最大化异类之间的距离

$min (w^{T} Σ_{0} w + w^{T} Σ_{1} w)$

$max (| w^{T} μ_{0} - w^{T} μ_{1} |_{2}^{2})$

于是可求解 $max J$

$max J = max (\frac{| w^{T} μ_{0} - w^{T} μ_{1} |_{2}^{2}}{w^{T} Σ_{0} w + w^{T} Σ_{1} w}) = max (\frac{w^{T} (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} w}{w^{T} (Σ_{0} + Σ_{1}) w})$

类内散度矩阵（within-class scatter matrix）

$S_{w} = Σ_{0} + Σ_{1}$

$= \sum_{x \in X_{0}} (x - μ_{0}) (x - μ_{0})^{T} + \sum_{x \in X_{1}} (x - μ_{1}) (x - μ_{1})^{T}$

类间散度矩阵（between-class scatter matrix）

$S_{b} = (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T}$

因此就有：

$max J = max (\frac{w^{T} S_{b} w}{w^{T} S_{w} w})$

其等价于

$min_{w} - w^{T} S_{b} w s . t . w^{T} S_{w} w = 1$

由拉格朗日子乘法

$g (x) = - w^{T} S_{b} w + λ (w^{T} S_{w} w - 1)$

令 $g^{'} (x) = 0$ 且其相关系数矩阵是对称即得 $- (S_{b} + S_{b}^{T}) w + λ (S_{w} + S_{w}^{T}) w = - 2 S_{b} w + 2 λ S_{w} w = 0$

易得 $S_{b} w = (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} w$

注意到求解的 $w$ 关注的是线性方程的方向，而 $(μ_{0} - μ_{1})^{T} w$ 为标量

于是可令 $λ = (μ_{0} - μ_{1})^{T} w$

$w = S_{w}^{- 1} (μ_{0} - μ_{1})$

通常情况下进行奇异值分解更加快速便捷 $S_{w} = U Σ V^{T}$

然后可得： $S_{w}^{- 1} = V Σ^{- 1} U^{T}$

6. 多分类问题

现实中常使用多分类来解决分类问题

OvO & OvR

对于 $N$ 个类别 $C_{1}, C_{2}, C_{3}, \dots, C_{N}$ ，可以将其折分成二分类问题，这将会产生 $\frac{N \cdot (N - 1)}{2}$ 次分类

或者拆分成非均衡的二分类，即一对其余（One v.s. Rest），仅需 $N$ 个分类器

虽然OvO进行多次分类，但OvR每个分类器都使用全部的样例，所以两者在多数情况下时间开销相近

MvM

多对多分类（Many v.s. Many）

OvO & OvR显然是MvM的特例

针对多对多的分类问题，常采用纠错输出码（error correction output codes ECOC）

ECOC

ECOC工作过程主要分为编码和解码两步

编码对 $N$ 个类别做 $M$ 次划分，每次划分，将一部分类别化为正类，一部分化为反类，从而形成一个二分类训练机；这样一共有 $M$ 个训练集，可以训练出 $M$ 个分类器
解码 $M$ 个分类器分别对样本进行预测，这些预测标记组成一个编码，将这个预测编码与每个类别各自比较，返回其中距离最小的类别作为最终预测结果

7. 类别不平衡问题

之前的分类学习方法都有一个共同基本假设，不同类别的训练样例数目相当

如果不同类别的训练样例数目稍稍不同，通常影响不大

但若是差别很大，会对学习过程造成困扰，例如十分极端的训练样例 $正例 : 反例 = 99 : 1 或者 998 : 2$

模型的训练时，只需一直返回多数方即可达到 $99 %, 99.8 %$ 但是这样的学习器没有任何价值，它无法预测任何反例。

类别不平衡 就是指在分类任务中不同类别的训练样例数目差别较大的情况。

在拿到新的数据进行预测时，预测结果的决策，需要依靠所训练出的分类规则

对于线性模型，当进行决策时，预测结果为正类，就是根据其预测为正类的概率大于负类的概率，换言之：

$\frac{y}{1 - y} > 1$

然而在类别不平衡的条件下，训练出的分类器并不是这样，如正类小于负类的情况下，当预测的符合 $\frac{y}{1 - y} > ? > 1$ 才会被鉴别为正类，显然这样的分类器并不“公平”

因此在类别不平衡学习中，对于分类器的决策执行时，可以对其进行“再缩放”

即 $\frac{y^{'}}{1 - y^{'}} = \frac{y}{1 - y} \cdot \frac{1}{?}$ 使之平衡

但实际上实现起来却很难，因为我们认为的训练集是总体的无偏采样，能够代表总体概率。但实际上训练集数据抽取是随机的，它的偏差可能很大。

欠（下）采样——减少多的一方
过（上）采样——增加少的一方
阈值移动——采用缩放使之平衡

决策树模型

分而治之，对属性进行判断从而划分

停止条件

当前结点包含的样本全属于同一类别，无需划分
当前节点属性集为空，或者所有样本在属性上取值相同，无法划分
当前结点包含的样本集为空，不能划分

决策树的核心在于，使用什么划分方式，能使得属性得到最优划分决策树是从信息论的基础上发展而来

信息熵

Entropy 用于度量信息的混乱和纯净程度

在集合 $D$ 中，第k类样本占比 $p_{k}$ ,则 $D$ 的信息熵为

$E n t (D) = - \sum_{k = 1}^{| y |} p_{k} \cdot l o g_{2} p_{k}$

信息增益

信息增益是进行划分后信息熵减小所获得的收益量

对离散属性a： $a^{1}, a^{2}, . . ., a^{V}$ $D_{v} (a = a^{v}) \subseteq D$

$G a i n (D, a) = E n t (D) - \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} \cdot E n t (D^{v})$

增益率

当编号考虑为属性，那么上述信息增益的划分方式泛化会非常糟糕，因此引入一个分支数目作为分母，抵消分支数目过多的问题

$G a i n_r a t i o (D, a) = \frac{G a i n (D, a)}{I V (a)}$ ， $I V (a) = - \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} \cdot l o g_{2} \frac{| D^{V} |}{| D |}$ （C4.5算法)

基尼指数(Gini index)

$G i n i (D) = 1 - \sum_{k = 1}^{| y |} p_{k}^{2}$

属性a的基尼指数： $G i n i_{i} n d e x (D, a) = \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} \cdot G i n i (D^{v})$

剪枝

pruning 用于对抗过拟合

预剪(pre-pruning)：预先设置条件，防止生长
后剪枝(post-pruning)：生成后再剪枝

缺失值处理

直接丢弃的方式在高维度数据时十分浪费

如何进行划分属性选择
给定划分属性，若样本在该属性值缺失，如何划分

基本思路：样本赋权，权重划分

神经网络

简单的神经元模型：激活信号达到反应阈值，就产生输出。

$y = f (\sum_{i = 1}^{n} w_{i} x_{i} - θ_{j})$

理想的映射法则是间断的 $y = s g n (x)$ , 然而更长用的是其替代函数：Sigmoid函数

多层网络：包含隐层的网络。前馈网络：神经元之间不存在同层连接、跨层连接。

隐层和输出层神经元也称为功能单元

设置隐层数目需要进行试错

万有逼近性说明了 神经网络的可行性

BP算法

误差逆传播算法（BackPropagation），使用广义感知机学习规则： $v \leftarrow v + Δ v$ 基于梯度下降的策略，以负方向对参数进行调整

为方便讨论，做如下规定：给定训练集 $D = (x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{m}, y_{m}), x_{i} \in R^{d}, y_{i} \in R^{l}$ 输入： $d$ 维向量输出： $l$ 个输出值隐层： $q$ 个隐层神经元输入层权值： $v_{1 h}, v_{2 h}, \dots, v_{i h}$ 隐层权值： $w_{h 1}, w_{h 2}, \dots, w_{h j}$

第 $h$ 个隐层神经元的输入： $α_{h} = \sum_{i = 1}^{d} v_{i h} x_{i}$ 第 $h$ 个隐层神经元的输出： $b_{h}$ 第 $j$ 个输出神经元的输入： $β_{j} = \sum_{h = 1}^{q} w_{h j} b_{h}$ 网络实际输出 ${\hat{y}}_{k} = ({\hat{y}}_{1}^{k}, {\hat{y}}_{2}^{k}, \dots, {\hat{y}}_{l}^{k})$ ${\hat{y}}_{j}^{k} = f (β_{j} - θ_{j})$ 均方误差： $E_{k} = \frac{1}{2} \sum_{j = 1}^{l} ({\hat{y}}_{j}^{k} - y_{j}^{k})^{2}$

则共需学习的参数数目为 $(d + l + 1) q + l$

误差导致 $Δ v$ 需要进行改变，因此通过梯度下降的方式调整 $Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}}$ 其中 $η \in (0, 1)$ 表示每次进行改变的幅度，不宜过大，否则在后期易发生振荡，也不宜过小，导致迭代次数过多

$\frac{\partial E_{k}}{\partial w_{h j}} = \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \cdot \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial w_{h j}}$

注意到

$\frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} = ({\hat{y}}_{j}^{k} - y_{j}^{k})$

${\hat{y}}_{j}^{k} = f (β_{j} - θ_{j})$

对Sigmoid函数有 $f^{'} (x) = f (x) \cdot (1 - f (x))$

令 $g_{j} = - \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \cdot \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}} = {\hat{y}}_{j}^{k} (1 - {\hat{y}}_{j}^{k}) (y_{j}^{k} - {\hat{y}}_{j}^{k})$

于是有 $Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}} = η g_{j} b_{h}$

类似地

$Δ θ_{j} = - η g_{j}$

$e_{h} = - \frac{\partial E_{k}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial α_{h}}$ $= - \sum_{j = 1}^{l} \frac{\partial E_{k}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial b_{h}} \cdot f^{'} (α_{h} - γ_{h})$ $= \sum_{j = 1}^{l} w_{h j} g_{j} f^{'} (α_{h} - γ_{h})$ $= b_{h} (1 - b_{h}) \sum_{j = 1}^{l} w_{h j} g_{j}$

$Δ v_{i h} = η e_{h} x_{i}$

$Δ γ_{h} = - η e_{h}$

其它算法

RBF算法
ART网络
SOM网络
级联相关网络
Elman网络
Boltzmann机

支持向量机

C/C++

数据结构

计算机组成原理

操作系统

计算机网络

数据库

Web前端

机器学习(ML )

概率近似正确 - PAC(Probably Approximately Correct)

误差

三个关键问题

1. 评估方法

参数

2. 性能度量

回归任务

分类任务

3. 比较检验

线性模型

1. 线性回归

2. 多元(multi-variate)线性回归

3. 广义线性模型

4. 对率回归:

通过极大似然法求解

5. 线性鉴别分析

6. 多分类问题

OvO & OvR

MvM

ECOC

7. 类别不平衡问题

决策树模型

信息熵

信息增益

增益率

基尼指数(Gini index)

剪枝

缺失值处理

神经网络

BP算法

其它算法

机器学习(ML )

概率近似正确 - PAC(Probably Approximately Correct) ​

误差 ​

三个关键问题 ​

1. 评估方法 ​

参数 ​

2. 性能度量 ​

回归任务 ​

分类任务 ​

3. 比较检验 ​

线性模型 ​

1. 线性回归 ​

2. 多元(multi-variate)线性回归 ​

3. 广义线性模型 ​

4. 对率回归: ​

通过极大似然法求解 ​

5. 线性鉴别分析 ​

6. 多分类问题 ​

OvO & OvR ​

MvM ​

ECOC ​

7. 类别不平衡问题 ​

决策树模型 ​

信息熵 ​

信息增益 ​

增益率 ​

基尼指数(Gini index) ​

剪枝 ​

缺失值处理 ​

神经网络 ​

BP算法 ​

其它算法 ​

概率近似正确 - PAC(Probably Approximately Correct)

误差

三个关键问题

1. 评估方法

参数

2. 性能度量

回归任务

分类任务

3. 比较检验

线性模型

1. 线性回归

2. 多元(multi-variate)线性回归

3. 广义线性模型

4. 对率回归:

通过极大似然法求解

5. 线性鉴别分析

6. 多分类问题

OvO & OvR

MvM

ECOC

7. 类别不平衡问题

决策树模型

信息熵

信息增益

增益率

基尼指数(Gini index)

剪枝

缺失值处理

神经网络

BP算法

其它算法