¶¯ÊÖÑ§Éî¶ÈÑ§Ï°£¨Èý£©£ºÏßÐÔÉñ¾ÍøÂç

EliorFoy ·¢±íÓÚ 2024-10-9 00:44

<div class='showpostmsg'>**ÊýÑ§¹«Ê½ÔÚ±¾ÎÄÖÐÏÔÊ¾²»È«£¬Èç¹ûÏëÒª¸üºÃµÄÔÄ¶ÁÌåÑé¿ÉÒÆ²½[¸öÈË²©¿Í¶ÔÓ¦ÎÄÕÂÁ´½Ó](https://eliorfoy.github.io/2024/10/09/%E5%A4%A7%E4%B8%89%E4%B8%8A/%E3%80%8A%E5%8A%A8%E6%89%8B%E5%AD%A6%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E3%80%8B%EF%BC%88%E4%B8%89%EF%BC%89/)**
# (Ò»)ÏßÐÔ»Ø¹é
## 1.Ä£ÐÍ
ÏßÐÔ»Ø¹é¼ÙÉèÊä³öÓë¸÷¸öÊäÈëÖ®¼äÊÇÏßÐÔ¹ØÏµ,ÏÂÃæÊÇÒ»¸ö¼òµ¥µÄÏßÐÔ»Ø¹éÄ£ÐÍ:
$$
\hat{y} = x_1w_1+x_2w_2+b
$$
### 2.ËðÊ§º¯Êý
Ë÷ÒýÎªiµÄÑù±¾Îó²î:
$$\ell^{(i)}(w_1,w_2,b)=\frac{1}{2}\Big(\hat{y}^{(i)}-y^{(i)}\Big)^2$$
³£Êý$\frac{1}{2}$Ê¹¶ÔÆ½·½ÏîÇóµ¼Ö®ºó³£ÊýÏîÏµÊýÎª1.
Ñù±¾Îó²îµÄÆ½¾ùºâÁ¿Ä£ÐÍÔ¤²âµÄÖÊÁ¿£¨ºâÁ¿Îó²îµÄº¯Êý³ÉÎªËðÊ§º¯Êý£©:

$$\ell(w_1,w_2,b)=\frac1n\sum_{i=1}^n\ell^{(i)}(w_1,w_2,b)=\frac1n\sum_{i=1}^n\frac12\Big(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)}\Big)^2$$
### 3.ÓÅ»¯Ëã·¨
Ð¡ÅúÁ¿Ëæ»úÌÝ¶ÈÏÂ½µ½øÐÐÓÅ»¯:
$$
\begin{gathered}
w_{1}\leftarrow w_{1}-\frac{\eta}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\frac{\partial\ell^{(i)}(w_{1},w_{2},b)}{\partial w_{1}}=w_{1}-\frac{\eta}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}x_{1}^{(i)}\left(x_{1}^{(i)}w_{1}+x_{2}^{(i)}w_{2}+b-y^{(i)}\right) \\
w_{2}\leftarrow w_{2}-\frac{\eta}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\frac{\partial\ell^{(i)}(w_{1},w_{2},b)}{\partial w_{2}}=w_{2}-\frac{\eta}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}x_{2}^{(i)}\left(x_{1}^{(i)}w_{1}+x_{2}^{(i)}w_{2}+b-y^{(i)}\right)\\
b\leftarrow b-\frac\eta{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\frac{\partial\ell^{(i)}(w_{1},w_{2},b)}{\partial b}=b-\frac\eta{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\left(x_{1}^{(i)}w_{1}+x_{2}^{(i)}w_{2}+b-y^{(i)}\right)
\end{gathered}$$
$\mathcal{B}$±íÊ¾Ã¿¸öÐ¡ÅúÁ¿ÖÐµÄÑù±¾Êý£¬$\eta$±íÊ¾Ñ§Ï°ÂÊ£¬ÅúÁ¿´óÐ¡ºÍÑ§Ï°ÂÊµÄÖµÍ¨³£ÊÇÊÖ¶¯Ô¤ÏÈÖ¸¶¨£¨³ÆÎª³¬²ÎÊý£©.¿ÉÒÔÓÉ±í´ïÊ½¿´³ö,¾ÍÊÇ²»¶Ïµü´ú¼õÈ¥ËðÊ§º¯ÊýµÄ¶ÔÓÚÈý¸ö²ÎÊýµÄÆ«µ¼ÊýµÄÆ½¾ù.
ÖÁÓÚÎªÊ²Ã´Ê¹ÓÃÌÝ¶ÈÏÂ½µËã·¨¶ø²»ÊÇÖ±½ÓÁîµ¼ÊýÎª0Çó½â,¿É²Î¿´[ÕâÆª»Ø´ð](https://www.zhihu.com/question/20319985):
>²»ÊÇËùÓÐµÄº¯Êý¶¼¿ÉÒÔ¸ù¾Ýµ¼ÊýÇó³öÈ¡µÃ0ÖµµÄµãµÄ, ÏÖÊµµÄÇé¿ö¿ÉÄÜÊÇ:
>1.¿ÉÒÔÇó³öµ¼ÊýÔÚÃ¿¸öµãµÄÖµ, µ«ÊÇÖ±½Ó½â·½³Ì½â²»³öÀ´, ±ÈÈçÒ»Ð©¼òµ¥µÄÉñ¾ÍøÂç
>2.µ¼ÊýÃ»ÓÐ½âÎö½â, ÏñÒ»¸öºÚÏ»×ÓÒ»Ñù, ¸ø¶¨ÊäÈëÖµ, ¿ÉÒÔ·µ»ØÊä³öÖµ, µ«ÊÇ¾ßÌåÀïÃæÊÇÊ²Ã´Çé¿ö, ¸ã²»Çå³þ, ¹¤³ÌÉÏËÆºõÓÐÕâÖÖÇé¿ö
>ÒÔÉÏÁ½ÖÖ¾Í²»ÄÜÖ±½ÓÁîµ¼ÊýÎª0Çó½â.
>Å£¶Ùµü´úºÍÌÝ¶ÈÏÂ½µ·¨¶¼¿ÉÒÔ¼ÆËã¼«Öµ, Çø±ðÔÚÓÚ, ÌÝ¶ÈÏÂ½µ·¨µÄËã·¨¸´ÔÓ¶ÈµÍÒ»Ð©, µ«ÊÇµü´ú´ÎÊý¶àÒ»Ð©; Å£¶Ùµü´ú·¨¼ÆËãµÄ¸ü¿ì(³õÖµ±ØÐëÉèÖÃµÄºÜºÏÀí), µ«ÊÇÅ£¶Ùµü´ú·¨ÒòÎªÓÐ"³ý·¨"²ÎÓë(¶Ô¾ØÕóÀ´Ëµ¾ÍÊÇÇóÄæ¾ØÕó), ËùÒÔÃ¿Ò»²½µü´ú¼ÆËãÁ¿ºÜ´ó. Ò»°ã»á¸ù¾Ý¾ßÌåµÄÇé¿öÈ¡Éá.
### 4.Ê¸Á¿±íÊ¾
¹ãÒåÉÏ,µ±Êý¾ÝÑù±¾Îªn,±í´ïÊ½±äÎª:
$$\hat{\boldsymbol{y}}=\boldsymbol{X}\boldsymbol{w}+b$$
ËðÊ§º¯Êý±äÎª:
$$\ell(\boldsymbol{\theta})=\frac{1}{2n}(\boldsymbol{\hat{y}}-\boldsymbol{y})^\top(\boldsymbol{\hat{y}}-\boldsymbol{y})$$
µü´ú²½Öè±ä³É:
$$\theta\leftarrow\theta-\frac{\eta}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\nabla_{\boldsymbol{\theta}}\ell^{(i)}(\boldsymbol{\theta})$$
$$\nabla_{\boldsymbol{\theta}}\ell^{(i)}(\boldsymbol{\theta})=\begin{bmatrix}\frac{\partial\ell^{(i)}(w_1,w_2,b)}{\partial w_1}\\\frac{\partial\ell^{(i)}(w_1,w_2,b)}{\partial w_2}\\\frac{\partial\ell^{(i)}(w_1,w_2,b)}{\partial b}\end{bmatrix}=\begin{bmatrix}x_1^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})\\x_2^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})\\x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)}\end{bmatrix}=\begin{bmatrix}x_1^{(i)}\\x_2^{(i)}\\1\end{bmatrix}(\hat{y}^{(i)}-y^{(i)})$$
### 5.ÎªÊ²Ã´Ñ¡Ôñ¾ù·½ËðÊ§
¾ù·½ËðÊ§º¯Êý¿ÉÒÔÓÃÓÚÏßÐÔ»Ø¹éµÄÒ»¸öÔÒòÊÇ:¼ÙÉèÁË¹Û²âÖÐ°üº¬ÔëÉù,ÆäÖÐÔëÉù·þ´ÓÕýÌ¬·Ö²¼:
$$y=\mathbf{w}^\top\mathbf{x}+b+\epsilon$$ÆäÖÐ£¬$\epsilon\sim\mathcal{N}(0,\sigma^2)$
Ê×ÏÈ¸´Ï°Ò»ÏÂ¸ÅÂÊÂÛÖÐµÄ¼«´óËÆÈ»¹À¼Æ:
ËÆÈ»¾ÍÊÇÓÉÒÑ¾·¢ÉúµÄ½á¹ûÀ´ÍÆ²â²úÉúÕâ¸ö½á¹ûµÄ¿ÉÄÜ»·¾³.
¾Ù¸öÀõ×Ó,¼ÙÉè½øÐÐÁËn´Î¶ÀÁ¢Ëæ»ú²âÑé,ÆäÖÐ"×´Ì¬1"·¢ÉúÁË$n_1$´Î,"×´Ì¬2"·¢ÉúÁË$n_2$´Î(´Ó¾ÑéºÍÖ±¾õ³ö·¢,×´Ì¬1·¢ÉúµÄ¸ÅÂÊÊÇ$\frac{n_1}{n_1+n_2}$)¶¨ÒåËÆÈ»º¯Êý$L(\theta)=\theta^{n_1}(1-\theta)^{n_2}$,Ê¹µÃËÆÈ»º¯Êý×î´ó,¾Í¿ÉÒÔÇó³ö$\hat{\theta}=\frac{n_1}{n_1+n_2}$.
ÔÚ»úÆ÷Ñ§Ï°ÖÐÊ¹ÓÃ¼«´óËÆÈ»¹À¼ÆµÄËã·¨ÓÐÆÓËØ±´Ò¶Ë¹¡¢EMËã·¨µÈ.ÀûÓÃ¼«´óËÆÈ»¹À¼Æ½¨Á¢µÄËðÊ§º¯ÊýÄ£ÐÍ£¬ÐèÒª½øÒ»²½½èÖú**ÌÝ¶ÈÏÂ½µ·¨**À´²»¶ÏµÄ¸üÐÂµü´ú²ÎÊý£¬À´¶Ô²ÎÊý½øÐÐÇó½â¡£
¶øÔÚ±¾½ÚÖÐ,yµÄËÆÈ»:
$$P(y\mid\mathbf{x})=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{1}{2\sigma^2}(y-\mathbf{w}^\top\mathbf{x}-b)^2\right)$$
ÇóËÆÈ»º¯ÊýµÄ×î´ó(ÓÉÓÚÀúÊ·ÔÒòÕâÀïÈ¡×îÐ¡):
$$-\log P(\mathbf{y}\mid\mathbf{X})=-\log (\prod_{i=1}^np(y^{(i)}|\mathbf{x}^{(i)}))=\sum_{i=1}^n \left(\frac{1}{2}\log(2\pi\sigma^2)+\frac{1}{2\sigma^2}\left(y^{(i)}-\mathbf{w}^\top\mathbf{x}^{(i)}-b\right)^2\right)$$
ºóÒ»ÏîËµÃ÷ÔÚ¸ßË¹ÔëÉùµÄ¼ÙÉèÏÂ×îÐ¡¾ù·½Îó²îµÈ¼ÛÓÚ¶ÔÏßÐÔÄ£ÐÍµÄ¼«´óËÆÈ»¹À¼Æ.
## (¶þ)ÏßÐÔ»Ø¹éµÄ´ÓÁã¿ªÊ¼ÊµÏÖ
### 1.Éú³ÉÊý¾Ý¼¯
```python
%matplotlib inline
import random
import torch
from d2l import torch as d2l
def synthetic_data(w, b, num_examples):#@save """Éú³Éy=Xw+b+ÔëÉù"""
X = torch.normal(0, 1, (num_examples, len(w))) # ÕýÌ¬·Ö²¼µÄËæ»ú¾ØÕó£¬num_examplesÖ¸¶¨Ñù±¾ÊýÁ¿£¬len(w)Ö¸¶¨ÁÐÊý
y = torch.matmul(X, w) + b# ¾ØÕóºÍÏòÁ¿Ïà³Ë
y += torch.normal(0, 0.01, y.shape)# Ìí¼ÓÔëÉù
return X, y.reshape((-1, 1))

true_w = torch.tensor()
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
```
### 2.¶ÁÈ¡Êý¾Ý¼¯
ÒÔÏÂÊÇÒ»¸ö»ñÈ¡Ð¡ÅúÁ¿Êý¾ÝµÄ´úÂë:
```python
def data_iter(batch_size, features, labels):
num_examples = len(features)
indices = list(range(num_examples))
# ÕâÐ©Ñù±¾ÊÇËæ»ú¶ÁÈ¡µÄ£¬Ã»ÓÐÌØ¶¨µÄË³Ðò
random.shuffle(indices)
for i in range(0, num_examples, batch_size):
   batch_indices = torch.tensor(
         indices)
   yield features, labels# ÕâÊÇÒ»¸öÉú³ÉÆ÷£¬Êµ¼ÊÉÏÉî¶ÈÑ§Ï°¿ò¼ÜÖÐÊµÏÖµÄÄÚÖÃµü´úÆ÷Òª±ÈÕâ¸ßÐ§µÃ¶à

batch_size = 10
for X, y in data_iter(batch_size, features, labels):
print(X, '\n', y)
break
# ½«Êý¾ÝÒÔ10¸öÎªÒ»×éËæ»ú·ÖÅä£¬È¡ÆäÖÐµÄÒ»×é
```
### 3.Ä£ÐÍÓëÄ£ÐÍ²ÎÊý
´Ó¾ùÖµÎª0¡¢±ê×¼²îÎª0.01µÄÕýÌ¬·Ö²¼ÖÐ²ÉÑùËæ»úÊýÀ´³õÊ¼»¯È¨ÖØ£¬ ²¢½«Æ«ÖÃ³õÊ¼»¯Îª0.³õÊ¼»¯ºóºóÐø¸üÐÂÕâÐ©²ÎÊýÀ´ÄâºÏÊý¾Ý.
```python
w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
```
¶¨ÒåÄ£ÐÍ:
```python
def linreg(X, w, b):#@save
"""ÏßÐÔ»Ø¹éÄ£ÐÍ"""
return torch.matmul(X, w) + b
```
¶¨ÒåËðÊ§º¯Êý:
```python
def squared_loss(y_hat, y):#@save
"""¾ù·½ËðÊ§"""
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
```
¶¨ÒåÓÅ»¯Ëã·¨(Ð¡ÅúÁ¿Ëæ»úÌÝ¶ÈÏÂ½µ):
```python
def sgd(params, lr, batch_size):#@save
"""Ð¡ÅúÁ¿Ëæ»úÌÝ¶ÈÏÂ½µ"""
with torch.no_grad():
   for param in params:
         param -= lr * param.grad / batch_size
         param.grad.zero_()# ÔÚÃ¿´Î²ÎÊý¸üÐÂºó£¬ÎÒÃÇÐèÒªÇå³ý¾ÉµÄÌÝ¶È£¬ÒÔ±ãÓÚÏÂÒ»´Îµü´úÊ±¼ÆËãÐÂµÄÌÝ¶È
```
### 4.ÑµÁ·
ÔÚÃ¿´Îµü´úÖÐ£¬¶ÁÈ¡Ò»Ð¡ÅúÁ¿ÑµÁ·Ñù±¾£¬²¢Í¨¹ýÄ£ÐÍÀ´»ñµÃÒ»×éÔ¤²â¡£ ¼ÆËãÍêËðÊ§ºó£¬¿ªÊ¼·´Ïò´«²¥£¬´æ´¢Ã¿¸ö²ÎÊýµÄÌÝ¶È¡£ ×îºó£¬µ÷ÓÃÓÅ»¯Ëã·¨`sgd`À´¸üÐÂÄ£ÐÍ²ÎÊý¡£ÔÚ»úÆ÷Ñ§Ï°ÖÐ£¬ÐèÒª¶à´Î±éÀúÕû¸öÑµÁ·Êý¾Ý¼¯£¨¼´¶à¸öepoch£©£¬ÔÚÃ¿¸öµü´úÖÜÆÚ£¨epoch£©ÖÐ£¬Ê¹ÓÃ`data_iter`º¯Êý±éÀúÕû¸öÊý¾Ý¼¯£¬ ²¢½«ÑµÁ·Êý¾Ý¼¯ÖÐËùÓÐÑù±¾¶¼Ê¹ÓÃÒ»´Î£¨¼ÙÉèÑù±¾ÊýÄÜ¹»±»ÅúÁ¿´óÐ¡Õû³ý£©,`num_epochs`ºÍÑ§Ï°ÂÊ`lr`¶¼ÊÇ³¬²ÎÊý£¬·Ö±ðÉèÎª3ºÍ0.03(ÉèÖÃ³¬²ÎÊýÐèÒª·´¸´ÊÔÑéµ÷Õû)¡£
```python
lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss

for epoch in range(num_epochs):
for X, y in data_iter(batch_size, features, labels):
   l = loss(net(X, w, b), y)# XºÍyµÄÐ¡ÅúÁ¿ËðÊ§
   # ÒòÎªlÐÎ×´ÊÇ(batch_size,1)£¬¶ø²»ÊÇÒ»¸ö±êÁ¿¡£lÖÐµÄËùÓÐÔªËØ±»¼Óµ½Ò»Æð£¬
   # ²¢ÒÔ´Ë¼ÆËã¹ØÓÚµÄÌÝ¶È
   l.sum().backward()# ÔµØ²Ù×÷¼ÆËãÌÝ¶È´æ´¢ÔÚ.gradÊôÐÔÖÐ
   sgd(, lr, batch_size)# Ê¹ÓÃ²ÎÊýµÄÌÝ¶È¸üÐÂ²ÎÊý
with torch.no_grad():# ÔÝÊ±½ûÓÃÌÝ¶È¼ÆËã
   train_l = loss(net(features, w, b), labels)
   print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')
```
## (Èý)ÏßÐÔ»Ø¹éµÄ¼ò½àÊµÏÖ
ÀûÓÃ¿ò¼ÜÌá¹©µÄÒ»Ð©API,ÄÜ¹»¶ÔÏßÐÔ»Ø¹é½øÐÐ¼òµ¥ÊµÏÖ.
**Ê×ÏÈ**»¹ÊÇÉú³ÉÊý¾Ý¼¯.
**È»ºó**¶ÁÈ¡Êý¾Ý¼¯Ê¹ÓÃPytorchÌá¹©µÄAPI½øÐÐ·â×°:
```python
def load_array(data_arrays, batch_size, is_train=True):#@save
"""¹¹ÔìÒ»¸öPyTorchÊý¾Ýµü´úÆ÷"""
dataset = data.TensorDataset(*data_arrays) # TensorDatasetÊÇPyTorchÖÐÓÃÓÚ´æ´¢Êý¾ÝºÍ±êÇ©µÄÀà
return data.DataLoader(dataset, batch_size, shuffle=is_train)

batch_size = 10
data_iter = load_array((features, labels), batch_size)
```
ÕâÀïµÄ`is_train`±íÊ¾ÊÇ·ñÏ£ÍûÊý¾Ýµü´úÆ÷¶ÔÏóÔÚÃ¿¸öµü´úÖÜÆÚÄÚ´òÂÒÊý¾Ý,ÓëÉÏ½ÚµÄdata_iter²»Í¬,ÕâÀïÎÒÃÇÊ¹ÓÃ`iter`¹¹ÔìPythonµü´úÆ÷,²¢Ê¹ÓÃ`next`´Óµü´úÆ÷ÖÐ»ñÈ¡µÚÒ»Ïî.
**È»ºó**¶¨ÒåÄ£ÐÍºÍÄ£ÐÍ²ÎÊý,Ê¹ÓÃPytorchÌá¹©µÄSequentialÀàÊ¹ÓÃ²ãÀ´¹¹ÔìÄ£ÐÍ(ÆäÊµ¿ÉÒÔ²»Ê¹ÓÃ,µ«ºóÐøÐí¶àÄ£ÐÍÊÇ¶à²ãµÄÒ²»áÓÃµ½),Ê¹ÓÃLinearÀàÀ´ÊäÈëÈ«Á¬½Ó²ã:
```python
# nnÊÇÉñ¾ÍøÂçµÄËõÐ´
from torch import nn
net = nn.Sequential(nn.Linear(2, 1))
```
ËðÊ§º¯Êý:
```python
loss = nn.MSELoss()
```
ÓÅ»¯Ëã·¨:
```python
trainer = torch.optim.SGD(net.parameters(), lr=0.03)
```
**×îºó**ÑµÁ·:
```python
num_epochs = 3
for epoch in range(num_epochs):
for X, y in data_iter:
   l = loss(net(X) ,y)
   trainer.zero_grad()# ·´Ïò´«²¥Ö®Ç°ÐèÒª½«ÌÝ¶È¹éÁãÒòÎªÄ¬ÈÏÇé¿öÏÂÌÝ¶ÈÊÇÀÛ¼ÓµÄ
   l.backward()
   trainer.step()# ¸üÐÂÍøÂç²ÎÊý
l = loss(net(features), labels)
print(f'epoch {epoch + 1}, loss {l:f}')
```
## (ËÄ)softmax»Ø¹é
»Ø¹é¿ÉÒÔÓÃÓÚÔ¤²â¶àÉÙµÄÎÊÌâ,Ò²¿ÉÒÔÓÃÓÚ·ÖÀàÎÊÌâ.**softmax »Ø¹é**(softmax regression)ÆäÊµÊÇ logistic »Ø¹éµÄÒ»°ãÐÎÊ½£¬logistic »Ø¹éÓÃÓÚ¶þ·ÖÀà£¬¶ø softmax »Ø¹éÓÃÓÚ**¶à·ÖÀà**.
### 1.softmax¼òµ¥½éÉÜ
¶ÔÓÚÊäÈëÊý¾Ý$\{(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\}$ÓÐk¸öÀà±ð,¼´$y_{i}\in\{1,2,\ldots,k\}$,ÄÇÃ´¶ÔÓÚsoftmax»Ø¹éÖ÷Òª¹ÀËãÊäÈëÊý¾Ý$x_i$¹éÊôÓÚÃ¿Ò»ÀàµÄ¸ÅÂÊ,¼´:
$$
\begin{gathered}h_{\theta}\left(x_{i}\right)=\begin{bmatrix}p\left(y_{i}=1|x_{i};\theta\right)\\p\left(y_{i}=2|x_{i};\theta\right)\\\vdots\\p\left(y_{i}=k|x_{i};\theta\right)\end{bmatrix}=\frac{1}{\sum_{j=1}^{k}e^{\theta_{j}^{T}x_{i}}}\begin{bmatrix}e^{\theta_{1}^{T}x_{i}}\\e^{\theta_{2}^{T}x_{i}}\\\vdots\\e^{\theta_{h}^{T}x_{i}}\end{bmatrix}\end{gathered}
$$
ÆäÖÐ$\theta_1,\theta_2,\ldots,\theta_k \in \theta$ÊÇÄ£ÐÍµÄ²ÎÊý,³ËÒÔ$\frac{1}{\sum_{j=1}^{k}e^{\theta_{j}^{T}x_{i}}}$ÊÇÎªÁËÈÃ¸ÅÂÊÎ»ÓÚ$$²¢ÇÒ¸ÅÂÊÖ®ºÍÎª1.
softmax»Ø¹éµÄ´ú¼Ûº¯Êý(´ú¼Ûº¯ÊýÍ¨³£ÊÇËðÊ§º¯ÊýÔÚËùÓÐÑµÁ·Ñù±¾ÉÏµÄÆ½¾ùÖµ»ò×ÜºÍ):
$$L(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^{k}1\left\{y_{i}=j\right\}\log\frac{e^{\theta_{j}^{T}x_{i}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x_{i}}}\right]$$
ÆäÖÐ$1\{\cdot\}$ÊÇÊ¾ÐÔº¯Êý,¼´$1\{ÖµÎªÕæµÄ±í´ïÊ½\}=1$,$1\{ÖµÎª¼ÙµÄ±í´ïÊ½\}=0$.
ÖÁÓÚÌÝ¶ÈÏÂ½µÇó½â×îÐ¡»¯´ú¼Ûº¯Êý¿ÉÒÔ²é¿´ÕâÆªÎÄÕÂ:(https://zhuanlan.zhihu.com/p/98061179#:~:text=softmax%20%E5%9B%9E%E5%BD%92(softmax%20regression)%E5%85%B6%E5%AE%9E%E6%98%AF%20logistic).
### 2.softmax»Ø¹éµÄËðÊ§º¯Êý£¨½»²æìØËðÊ§£©
ÉÏÊö´ú¼Û¹«Ê½ÎªÊ²Ã´ÊÇÕâÑùµÄÐÎÊ½£¿ÕâÀïÔËÓÃÁËÐÅÏ¢ÂÛÖÐµÄÒ»¸ö½Ð×ö½»²æìØµÄÖªÊ¶.
Ê×ÏÈÎÒÃÇÍ¨¹ýsoftmaxµÃµ½µÄ¸ÅÂÊÏòÁ¿¿ÉÄÜÊÇÒ»¸öÕâÑùµÄ$p=$£¬µ«ÊÇÎÒÃÇÊµ¼ÊÉÏÏëÒªµÃµ½µÄ$y=$,ËùÒÔÎÒÃÇÐèÒªÈ¥ÕÒÒ»¸öº¯ÊýÀ´ºâÁ¿ÇóµÃµÄ¸ÅÂÊÓëÕæÊµ±êÇ©µÄ²îÒì.
ÔÚÐÅÏ¢ÂÛÖÐÓÐÒ»¸öÏà¶ÔìØ(KLÉ¢¶È)µÄ¸ÅÄî:**Í¬Ò»¸öËæ»ú±äÁ¿X ÓÐÁ½¸öµ¥¶ÀµÄ¸ÅÂÊ·Ö²¼P(x), Q(x)£¬¿ÉÒÔÊ¹ÓÃKLÉ¢¶ÈÀ´ºâÁ¿ÕâÁ½¸ö¸ÅÂÊ·Ö²¼Ö®¼äµÄ²îÒì.**
$$D_{KL}\left(p||q\right)=\sum_{i=1}^np\left(x_i\right)\log\left(\frac{p\left(x_i\right)}{q\left(x_i\right)}\right)$$
Õâ¸ö¹«Ê½Õ¹¿ªÖ®ºó:
$$\begin{gathered}
D_{KL}\left(p||q\right)=\sum_{i=1}^np\left(x_i\right)\log\left(\frac{p\left(x_i\right)}{q\left(x_i\right)}\right) \\
=\sum_{i=1}^np\left(x_i\right)log\left(p\left(x_i\right)\right)-\sum_{i=1}^np\left(x_i\right)log\left(q\left(x_i\right)\right) \\
=-H\left(p\left(x\right)\right)+\left[-\sum_{i=1}^np\left(x_i\right)log\left(q\left(x_i\right)\right)\right]
\end{gathered}$$
Ç°°ë²¿·ÖÒ²ÓÐ¶¨Òå,½Ð×öÐÅÏ¢ìØ,¶ÔÓÚÐÅÏ¢ìØµÄ½âÊÍÊÇ: **ÐÅÏ¢Á¿µÄ´óÐ¡ÓëÐÅÏ¢·¢ÉúµÄ¸ÅÂÊ³É·´±È¡£¸ÅÂÊÔ½´ó£¬ÐÅÏ¢Á¿Ô½Ð¡¡£¸ÅÂÊÔ½Ð¡£¬ÐÅÏ¢Á¿Ô½´ó**.ÓÃ$I(x)=-log(P(x))$±íÊ¾ÐÅÏ¢Á¿,¶øÐÅÏ¢ìØ¾ÍÊÇÐÅÏ¢Á¿µÄÆÚÍûÖµ$H(x)=- \sum P(x_i)log(P(x_i))$.ºó°ë²¿·Ö½Ð×ö½»²æìØ,ÓÉÓÚÇ°°ë²¿·ÖÊÇÒ»¸ö³£Êý,ËùÒÔÒªÏëÊµÏÖÅÐ¶¨Êµ¼ÊµÄÊä³ö·Ö²¼ÓëÆÚÍûµÄÊä³ö·Ö²¼µÄ½Ó½ü³Ì¶È±íÊ¾¾Í¿ÉÒÔÊ¹ÓÃ½»²æìØ,Ô½½Ó½üÒ²¾ÍÊÇ½»²æìØÔ½Ð¡.ÒÔÉÏ²Î¿¼×Ô[¡¾ËðÊ§º¯ÊýÏµÁÐ¡¿½»²æìØ×öËðÊ§º¯ÊýÀíÂÛÖªÊ¶_½»²æìØº¯ÊýÈçºÎ¸ÄÎªËðÊ§º¯Êý](https://blog.csdn.net/gbz3300255/article/details/106810047),Ð´µÄºÜÒ×¶®.
### 3.softmaxËðÊ§º¯Êýµ¼Êý
softmaxµÄÊ¸Á¿±í´ïÊ½:
$$
\begin{aligned}
& \mathbf{O}=\mathbf{X} \mathbf{W}+\mathbf{b} \\
& \hat{\mathbf{Y}}=\operatorname{softmax}(\mathbf{O})
\end{aligned}
$$
¶ÔÓÚËðÊ§º¯Êý¶ÔÓÚ$o_j$µÄµ¼Êý:
$$
\begin{aligned}
l(\mathbf{y}, \hat{\mathbf{y}})
& =-\sum_{j=1}^q y_j \log \frac{\exp \left(o_j\right)}{\sum_{k=1}^q \exp \left(o_k\right)} \\
& =\sum_{j=1}^q y_j \log \sum_{k=1}^q \exp \left(o_k\right)-\sum_{j=1}^q y_j o_j \\
& =\log \sum_{k=1}^q \exp \left(o_k\right)-\sum_{j=1}^q y_j o_j . \\
\therefore \quad \partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}})
& =\frac{\exp \left(o_j\right)}{\sum_{k=1}^q \exp \left(o_k\right)}-y_j=\operatorname{softmax}(\mathbf{o})_j-y_j .
\end{aligned}$$
´ÓÉÏÊ½¿ÉÒÔ¿´³ö£¬softmax»Ø¹éµÄËðÊ§º¯ÊýµÄµ¼ÊýÊÇÎÒÃÇsoftmaxÄ£ÐÍ·ÖÅäµÄ¸ÅÂÊÓëÊµ¼Ê·¢ÉúµÄÇé¿ö£¨ÓÉ¶ÀÈÈ±êÇ©ÏòÁ¿±íÊ¾£©Ö®¼äµÄ²îÒì.
## (Îå)Í¼Ïñ·ÖÀàÊý¾Ý¼¯
### 1.»ñÈ¡Êý¾Ý
±¾½ÚÊ¹ÓÃµÄÊÇFashion-MNISTÊý¾Ý¼¯ ((https://zh-v2.d2l.ai/chapter_references/zreferences.html#id189 "Xiao, H., Rasul, K., & Vollgraf, R. (2017). Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms. arXiv preprint arXiv:1708.07747.")),MNIST(Modified National Institute of Standards and Technology database)Êý¾Ý¼¯ ((https://zh-v2.d2l.ai/chapter_references/zreferences.html#id90 "LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., & others. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278¨C2324.")) ÊÇÍ¼Ïñ·ÖÀàÖÐ¹ã·ºÊ¹ÓÃµÄÊý¾Ý¼¯Ö®Ò»,Fashion-MNISTÊý¾Ý¼¯¸ü¸´ÔÓ.
```python
# Ê¹ÓÃ¿ò¼ÜÄÚÖÃº¯ÊýÏÂÔØÊý¾Ý¼¯²¢¶ÁÈ¡µ½ÄÚ´æÖÐ
from torchvision import tansforms
trans = transforms.ToTensor()
# ToTensorÊµÀý½«Í¼ÏñÊý¾Ý´ÓPILÀà±ä³É32Î»¸¡µã²¢³ýÒÔ255Ê¹µÃËùÓÐÏñËØµÄÊýÖµ¾ùÔÚ0¡«1Ö®¼ä
import torchvision
mnist_train = torchvision.datasets.FashionMNIST(
root="../data", train=True, transform=trans, download=True)
# root±íÊ¾´æ´¢Â·¾¶
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)
mnist_train.shape # torch.Size() ÒòÎªÊÇ»Ò¶ÈÊý¾ÝËùÒÔÍ¨µÀÊýÎª1
```
ÑµÁ·Êý¾Ý¼¯ÓÐ6000ÕÅ£¬²âÊÔÊý¾Ý¼¯ÓÐ1000ÕÅ¡£²âÊÔÊý¾Ý¼¯²»ÓÃÓÚÑµÁ·ÓÃÓÚÆÀ¹ÀÄ£ÐÍÐÔÄÜ£¬ÁíÍâÕâÐ©Í¼ÏñÒ²²»ÒÔÒ»°ã¸ñÊ½´æ´¢ËùÒÔÄãÊÇ²»ÄÜÖ±½Ó´ò¿ªµÄ£¬Ê¹ÓÃµÄ¿ÉÄÜÊÇIDXÎÄ¼þ¸ñÊ½.
### 2.ÏÔÊ¾Êý¾Ý£¨Í¼Ïñ£©
```python
# ¿ÉÊÓ»¯Ñù±¾
def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):#@save
'''
»æÖÆÍ¼ÏñÁÐ±í

Parameters:
imgs:Í¼ÏñÁÐ±í
num_rows:ÒªÏÔÊ¾Í¼ÏñµÄÐÐÊý
num_cols:ÒªÏÔÊ¾µÄÍ¼ÏñµÄÁÐÊý
title:ÎªÃ¿¸öÍ¼ÏñÉèÖÃ±êÌâ
scale:Ëõ·ÅÒò×Ó
'''
figsize = (num_cols * scale, num_rows * scale)
_, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
# matplotlib.pyplot¿â´´½¨Ò»¸öÍ¼ÐÎºÍÒ»×é×ÓÍ¼Öá
axes = axes.flatten()# Õ¹Æ½£¬ÀàËÆÓÚ¾ØÕó±ä³ÉÒ»¸öÁÐ±íÊý×é£¬axesÊÇaxis(×ø±êÖá)µÄ¸´Êý
for i, (ax, img) in enumerate(zip(axes, imgs)):
   if torch.is_tensor(img):
         # Í¼Æ¬ÕÅÁ¿
         ax.imshow(img.numpy())
   else:
         # PILÍ¼Æ¬
         ax.imshow(img)
   ax.axes.get_xaxis().set_visible(False)
   ax.axes.get_yaxis().set_visible(False)
   # Òþ²ØÃ¿¸ö×ÓÍ¼µÄxÖáºÍyÖá
   if titles:
         ax.set_title(titles)
return axes

# ¶¨ÒåÒ»¸öº¯ÊýÏÔÊ¾Ã¿¸öÍ¼ÏñµÄtitle
def get_fashion_mnist_labels(labels):#@save
"""·µ»ØFashion-MNISTÊý¾Ý¼¯µÄÎÄ±¾±êÇ©"""
text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
               'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
return for i in labels]

# ÏÔÊ¾Í¼ÏñÊ¾Àý
from torch.utils import data
X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
# XÊÇÒ»¸öÅú´ÎµÄÍ¼ÏñÊý¾Ý£¬ËüÍ¨³£ÊÇÒ»¸öËÄÎ¬ÕÅÁ¿£¬ÐÎ×´Îª ,yÊÇ±êÇ©ÐòºÅ
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y));
# ½«XÎ¬¶ÈÑ¹ËõÎªÈýÎ¬ÒÔ±ãÊÊÓ¦show_imagesº¯ÊýµÄÒªÇó
```
### 3.¶ÁÈ¡Ð¡ÅúÁ¿Êý¾Ý
ÕâÀïÖ±½ÓÊ¹ÓÃÁËÄÚÖÃµÄÊý¾Ýµü´úÆ÷²»ÊÇ×Ô¼ºÐ´¶ÁÈ¡º¯Êý.
```python
batch_size = 256

def get_dataloader_workers():#@save
"""Ê¹ÓÃ4¸ö½ø³ÌÀ´¶ÁÈ¡Êý¾Ý"""
return 4

train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,
                        num_workers=get_dataloader_workers())
# shuffle¾ÍÊÇ±íÊ¾ÊÇ·ñ´òÂÒÑù±¾¶ÁÈ¡Ð¡ÅúÁ¿(shuffleÓÐÏ´ÅÆµÄÒâË¼)
```
### 4.»ñÈ¡Êý¾Ý²¢¶ÁÈ¡
ÆäÊµ¾ÍÊÇÒ»¸öÕûºÏ.
```python
#Õâ¸öº¯Êý»¹ÄÜÍ¨¹ýresize²ÎÊýµ÷ÕûÍ¼Ïñ´óÐ¡
def load_data_fashion_mnist(batch_size, resize=None):#@save
"""ÏÂÔØFashion-MNISTÊý¾Ý¼¯£¬È»ºó½«Æä¼ÓÔØµ½ÄÚ´æÖÐ"""
trans =
if resize:
   trans.insert(0, transforms.Resize(resize))
   # transforms.Resize(resize) ½«±»Ìí¼Óµ½transÁÐ±íµÄ×îÇ°Ãæ
trans = transforms.Compose(trans) # ËùÓÐ±ä»»×éºÏÎª¸´ºÏ±ä»»
mnist_train = torchvision.datasets.FashionMNIST(
   root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
   root="../data", train=False, transform=trans, download=True)
return (data.DataLoader(mnist_train, batch_size, shuffle=True,
                        num_workers=get_dataloader_workers()),
         data.DataLoader(mnist_test, batch_size, shuffle=False,
                        num_workers=get_dataloader_workers()))
```
## (Áù)softmax»Ø¹é´ÓÁã¿ªÊ¼ÊµÏÖ
### 1.³õÊ¼»¯ºÍ¶¨Òåsoftmax
»ñÈ¡Êý¾Ý:
```python
from IPython import display
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
```
ÒòÎªÍ¼ÏñÊÇ$28 \times 28$µÄ,¿ÉÒÔ¿´×öÊÇÒ»¸ö³¤¶ÈÎª784µÄÏòÁ¿,ÓëÏßÐÔ»Ø¹éÒ»ÑùÊ¹ÓÃÕýÌ¬·Ö²¼³õÊ¼»¯È¨ÖØ$\mathrm{W}$,Æ«ÖÃ³õÊ¼»¯Îª0.
```python
num_inputs = 784
num_outputs = 10

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
b = torch.zeros(num_outputs, requires_grad=True)
```
»Ø¹ËÒ»ÏÂsumº¯Êý,keepdim²ÎÊýÎªTrueµÄÊ±ºòÄÜ¹»±£³ÖÔÊ¼ÕÅÁ¿ÖáÊý:
```python
X = torch.tensor([, ])
X.sum(0, keepdim=True), X.sum(1, keepdim=True)
# 0ÊÇÍ¬Ò»ÁÐÇóºÍ
# »áÊÇÒÔÏÂ½á¹û
# (tensor([]),
# tensor([[ 6.],
#       ]))
```
¶¨Òåsoftmaxº¯ÊýÈçÏÂ:
```python
def softmax(X):
X_exp = torch.exp(X) # ÇóÃÝ
partition = X_exp.sum(1, keepdim=True) # ÇóºÍ
return X_exp / partition# ÕâÀïÓ¦ÓÃÁË¹ã²¥»úÖÆ
```
Ê¾Àý:
```python
X = torch.normal(0, 1, (2, 5))
X_prob = softmax(X)
X_prob, X_prob.sum(1)
# (tensor([,
#       ]),
# tensor())
```
×¢ÒâÕâÀï´úÂëÃ»ÓÐ¿¼ÂÇµ½ÊýÖµÉÏÒç»òÏÂÒç,ÕâÀïËã²»¹»ÍêÉÆ.
### 2.¶¨ÒåÄ£ÐÍ
```python
def net(X):
return softmax(torch.matmul(X.reshape((-1, W.shape)), W) + b)
```
### 3.¶¨ÒåËðÊ§º¯ÊýºÍ¾«¶È
```python
def cross_entropy(y_hat, y):
return - torch.log(y_hat)
# ÕâÀïµÄlen(y_hat)·µ»ØµÄÊÇÐÐÊý

# Ê¾Àý
y = torch.tensor()
y_hat = torch.tensor([, ])
# y_hat[, y]pytorchÌá¹©µÄÈ¡¾ØÕóÖÐÔªËØµÄ·½·¨
cross_entropy(y_hat, y)
# tensor()
```
**·ÖÀà¾«¶È**:ÕýÈ·Ô¤²âÊýÁ¿Óë×ÜÔ¤²âÊýÁ¿Ö®±È.Ò²¶¨ÒåÒ»¸öº¯Êý:
```python
def accuracy(y_hat, y):#@save
"""¼ÆËãÔ¤²âÕýÈ·µÄÊý×éÁ¿"""
if len(y_hat.shape) > 1 and y_hat.shape > 1:
   y_hat = y_hat.argmax(axis=1)
   # ÑØ×ÅµÚÒ»Î¬(ÐÐ)ÖÐÕÒµ½×î´óµÄË÷ÒýÖµ
cmp = y_hat.type(y.dtype) == y
# y_hatµÄÊý¾ÝÀàÐÍ×ª»»ÎªyµÄÊý¾ÝÀàÐÍµÃµ½boolÊý×é
return float(cmp.type(y.dtype).sum())
# ·µ»ØÔ¤²âÕýÈ·Ñù±¾ÊýÁ¿£¬boolÀàÐÍ×ª»»ÁËÒ»ÏÂ¿É¼ÆËãÀàÐÍ
```
ÆÀ¹ÀÄ£ÐÍµÄ¾«¶ÈÓÐ¿ò¼Üº¯Êý¶¨Òå:
```python
# Ò»¸öÊµÓÃÀà
class Accumulator:#@save
"""ÔÚn¸ö±äÁ¿ÉÏÀÛ¼Ó"""
def __init__(self, n):
   self.data = * n

def add(self, *args):
   self.data =

def reset(self):
   self.data = * len(self.data)

def __getitem__(self, idx):
   return self.data

def evaluate_accuracy(net, data_iter):#@save
"""¼ÆËãÔÚÖ¸¶¨Êý¾Ý¼¯ÉÏÄ£ÐÍµÄ¾«¶È"""
if isinstance(net, torch.nn.Module):
   net.eval()
   # ½«Ä£ÐÍÉèÖÃÎªÆÀ¹ÀÄ£Ê½,ÔÚÉî¶ÈÑ§Ï°ÖÐ£¬Ä³Ð©²ãµÄÐÐÎªÔÚÑµÁ·ºÍÆÀ¹À£¨»ò²âÊÔ£©½×¶ÎÊÇ²»Í¬µÄ
metric = Accumulator(2)# ÕýÈ·Ô¤²âÊý¡¢Ô¤²â×ÜÊý
with torch.no_grad():
   for X, y in data_iter:
         metric.add(accuracy(net(X), y), y.numel()) # y.numel()·µ»ØyÖÐÔªËØµÄ×ÜÊý
return metric / metric
```
### 4.ÑµÁ·
```python
def train_epoch_ch3(net, train_iter, loss, updater):#@save
# updaterÊÇ¸üÐÂÄ£ÐÍ²ÎÊýµÄ³£ÓÃº¯Êý,¿ÉÒÔÊÇ¶Ôsgdº¯Êý(Ëæ»ú)
"""ÑµÁ·Ä£ÐÍÒ»¸öµü´úÖÜÆÚ£¨¶¨Òå¼ûµÚ3ÕÂ£©"""
# ½«Ä£ÐÍÉèÖÃÎªÑµÁ·Ä£Ê½
if isinstance(net, torch.nn.Module):
   net.train()
# ÑµÁ·ËðÊ§×ÜºÍ¡¢ÑµÁ·×¼È·¶È×ÜºÍ¡¢Ñù±¾Êý
metric = Accumulator(3)
for X, y in train_iter:
   # ¼ÆËãÌÝ¶È²¢¸üÐÂ²ÎÊý
   y_hat = net(X)
   l = loss(y_hat, y)
   if isinstance(updater, torch.optim.Optimizer):
         # Ê¹ÓÃPyTorchÄÚÖÃµÄÓÅ»¯Æ÷ºÍËðÊ§º¯Êý
         updater.zero_grad()
         l.mean().backward()
         updater.step()
   else:
         # Ê¹ÓÃ¶¨ÖÆµÄÓÅ»¯Æ÷ºÍËðÊ§º¯Êý
         l.sum().backward()
         updater(X.shape)
   metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
# ·µ»ØÆ½¾ùÑµÁ·ËðÊ§ºÍÑµÁ·¾«¶È
return metric / metric, metric / metric
```
Ò»¸ö¹¤¾ßÀàAnimatorÔÚ¶¯»ÖÐ»æÖÆÊý¾Ý:
```python
class Animator:#@save
"""ÔÚ¶¯»ÖÐ»æÖÆÊý¾Ý"""
def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
            ylim=None, xscale='linear', yscale='linear',
            fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
            figsize=(3.5, 2.5)):
   # ÔöÁ¿µØ»æÖÆ¶àÌõÏß
   if legend is None:
         legend = []
   d2l.use_svg_display()
   self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
   if nrows * ncols == 1:
         self.axes =
   # Ê¹ÓÃlambdaº¯Êý²¶»ñ²ÎÊý
   self.config_axes = lambda: d2l.set_axes(
         self.axes, xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
   self.X, self.Y, self.fmts = None, None, fmts

def add(self, x, y):
   # ÏòÍ¼±íÖÐÌí¼Ó¶à¸öÊý¾Ýµã
   if not hasattr(y, "__len__"):
         y =
   n = len(y)
   if not hasattr(x, "__len__"):
         x = * n
   if not self.X:
         self.X = [[] for _ in range(n)]
   if not self.Y:
         self.Y = [[] for _ in range(n)]
   for i, (a, b) in enumerate(zip(x, y)):
         if a is not None and b is not None:
            self.X.append(a)
            self.Y.append(b)
   self.axes.cla()
   for x, y, fmt in zip(self.X, self.Y, self.fmts):
         self.axes.plot(x, y, fmt)
   self.config_axes()
   display.display(self.fig)
   display.clear_output(wait=True)
```
¶à´Îµü´ú:
```python
def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):#@save
"""ÑµÁ·Ä£ÐÍ£¨¶¨Òå¼ûµÚ3ÕÂ£©"""
animator = Animator(xlabel='epoch', xlim=, ylim=,
                     legend=['train loss', 'train acc', 'test acc'])
for epoch in range(num_epochs):
   train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
   test_acc = evaluate_accuracy(net, test_iter) # ²âÊÔÄ£ÐÍ
   animator.add(epoch + 1, train_metrics + (test_acc,))
train_loss, train_acc = train_metrics
assert train_loss < 0.5, train_loss
# ¶ÏÑÔ,Èç¹ûÑµÁ·ËðÊ§²»Ð¡ÓÚ0.5»áÅÅ³ýÒì³£²¢ÏÔÊ¾train_loss
assert train_acc <= 1 and train_acc > 0.7, train_acc
assert test_acc <= 1 and test_acc > 0.7, test_acc
```
Èç¹ûÊ¹ÓÃ×Ô¼ºµÄupdater,ÒÔÏÂÊÇÒ»¸öÊµÀý:
```python
lr = 0.1

def updater(batch_size):
return d2l.sgd(, lr, batch_size)

num_epochs = 10
# Ê®¸öµü´úÖÜÆÚ
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)
```
µÃµ½½á¹û´óÖÂÈçÍ¼:
![²ÎÊýÍ¼](https://zh.d2l.ai/_images/output_softmax-regression-scratch_a48321_222_0.svg)
### 5.Ô¤²â
```python
def predict_ch3(net, test_iter, n=6):#@save
"""Ô¤²â±êÇ©£¨¶¨Òå¼ûµÚ3ÕÂ£©"""
for X, y in test_iter:
   break
trues = d2l.get_fashion_mnist_labels(y)
preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1))
titles =
d2l.show_images(
   X.reshape((n, 28, 28)), 1, n, titles=titles)

predict_ch3(net, test_iter)
```
½á¹û´óÖÂÈçÍ¼:
![Ä£ÐÍÔ¤²â](https://zh.d2l.ai/_images/output_softmax-regression-scratch_a48321_237_0.svg)
## (Æß)softmax¼ò½àÊµÏÖ
»ùÓÚ¿ò¼ÜÄÜ¹»¼ò½àÊµÏÖ.
```python
import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

# PyTorch²»»áÒþÊ½µØµ÷ÕûÊäÈëµÄÐÎ×´¡£Òò´Ë£¬
# ÎÒÃÇÔÚÏßÐÔ²ãÇ°¶¨ÒåÁËÕ¹Æ½²ã£¨flatten£©£¬À´µ÷ÕûÍøÂçÊäÈëµÄÐÎ×´
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))

def init_weights(m):
if type(m) == nn.Linear:
   nn.init.normal_(m.weight, std=0.01)
   # ÕýÌ¬·Ö²¼À´³õÊ¼»¯È¨ÖØ,0.01ÊÇ±ê×¼²î

net.apply(init_weights);
```
ÔÚÖ®Ç°Ìáµ½¹ýÉÏÒçºÍÏÂÒçµÄÎÊÌâ,ÔÚ¿ò¼ÜÖÐÒÑ¾½â¾öºÃÁË.ÕâÀïÀûÓÃµÄÊÇÈç¹ûÃ¿¸ö³£Êý$o_k$¼õÈ¥Ò»¸öÏàÍ¬µÄ³£ÊýÄÇÃ´µÃµ½µÄsoftmax·µ»ØÖµ²»»á±ä,ÄÇÃ´ÎÒÃÇ¿ÉÒÔÈÃ$o_j-max(o_k)$¾ÍÄÜ¾¡Á¿±ÜÃâÉÏÒç.
$$\begin{aligned}
\hat{y}& =\frac{\exp(o_j-\max(o_k))\exp(\max(o_k))}{\sum_k\exp(o_k-\max(o_k))\exp(\max(o_k))} \\
&=\frac{\exp(o_{j}-\max(o_{k}))}{\sum_{k}\exp(o_{k}-\max(o_{k}))}
\end{aligned}$$
¶ø±ÜÃâÏÂÒç(Ö÷ÒªÊÇ$log\left(\exp(o_j-\max(o_k))\right)$µÄÒç³ö)¾Í¿ÉÒÔ:
$$\begin{aligned}
\log(\hat{y}_{j})& =\log\left(\frac{\exp(o_{j}-\max(o_{k}))}{\sum_{k}\exp(o_{k}-\max(o_{k}))}\right) \\
&=\log\left(\exp(o_j-\max(o_k))\right)-\log\left(\sum_k\exp(o_k-\max(o_k))\right) \\
&=o_j-\max(o_k)-\log\left(\sum_k\exp(o_k-\max(o_k))\right).
\end{aligned}$$
```python
loss = nn.CrossEntropyLoss(reduction='none')
# ½»²æìØËðÊ§²ã,reduction='none'±íÊ¾²»½øÐÐÈÎºÎ¾ÛºÏ²Ù×÷£¬·µ»ØÃ¿¸öÑù±¾µÄËðÊ§
trainer = torch.optim.SGD(net.parameters(), lr=0.1) # Ëæ»úÌÝ¶ÈÏÂ½µ
```
×îºóÑµÁ·:
```python
num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
```
</div><script> var loginstr = '<div class="locked">²é¿´±¾ÌûÈ«²¿ÄÚÈÝ£¬Çë<a href="javascript:;" style="color:#e60000" class="loginf">µÇÂ¼</a>»òÕß<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">×¢²á</a></div>';

if(parseInt(discuz_uid)==0){

} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

nmg ·¢±íÓÚ 2024-10-12 18:23

Ò³: [1]

µç×Ó¹¤³ÌÊÀ½ç-ÂÛÌ³'s Archiver

¶¯ÊÖÑ§Éî¶ÈÑ§Ï°£¨Èý£©£ºÏßÐÔÉñ¾­ÍøÂç

¶¯ÊÖÑ§Éî¶ÈÑ§Ï°£¨Èý£©£ºÏßÐÔÉñ¾ÍøÂç