本帖最后由 皓月光兮非自明 于 2024-10-11 15:44 编辑
OpenAI
2015年,由Elon Musk、Sam Altman、Greg Brockman、Ilya Sutskever、Wojciech Zaremba、John Schulman成立的研究机构。专注研究深度强化学习(Deep Reindorcement Learning,DRL)
机构信条
To Ensure That Artificial General Intelligence Benefits All Of Humanity(确保通用人工智能造福全人类)
深度强化学习
深度强化学习DRL是强化学习(Reinforcement Learning,RL)与深度神经网络的结合,是机器学习的子集。
研究成果
时间
|
成果
|
描述
|
2016年
|
OpenAI Gym
|
开发测试强化学习的工具包
|
2018年
|
GPT - 1
|
生成式模型架构
|
2019年
|
GPT - 2
|
12亿参考参数
|
2020年
|
GPT - 3
|
1750亿参考参数
|
2023年
|
GPT - 4
|
通过图灵测试
|
2024年
|
GPT - 4o
|
部署跨文本、音视频推理模型
|
模型意义
- 节省训练时间、节约训练成本
- 便于不具备数据科学或者机器学习技能的工程师使用
模型背后的数学原理
RNN的结构(循环神经网络,Recurrent Neural Network)
RNN层在时间步骤t-n的输出,会被作为输入传递给下一个时间步骤。RNN的隐藏状态也会作为输入传递到下一个时间步骤,使得网络能够在输入序列的不同部分保存和传播。
x为t时间的输入
U为隐藏层h的加权输入
h为t时间的隐藏层
V为隐藏层h的加权输出
y为t时间的输出
RNN的主要局限
(1)梯度消失和梯度爆炸
在梯度反向传播过程中被多次相乘,导致梯度变得非常小或者非常大。
(2)有限的上下文
一次只能处理一个元素的输入序列,所以只能捕捉到有限的上下文。
(3)并行化方面均在困难
RNN本质是顺序执行,导致计算难以并行化,因此无法很好的利用GPU并行加速(图形处理单元,Graphical Processing Unit)
|