【CS191】【lec1】Intro to Deep Learning

深度学习 MIT6S191

深度学习

发布日期: 2025-03-08

更新日期: 2025-03-12

文章字数: 1.5k

阅读时长: 5 分

阅读次数:

一、课程介绍

1. 课程背景

课程名称：MIT Introduction to Deep Learning（6.S191）
授课教师：Alexander Amini 等
课程时间：2025 年 1 月 6 日至 1 月 10 日
课程形式：线上线下结合，包含技术讲座和软件实验室

2. 课程目标

让学生理解深度学习的核心概念和原理。
通过实践操作，培养学生在深度学习领域的实际应用能力。
探讨深度学习在各个领域的应用，如计算机视觉、自然语言处理等。

二、深度学习基础

1. 什么是深度学习？

定义：深度学习是机器学习的一个子集，它使用人工神经网络从数据中学习，能够处理复杂的模式和大规模数据。
与传统机器学习的区别：传统机器学习需要手动定义特征，而深度学习能够自动从数据中学习特征。

2. 神经网络的基本单元——感知机

这是一种前向传播

结构：由输入层、权重、偏置、激活函数和输出层组成。
工作原理：
1. 输入层接收输入数据。
2. 权重和偏置对输入数据进行线性组合。
3. 激活函数引入非线性，使网络能够处理复杂的模式。
4. 输出层给出最终结果。

3. 激活函数

作用：引入非线性，使神经网络能够近似任意复杂的函数。
- 现实世界是普遍非线性的
常见激活函数：
- Sigmoid 函数：输出在 (0, 1) 之间，适用于二分类问题。
  - 适合将输出转化为概率
- ReLU 函数：输出非负值，计算简单，能有效缓解梯度消失问题。

三、神经网络的训练

1. 损失函数

定义：衡量模型预测值与真实值之间的差异。
- 这是学习的一个过程，没有学习过的网络就好像一个刚出生的婴儿
常见损失函数：
- 二元交叉熵损失：用于二分类问题。
- 均方误差损失：用于回归问题。

2. 优化算法

我们希望找到一个网络权重函数，可以实现最小的损失函数

梯度下降法：一种反向传播方法（我们一般通过反向传播来估算最优的权重和偏置）
- 原理：通过计算损失函数对权重的梯度，更新权重以最小化损失。
- 步骤：
  1. 随机初始化权重。
  2. 计算当前权重下的损失。
  3. 计算梯度，确定权重更新方向。
  4. 更新权重，重复直到收敛。

梯度计算，使用链式法则计算

随机梯度下降法（SGD）：
- 原理：每次仅使用一个数据点计算梯度，更新权重。
- 优点：计算速度快，适用于大规模数据集。
- 缺点：更新过程较为嘈杂，可能导致不稳定。
小批量梯度下降法：
- 原理：每次使用一小部分数据（批量）计算梯度，更新权重。
- 优点：结合了梯度下降和随机梯度下降的优点，既保证了一定的计算效率，又具有较好的稳定性。

3. 学习率设置

学习率的作用：决定权重更新的步长大小。
设置原则：
- 学习率过大：可能导致权重更新过度，损失函数值波动大，训练不稳定。
- 学习率过小：权重更新缓慢，训练时间长，可能陷入局部最优。
如何解决学习率的选择
- 1. 多次重复实验，找出最合适的学习率
- 1. 设计一种自适应函数

四、过拟合与正则化

1. 过拟合的定义

现象：模型在训练集上表现良好，但在测试集上表现较差。
- 比如使用k210在训练对于方块的识别时候，如果使用的都是图像识别，一旦因为阴影和角度的不同，就会无法识别，哪怕训练集的识别率相当高。这种情况下一般通过形状识别
原因：模型过于复杂，对训练数据拟合过度，失去了泛化能力。

2. 正则化方法

Dropout：
- 原理：在训练过程中随机丢弃一部分神经元，防止模型对某些神经元过度依赖。
- 作用：降低模型复杂度，提高泛化能力。
提前停止：
- 原理：在训练过程中监控验证集的损失，当损失开始上升时停止训练。
- 作用：避免模型过度拟合训练数据。

五、深度学习的实践应用

1. 音乐生成

任务：使用神经网络学习爱尔兰民谣的风格，并生成新的歌曲。
方法：构建一个循环神经网络（RNN），通过学习音乐数据中的模式，生成新的音乐序列。

2. 计算机视觉

任务：检测和缓解面部识别系统中的偏差。
方法：构建卷积神经网络（CNN），对图像数据进行特征提取和分类，识别面部特征并检测偏差。

3. 大型语言模型

任务：微调大型语言模型，评估模型质量。
方法：使用迁移学习，在特定任务上对预训练的语言模型进行微调，提高模型在特定领域的性能。

七、总结

通过本课程，学生将系统地学习深度学习的核心概念、原理和应用，并通过实践操作加深理解。课程内容涵盖了神经网络的基础知识、训练方法、过拟合与正则化等关键问题，以及深度学习在音乐生成、计算机视觉和大型语言模型等领域的实际应用。丰富的课程资源和强大的支持团队将为学生的学习提供有力保障。

MIKA

https://erinmi4.github.io/2025/03/08/cs191-lec1-intro-to-deep-learning/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 MIKA !

深度学习 MIT6S191

上一篇

【信息论与编码技术】【第2章】离散信源及其信息测度

【信息论与编码技术】【第2章】离散信源及其信息测度

2025-03-08 信息论

信息论

下一篇

【CS537】【lec4】CPU总结和地址空间

【CS537】【lec4】CPU总结和地址空间

2025-03-06 操作系统

操作系统《操作系统导论》 CS537