【CS191】【lec1】Intro to Deep Learning


image.png

一、课程介绍

1. 课程背景

  • 课程名称:MIT Introduction to Deep Learning(6.S191)
  • 授课教师:Alexander Amini 等
  • 课程时间:2025 年 1 月 6 日至 1 月 10 日
  • 课程形式:线上线下结合,包含技术讲座和软件实验室

2. 课程目标

  • 让学生理解深度学习的核心概念和原理。
  • 通过实践操作,培养学生在深度学习领域的实际应用能力。
  • 探讨深度学习在各个领域的应用,如计算机视觉、自然语言处理等。

二、深度学习基础

1. 什么是深度学习?

  • 定义:深度学习是机器学习的一个子集,它使用人工神经网络从数据中学习,能够处理复杂的模式和大规模数据。
  • 与传统机器学习的区别:传统机器学习需要手动定义特征,而深度学习能够自动从数据中学习特征。
    image.png

2. 神经网络的基本单元——感知机

这是一种前向传播

  • 结构:由输入层、权重、偏置、激活函数和输出层组成。
  • 工作原理
    1. 输入层接收输入数据。
    2. 权重和偏置对输入数据进行线性组合。
    3. 激活函数引入非线性,使网络能够处理复杂的模式。
    4. 输出层给出最终结果。
      image.png

3. 激活函数

  • 作用:引入非线性,使神经网络能够近似任意复杂的函数。

    • 现实世界是普遍非线性的
    • image.png
  • 常见激活函数

    • Sigmoid 函数:输出在 (0, 1) 之间,适用于二分类问题。

      • 适合将输出转化为概率
      • image.png|475
    • ReLU 函数:输出非负值,计算简单,能有效缓解梯度消失问题。
      image.png

三、神经网络的训练

1. 损失函数

  • 定义:衡量模型预测值与真实值之间的差异。
    • 这是学习的一个过程,没有学习过的网络就好像一个刚出生的婴儿
  • 常见损失函数
    • 二元交叉熵损失:用于二分类问题。
    • 均方误差损失:用于回归问题。

2. 优化算法

我们希望找到一个网络权重函数,可以实现最小的损失函数

  • 梯度下降法一种反向传播方法(我们一般通过反向传播来估算最优的权重和偏置)
    • 原理:通过计算损失函数对权重的梯度,更新权重以最小化损失。
    • 步骤
      1. 随机初始化权重。
      2. 计算当前权重下的损失。
      3. 计算梯度,确定权重更新方向。
      4. 更新权重,重复直到收敛。

梯度计算,使用链式法则计算image.png

  • 随机梯度下降法(SGD)

    • 原理:每次仅使用一个数据点计算梯度,更新权重。
    • 优点:计算速度快,适用于大规模数据集。
    • 缺点:更新过程较为嘈杂,可能导致不稳定。
  • 小批量梯度下降法

    • 原理:每次使用一小部分数据(批量)计算梯度,更新权重。
    • 优点:结合了梯度下降和随机梯度下降的优点,既保证了一定的计算效率,又具有较好的稳定性。

3. 学习率设置

image.png

  • 学习率的作用:决定权重更新的步长大小。
  • 设置原则
    • 学习率过大:可能导致权重更新过度,损失函数值波动大,训练不稳定。
    • 学习率过小:权重更新缓慢,训练时间长,可能陷入局部最优。
  • 如何解决学习率的选择
      1. 多次重复实验,找出最合适的学习率
      1. 设计一种自适应函数

四、过拟合与正则化

1. 过拟合的定义

  • 现象:模型在训练集上表现良好,但在测试集上表现较差。

    • 比如使用k210在训练对于方块的识别时候,如果使用的都是图像识别,一旦因为阴影和角度的不同,就会无法识别,哪怕训练集的识别率相当高。这种情况下一般通过形状识别
    • image.png
  • 原因:模型过于复杂,对训练数据拟合过度,失去了泛化能力。

2. 正则化方法

  • Dropout

    • 原理:在训练过程中随机丢弃一部分神经元,防止模型对某些神经元过度依赖。
    • 作用:降低模型复杂度,提高泛化能力。
      • image.png
  • 提前停止

    • 原理:在训练过程中监控验证集的损失,当损失开始上升时停止训练。

      • image.png
    • 作用:避免模型过度拟合训练数据。

五、深度学习的实践应用

1. 音乐生成

  • 任务:使用神经网络学习爱尔兰民谣的风格,并生成新的歌曲。
  • 方法:构建一个循环神经网络(RNN),通过学习音乐数据中的模式,生成新的音乐序列。

2. 计算机视觉

  • 任务:检测和缓解面部识别系统中的偏差。
  • 方法:构建卷积神经网络(CNN),对图像数据进行特征提取和分类,识别面部特征并检测偏差。

3. 大型语言模型

  • 任务:微调大型语言模型,评估模型质量。
  • 方法:使用迁移学习,在特定任务上对预训练的语言模型进行微调,提高模型在特定领域的性能。

七、总结

通过本课程,学生将系统地学习深度学习的核心概念、原理和应用,并通过实践操作加深理解。课程内容涵盖了神经网络的基础知识、训练方法、过拟合与正则化等关键问题,以及深度学习在音乐生成、计算机视觉和大型语言模型等领域的实际应用。丰富的课程资源和强大的支持团队将为学生的学习提供有力保障。


文章作者: MIKA
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 MIKA !
  目录