Skip to content

Lesson1 Introduce

Introduce

  • 监督学习(supervised learning):有输入,有输出,输出可能是标签
  • 无监督学习(unsupervised learning):只有输入,没有输出
    • clustering 聚类
  • 强化学习(reinforcement learning):algorithm learns to react to an environment

监督学习

核心:需要非常明确的标签(label)

监督学习的目的是通过学习训练集,泛化到不存在于训练集中的测试集

考虑以下的点,如果标签,如人脸,只有三个人,那么第四个人倘若进行测试,仍然会输出这三个标签中的一个。

方法是要么扩充标签的集合,要么修改为"是不是他"的问题。

regression 回归:预测连续值

输出不是离散值,而是一个连续的值。

无监督学习

只有输入,没有对应的输出。

核心:find interesting patterns

举例:猫狗分类

强化学习

  • 有监督学习的设想
  • given occasional reward or punishment signals
  • self-play
  • RLHF: reinforcement learning with human feedback

例如下棋的训练,由于一整局只有一个result:

  • 只要输了,下的所有子都被削弱
  • 只要赢了,下的所有子都被强化