Lesson1 Introduce
Introduce
- 监督学习(supervised learning):有输入,有输出,输出可能是标签
- 无监督学习(unsupervised learning):只有输入,没有输出
- clustering 聚类
- 强化学习(reinforcement learning):algorithm learns to react to an environment
监督学习
核心:需要非常明确的标签(label)
监督学习的目的是通过学习训练集,泛化到不存在于训练集中的测试集
考虑以下的点,如果标签,如人脸,只有三个人,那么第四个人倘若进行测试,仍然会输出这三个标签中的一个。
方法是要么扩充标签的集合,要么修改为"是不是他"的问题。
regression 回归:预测连续值
输出不是离散值,而是一个连续的值。
无监督学习
只有输入,没有对应的输出。
核心:find interesting patterns
举例:猫狗分类
强化学习
- 有监督学习的设想
- given occasional reward or punishment signals
- self-play
- RLHF: reinforcement learning with human feedback
例如下棋的训练,由于一整局只有一个result:
- 只要输了,下的所有子都被削弱
- 只要赢了,下的所有子都被强化