神经网络损失函数 反向传播算法:目的是为下一步梯度下降找出梯度 交叉验证集和训练集有什么区别:因为有多个假设,当训练集拟合好参数theta向量的时候,会得到多个theta向量,然后使用验证集代入每个假设得出的每个假设的误差,然后误差最小的假设就是对这几个假设中验证集拟合最好的假设,因为我们是选择了一个队验证集最拟合的假设,所以相当于我们的假设模型对验证集拟合过一次,所以接下来就不能拿验证集去计算泛化误差,这样会得出过于乐观的估计。
最大似然函数:
梯度下降法: 标准方程法:可以一次性计算出θ的值,使得损失函数的值最小,不需要多次迭代,也不需要特征缩放。公式是:θ = (X^T * X)^(-1) * X^T * y
最小二乘法: 又称为最小平方法(平方在古时候称为二乘),就是把所有误差的平方相加,获得的值为总误差,最小化这个误差就是优化目标。(为什么不是绝对值的和最小)
学习型算法概念: 给他一个任务T(下棋)和一个性能测量方法P(和人类棋手对弈的胜率),如果在经验E(程序不断地和自己下棋的经历)的影响下,P对T的测量结果得到了改进,那么就说该程序从E中学习
损失函数(代价函数):(需要取最小值,保证最优)
梯度:梯度是众多方向导数中最大的那个向量
回归问题:我们需要预测的变量是连续的
支持向量机:一种算法,可以把数据映射到无限维空间中
支持向量机:又称大间距分类器,努力将正样本和负样本用最大的间距(决策边界)分开。