统计学习方法:逻辑回归
这一章其实是逻辑回归和最大熵模型,最大熵模型的实现需要数个特征与定义对应的特征函数,因此我暂时没有实现.
逻辑回归
原理
假设是一个二分类问题,我们把分类问题考虑为由样本X得到对应Y的概率,那么模型可以被定义为P(Y|X).为了将输出分配为概率形式,使用logistic
分布:
F(x)=P(X≤x)=11+e−θTx
那么对于一个样本计算他类别为1
的概率的过程可以记做p=σ(θTx),此时我们面对的是二分类问题,那么自然类别为0
的概率为1−p得到对应的概率质量函数为: Let p=σ(θTx)P(y)={p,y=11−p,y=0=yp+(1−y)1−p将P(y)表示为P(y|x;θ)
有了对应的概率质量函数,我们需要求解最合适的参数θ,就可以利用最大似然估计的方法,最大似然考虑到了分布函数的联合分布,当他们的联合分布概率最大时,那么θ肯定是最优的.: L(x1,x2,...,xn;θ)=n∏i=1P(y|xi;θ)=n∏i=1[σ(θTxi)yi+(1−σ(θTxi))1−yi]对数化L(x1,x2,...,xn;θ)=log[n∏i=1[σ(θTxi)yi+(1−σ(θTxi))1−yi]]=n∑i=1[yilogσ(θTxi)+(1−yi)log(1−σ(θTxi))]=n∑i=1[yilog11+e−θTxi+(1−yi)log(1−11+e−θTxi)]=n∑i=1[yi(θTxi)−log(1+eθTxi)]
注意到极大似然估计对数化后的第二步实际上就等价于负的交叉熵,所以令似然估计最大化,相当于最小化交叉熵,因此模型的损失即为: L=−n∑i=1[yi(θTxi)−log(1+eθTxi)]
有了损失,又可以求导.可以采用梯度下降法进行优化,梯度为如下. dLdθ=−(yx−eθTx⋅x1+eθTx)=−(y−11+e−wTx)x
最大熵模型
最大熵模型很难给出具体的例子,我看书也看的有点晕,后面参考到苏神的文章才理解一些.总体来说是求解满足各种约束条件下包含最大条件熵H(P(Y|X))的模型.