这一章其实是逻辑回归和最大熵模型,最大熵模型的实现需要数个特征与定义对应的特征函数,因此我暂时没有实现.

逻辑回归

原理

假设是一个二分类问题,我们把分类问题考虑为由样本X得到对应Y的概率,那么模型可以被定义为P(Y|X).为了将输出分配为概率形式,使用logistic分布: F(x)=P(Xx)=11+eθTx

那么对于一个样本计算他类别为1的概率的过程可以记做p=σ(θTx),此时我们面对的是二分类问题,那么自然类别为0的概率为1p得到对应的概率质量函数为: Let   p=σ(θTx)P(y)={p,y=11p,y=0=yp+(1y)1pP(y)P(y|x;θ)

有了对应的概率质量函数,我们需要求解最合适的参数θ,就可以利用最大似然估计的方法,最大似然考虑到了分布函数的联合分布,当他们的联合分布概率最大时,那么θ肯定是最优的.: L(x1,x2,...,xn;θ)=ni=1P(y|xi;θ)=ni=1[σ(θTxi)yi+(1σ(θTxi))1yi]L(x1,x2,...,xn;θ)=log[ni=1[σ(θTxi)yi+(1σ(θTxi))1yi]]=ni=1[yilogσ(θTxi)+(1yi)log(1σ(θTxi))]=ni=1[yilog11+eθTxi+(1yi)log(111+eθTxi)]=ni=1[yi(θTxi)log(1+eθTxi)]

注意到极大似然估计对数化后的第二步实际上就等价于负的交叉熵,所以令似然估计最大化,相当于最小化交叉熵,因此模型的损失即为: L=ni=1[yi(θTxi)log(1+eθTxi)]

有了损失,又可以求导.可以采用梯度下降法进行优化,梯度为如下. dLdθ=(yxeθTxx1+eθTx)=(y11+ewTx)x

最大熵模型

最大熵模型很难给出具体的例子,我看书也看的有点晕,后面参考到苏神的文章才理解一些.总体来说是求解满足各种约束条件下包含最大条件熵H(P(Y|X))的模型.