似然是统计学和概率论中核心而又容易被误解的概念。简而言之,似然描述的是在已知观测结果的前提下,不同参数值对产生该观测结果的相对支持程度。与直觉中常说的"概率"不同,概率通常被用来描述在特定参数或模型下未来事件发生的可能性;似然则把已发生的观测作为已知事实,反过来衡量参数或模型的可信度。理解这一点对进行参数估计、假设检验和现代机器学习中的模型训练至关重要。 从概念入手,有助于区分概率与似然的细微差别。设想掷一枚硬币,概率问题是这样的:如果硬币是正品且公平,掷出正面的概率是多少;而似然问题是这样的:我掷了十次,观测到七次正面,哪种偏向正面的硬币参数更能解释这一结果。
概率把参数视为已知,研究事件的随机性;似然把观测视为已知,把参数当作变量来评估。数学上,如果观测为数据集x,参数为θ,概率密度或质量函数写作p(x|θ),当视作x固定、以θ为变量时,p(x|θ)就称为似然函数L(θ|x)。似然函数本身并不需要归一化,重点在于相对大小:某一参数值的似然越大,说明在该参数下观测到当前数据的解释力越强。 经典的似然例子来自二项分布和正态分布。假设在独立同分布的二项试验中观测到k次成功、n次试验,参数为成功概率p,则似然函数为L(p)=C(n,k) p^k (1-p)^{n-k},这里的组合数C(n,k)与p无关,可视作常数。将C省略后,比较不同p值的相对支持度只需比较p^k (1-p)^{n-k}。
对于正态分布观测,若数据服从均值μ、方差σ^2的正态分布,则似然函数是以μ与σ为变量的乘积项,常通过对数似然简化计算,得到对数似然函数便于求导和优化。对数似然的负号常被称为负对数似然,是机器学习中常用的损失函数形式。 最大似然估计(Maximum Likelihood Estimation,MLE)是基于似然函数的核心方法。MLE 的目标是在参数空间内找到能最大化似然函数的参数值,亦即找到最能"解释"已观测数据的参数。MLE 在许多情境下具有良好的理论性质:在适当的正则条件下,MLE 是一致的,即随着样本量增加,估计值趋近于真实参数;MLE 还常常是渐近正态的,这使得基于似然的置信区间与假设检验具有理论基础。实际计算时,常对数似然进行求导并求解一阶条件;对于复杂模型或无法解析求导的情形,可采用数值优化方法,如牛顿法、拟牛顿法或随机梯度下降。
似然比与似然比检验提供了比较模型与参数的有效工具。似然比定义为在受限参数空间中最大似然值与在完整参数空间中最大似然值之比。常用的似然比统计量是-2乘以对数似然比,在样本量较大时,该统计量在零假设下服从卡方分布,从而可以构造近似的显著性检验。似然比检验的优势在于其普适性:只要能计算模型的最大似然估计,就可以用似然比来比较嵌套模型的拟合优劣。但需要注意的是,样本量不足或边界参数问题会破坏卡方近似,此时需借助模拟或其他方法校正极限分布。 似然与贝叶斯方法的关系是理解统计推断全貌的关键。
贝叶斯推断通过贝叶斯公式将先验分布与似然结合,得到参数的后验分布:后验与先验的乘积正比于似然函数。这里,似然仍然表示数据对参数的支持度,先验则反映事前对参数的信念。贝叶斯方法的优势在于能自然地引入先验信息并给出完整的后验不确定性量化,而频率学派的似然方法侧重于似然优化与置信区间的构造。实践中,二者并非对立:最大后验估计(MAP)可以被视为在带有先验的情形下的似然最大化,许多常用的正则化方法在优化层面等价于给参数设定合适的先验。 在机器学习中,似然原则是训练概率模型的基石。监督学习中的逻辑回归、朴素贝叶斯、条件随机场等模型通常通过最大化训练数据的似然或最小化负对数似然来估计参数。
神经网络在分类问题上常用交叉熵损失,实际上就是多类对数似然的负值。最小化负对数似然不仅能直接寻求高似然参数,还能为概率输出提供自然的解释:网络输出的预测概率即为在当前参数下观测到标签的概率估计。优化时要关注过拟合问题,常用L1、L2正则化或贝叶斯先验来约束参数,使得似然最大化不会仅仅追随训练数据的噪声。 负对数似然及其数值稳定性是工程实现中的重要注意点。对数似然把乘积转为和,有助于避免数值下溢,但在计算中仍可能出现极小的概率值导致数值不稳定。常见技巧包括在概率值上添加微小常数、采用对数-求和技巧以及使用更稳健的优化器。
此外,在大规模数据场景下,逐点累积对数似然并进行批次优化是常见做法。对于复杂模型,期望最大化算法(EM)提供了解决含隐变量似然最大化的通用框架,通过交替估计隐变量的期望与最大化参数来迭代提高似然。EM 的收敛通常稳定但可能陷入局部极值,初始值选择和模型规约策略至关重要。 似然在临床研究和医学统计中的应用也非常广泛。比如生存分析中的参数模型和半参数模型、纵向数据分析中的混合效应模型,常通过似然方法估计参数并比较疗效。在药物试验中,似然比检验被用于比较治疗组与对照组在模型框架下的差异。
需要特别注意的是,医学数据常常具有偏差、缺失或测量误差,直接用似然方法若不加修正可能导致偏倚估计,必须结合缺失数据处理、加权或灵敏度分析来保证结果可靠。 深入讨论似然时不可忽视的一个话题是可识别性和模型设定。模型可识别意味着不同参数值不能产生完全相同的观测分布,否则似然最大化无法唯一确定参数。这在复杂混合模型、具有对称性或过参数化模型中尤为常见。设计模型时应尽量确保可识别性,或采取约束和正则化来取得稳定的估计。模型设定错误也会使得似然估计失真,既可能产生有偏估计,也可能误导决策。
因此在实务中进行模型诊断、残差分析与拟合优度检验是不可或缺的步骤。 从历史和哲学角度看,似然原则曾是统计学界广泛讨论的焦点。早期统计学家如费舍尔对似然极为推崇,他提出的似然原则强调推断应仅依赖于观测数据的似然而非其他未发生的样本点。尽管频率学派和贝叶斯学派在方法与解释上存在分歧,似然作为连接两者的桥梁依然发挥着关键作用。现代统计学将似然方法与贝叶斯方法、非参数方法和计算统计技术结合,形成了更为灵活且强大的推断体系。 在实际项目中如何高效使用似然方法?首先要明确模型假设并验证其合理性,选择适当的数据分布和参数化形式。
其次建议在实现时优先采用对数似然并注意数值稳定性,必要时加入正则化以防过拟合。第三,利用似然比或信息准则(如AIC、BIC)在模型间进行比较,但要理解这些准则的适用范围与局限性。最后,对结果进行敏感性分析,检验估计对异常值、模型设定与先验假设的稳健性。现实世界的数据复杂且常含噪声,谨慎解读似然最大化给出的参数尤其重要。 总之,似然是连接数据与模型、过去观测与参数推断的基本概念。无论是在传统统计推断、医学研究还是现代机器学习中,理解似然的含义与应用方法都能显著提升建模与决策的质量。
掌握似然函数的构造、最大似然估计的求解、似然比检验的使用,以及与贝叶斯框架的互补关系,将帮助研究者在复杂数据环境中更准确地评估不确定性并作出稳健的结论。 。