在进行生存分析时,因变量是指从研究开始到目标事件发生为止所经过的时间。该变量是连续的(即可以取任意数量的不同值),且其值不能为负。 我们将该变量记为 T(大写 T 表示其为未知值的经过时间随机变量;相比之下,具体时间点将用小写 t 表示)。尽管 T 的具体数值未知,但可以通过概率密度函数(pdf)f(t) 和累积分布函数(cdf)F(t) 来定义该变量。
概率密度函数的直接解读起初可能会让人有些困惑,且超出了本指南的讨论范围。但在继续探讨之前,关于概率密度函数有几点重要事实需要注意:
1.对于所有 t 的取值,f(t) 的值均为正(大于或等于零)
2.f(t) 曲线覆盖所有可能的 t 值所形成的面积等于 1

3.概率密度函数与累积分布函数之间的关系由以下公式给出:

利用关于概率密度函数(PDF)和累积分布函数(CDF)的这些事实,我们可以对 F(t) 给出一个相对容易解读的解释:它是目标事件在时间 t 之前(含 t)发生的概率。数学上表示为:


换言之,F(t) 表示观测到的经过时间 T 小于表达式中所评估的特定时间 t 的概率。然而在生存分析中,我们通常并不关注事件在特定时间之前发生的概率,而是希望了解事件在特定时间之前未发生的概率。我们可以利用前面关于概率密度函数(pdf)和累积分布函数(cdf)的几个事实来给出这一数学形式。
我们知道,概率密度函数在所有 t 值上的曲线下面积等于 1:

若已知累积分布函数(cdf)表示事件在时间 t 之前发生的概率,则其补集必然是事件在时间 t 之前未发生的概率,由此可建立如下关系:




这被称为生存函数(S(t)),表示截至时间 t 所关注的事件尚未发生的概率。
