医学研究中样本量估算的多种方法与注意事项

瓜瓜星情报

样本量计算在科研设计中占据着举足轻重的地位。它涉及到通过随机抽样技术来选择研究对象，而样本量的多少直接影响到研究的结果。若样本量不足，可能导致无法回答关键假设，从而使得整个研究功亏一篑；而样本量过大，则无疑会增加人力、物力、财力的额外负担，造成不必要的困扰和资源浪费。本文旨在深入探讨与样本量估算密切相关的各种因素，以及样本量的具体计算过程。

1. 样本量估算时必须综合考虑多种因素。

样本量估算是一个综合性的过程，它涉及多个因素的考量。在确定样本量时，我们必须全面地审视各种可能影响样本量大小的因素，以确保估算的准确性和可靠性。这些常见的影响因素包括但不限于以下几个方面。

2.1 假设检验的方向

研究假设是针对总体提出的一种预先假定，它与研究的主要目的紧密相关。例如，在比较两种药物治疗高血压的疗效时，我们通常会预设两组药物的疗效无显著差异（即无效假设）。随后，在收集数据并计算统计量和P值的过程中，我们旨在判断当前数据是否支持这一无效假定。如果数据提供了足够的证据推翻无效假设，那么我们就可以接受其对立面——备择假设，也就是认为两组药物的疗效确实存在显著差异。

在研究假设中，假设的方向会对样本量产生直接影响，这通常体现为单侧假设与双侧假设的区分。例如，在比较A、B两种药物的疗效时，如果研究者对二者孰优孰劣持不确定态度，那么他可能会验证A¹B，这种情况就属于双侧假设。相反，如果研究者确信A的疗效必定优于B，或者B的疗效必定优于A，那么他可能会验证A>B或B>A，这便是单侧检验。值得注意的是，单侧检验与双侧检验所需的样本量是不同的，通常单侧检验所需的样本量会少于双侧检验。

在决定采用哪种检验方法时，研究者需要根据自己的信心程度来选择。如果他有100%的把握认为关联仅在一个方向上，那么单侧检验可能是一个合适的选择。然而，由于有时即使研究者认为不可能出现双侧关联，结果也可能出乎其意料，因此采用双侧检验通常更为稳妥。但需强调的是，选择使用单侧或双侧检验必须在数据收集和分析之前就确定下来，而不是在数据收集和分析之后才临时更改。

3.2 一类错误与二类错误

在研究过程中，基于数据做出结论时，往往会面临两种类型的错误抉择。例如，在探讨服用塞来昔布是否会增加心血管事件风险的研究中，我们可能选择接受无效假设，认为药物与事件无关联；或者选择接受备择假设，认为二者存在关联。无论做出何种选择，都可能犯错。若实际上药物与事件并无关联，但我们却做出了接受的备择假设的结论，那么就犯了假阳性错误，也被称为一类错误或I型错误（通常以α表示）。相反，若实际上药物与事件存在关联，而我们却做出了接受无效假设的结论，那么就犯了假阴性错误，也称为二类错误或II型错误（通常以β表示）。

把握度是一个与二类错误紧密相关的概念。它指的是在备择假设为真的情况下，统计学结论能够正确拒绝无效假设的概率。例如，在塞来昔布确实增加心血管风险的情况下，统计学结果能够正确拒绝“塞来昔布不增加心血管风险”的无效假设的概率。把握度与二类错误（β）相互对立，通常表示为1－β。

在计算样本量时，必须充分考虑一类错误和二类错误（或把握度）的大小。一般来说，设定的错误越小，所需的样本量就越大。虽然许多研究者习惯将一类错误（α）设为0.05，二类错误（β）设为0.2（即把握度1－β设为0.8），但这并非固定不变。根据研究目的的不同，这些设定值可以进行适当调整。例如，在塞来昔布是否增加心血管风险的研究中，如果研究者认为犯一类错误的后果非常严重，可能会浪费前期投入，那么他们可能会将α设得更低一些（如0.025）。反之，若研究者认为心血管事件风险的增加具有重大意义，不仅关乎个人健康，还涉及公共健康问题，那么他们可能会将β设得更小一些（如0.05）。

4.3 效应值大小

效应值，即总体中的关联强度，其表现形式因研究类型而异。例如，在组间比较中，效应值可能体现为两组间的差异；在相关性分析中，则可能表现为相关系数；而在logistic回归中，则通过OR值来衡量。

通常，总体中效应值越大（例如，两种治疗方式导致的空腹血糖差异显著，或幽门螺杆菌阳性与胃癌之间的OR值显著高于1），所需的样本量就越小；反之，效应值越小（如血糖差异微小，或OR值接近1），则所需样本量相应增大。

在实际研究中，确定恰当的效应值往往具有挑战性，特别是在缺乏先验知识的情况下。然而，在计算样本量时，我们往往需要预先设定一个效应值。为了更准确地设定效应值，研究者可以参考相关文献、咨询领域专家，或在必要时通过预实验来获取信息。

5.4 其它因素

除了上述几个关键因素外，还有诸多其他因素同样会影响样本量的大小。例如，在组间比较时，如果变异（通常以方差或标准差来衡量）程度更高，那么所需的样本量也会相应增加。此外，当组间例数不等时，所需的样本量通常也会大于组间例数相等的情况。同时，研究中的混杂因素越多，样本量需求也会相应上升。

在抽样调查中，我们还需要考虑设计效率的问题。设计效率值反映了同一目标量下，采用相同调查单位时，特定抽样设计估计量方差与完全随机抽样设计（不放回）估计量方差的比率。设计效率值越高，意味着抽样设计的误差越大，进而导致该设计的效率降低。为了达到与完全随机抽样相同的效率水平，我们需要增加样本量。值得注意的是，整群抽样在设计效率上通常较低，因此专家建议在设计时至少应设定为2倍的样本量，以确保达到与完全随机抽样相当的效率水平。
2. 常见研究的样本量估算
在各种研究类型中，如何估算所需的样本量是一个重要的环节。样本量的选择直接影响到研究的准确性和可靠性。不同类型的研究，如描述性研究、探索性研究、实验性研究等，都有其特定的样本量估算方法和标准。
2.1 横断面调查的样本量估算
横断面调查，旨在探究特定疾病的患病率，其样本量计算关键在于考量该疾病的预期发病率，并明确研究者所容许的偏离总体值的程度，即精确度d。通常，精确度被设定为预期发病率的某一百分比（例如，若预期发病率为20%，则精确度可定为2%，即预期发病率的10%）。基于这些信息，我们可以使用特定的公式来估算所需的样本量。
式中，Z1-α/2表示标准正态分布下，面积为1-α/2所对应的百分位数。p代表预期发病率，而ε则表示预期发病率的百分比。

例如，某项研究旨在调查当地学龄儿童的龋齿患病率。为简化调查过程，研究团队决定采用整群抽样方法。根据历史数据，他们发现当地学龄儿童的龋齿患病率约为30%。现在，他们希望以95%的置信度，确保调查结果与总体真实率的偏差控制在10%以内。那么，他们需要调查多少儿童才能达到这一目标呢？

在这个例子中，p=0.03（预期发病率），ε=0.1（预期发病率的百分比），α=0.05（显著性水平）。将这些数值代入公式，我们可以计算出所需的样本量。其中，Z1-α/2在标准正态分布下对应于1-α/2的面积为1.96。接下来，我们只需将这个值和其他相关参数一起代入样本量估算的公式中，即可得出答案。
在整群抽样中，设计效率是一个关键考量因素。按照上述公式计算得出需要897例样本后，为了确保与完全随机设计具有相同的效率，我们还需要将这个数值乘以设计效率值。假设本研究的设计效率值为2，那么采用整群抽样方法实际上需要调查的样本量为897乘以2，即1794例。
2.2 两组均值比较的样本量估算

在两组均值比较的情境下，我们通常需要预先知晓两组的均值和标准差。随后，结合预设的一类错误概率和把握度，我们可以利用以下公式来估算所需的样本量：
式中，Φ(1－α/2)和Φ(1－β)分别表示标准正态分布中对应1－α/2和1－β的百分位数。nc代表对照组例数，表示实验组均值，表示对照组均值，而k则表示实验组与对照组例数的比例。此外，s代表两组合并标准差，其计算方式为s1和s2两组标准差的平方和除以n1和n2两组例数的总和的平方根。

例如，某项研究旨在比较两种药物治疗糖尿病的效果。该研究采用随机对照试验设计，计划将糖尿病患者随机分为两组，每组接受不同的药物治疗，并以服药后的空腹血糖值作为主要疗效评价指标。通过查阅以往文献，研究者获取了两种药物的空腹血糖均值和标准差，分别为（8.06±1.82）和（7.23±1.52）mmol/L。利用这些信息，研究者能够计算出两组合并标准差为1.68。同时，研究者设定了显著性水平α为0.05，并希望有80%的把握发现两种药物的真实差异。接下来，研究者需要将这些指标值代入样本量估算公式中进行计算。
根据随机对照试验的设计要求，对照组与实验组需按照1：1的比例进行分配。已知对照组需要65例，因此，两组合计共需130例研究对象。
2.3 两组率比较的样本量估算
在进行两组率比较时，首先需要获取两组的预期率。接着，依据一类错误和把握度，利用以下公式来计算所需的样本量：
式中，和分别代表标准正态分布中对应于1-α/2和1-β的百分位数。nc表示对照组的样本量，表示实验组的比例，表示对照组的比例，而k则代表实验组与对照组样本量的比例。
接下来，我们通过一个具体的例子来演示如何使用这个公式进行样本含量的估计。假设研究者将空腹血糖疗效作为主要的研究指标，并且根据之前的研究，两组的有效率分别为83%和71%。现在，我们就要利用这些信息来进行样本含量的估算。将已知的两组率代入公式，经过计算，我们可以得到所需的样本量。
经过计算，对照组需要包含190例研究对象，而实验组与对照组的样本量将按照1：1的比例进行分配，这意味着两组总计需要380例研究对象。
2.4两组生存资料比较的样本量估算
在比较两组生存资料时，我们需要预先了解各组的预期死亡风险和招募所需时间。接着，结合一类错误和把握度，我们可以通过以下公式来计算所需的样本量。
在比较两组生存资料时，我们常常需要估算所需的样本量。为了实现这一目标，我们首先需要明确各组的预期死亡风险和招募所需时间。随后，结合一类错误和把握度的考量，我们可以利用特定的公式来计算所需的样本量。在公式中，λt和λc分别代表实验组和对照组的风险率，而和则分别表示这两组风险率的方差。这些风险率和方差可以通过相关计算公式进行求解。
其中，λt和λc分别代表实验组和对照组的风险率，而T0表示招募时间，T代表总的研究时间，T-T0则代表随访时间。在指数分布的假设下，风险率与中位生存时间可以相互转换，具体来说，风险率等于ln2除以中位生存时间。

例如，有一项研究旨在比较两种药物对肺癌患者生存时间的延长效果。该研究采用完全随机设计，并将生存时间（以月为单位）作为主要疗效指标。根据之前的文献资料，两组的中位生存时间分别约为13个月和8个月。研究预计将花费6个月进行受试者招募，并持续30个月的随访。此外，研究者希望有80%的把握来揭示这两种药物的真实差异。那么，该研究应该如何确定所需的样本量呢？

首先，我们需要根据中位生存时间计算两组的风险率。通过公式ln2/13和ln2/8，我们得到实验组和对照组的风险率分别为0.053和0.087。接下来，我们可以利用这些风险率来计算各组的风险率方差。在已知这些信息后，我们就可以利用特定的统计方法来估算所需的样本量了。
基于上述风险率，我们可以进一步推算出对照组所需的样本量。
即对照组需75例，按照1:1的比例，试验组同样需要75例，两组合计共需150例样本。
在样本量估算方面，实际研究中通常会借助统计软件来简化计算过程，例如PASS（Power Analysis and Sample Size）这款软件就能处理各种情形下的样本量计算。此外，还有诸如http://www.openepi.com/SampleSize/SSCC.htm这样的在线工具，专注于流行病学研究的样本量计算，可轻松应对病例对照研究、队列研究等常见研究类型的样本量估算。

总之，在研究设计阶段，样本量估算至关重要。虽然计算的复杂性因研究类型和假设而异，但选择合适的公式是关键。这些公式需结合研究目的、研究类型及假设检验等要素来综合考虑，并依据预定的参数进行精确计算。
冯国双博士，一位资深的统计学家，就职于北京儿童医院。他深耕于统计学领域，为各类医学研究提供专业的样本量估算支持。
资深SAS统计分析师，现担任中国CDC副研究员，拥有深厚的SAS统计分析背景，积累了长达十余年的行业经验。他不仅主编了《医学案例统计分析与SAS应用》、《医学研究中的logistic回归分析及SAS实现》以及《医学实验设计分析与SAS实现》等SAS领域的专著，还在国内外杂志上发表了50余篇专业文章。此外，他还担任“北京市免疫规划和疫苗评价专家委员会”的专家委员，以及《中华护理杂志》、《中国艾滋病性病杂志》和《山东大学学报（医学版）》的审稿专家。同时，《慢性病学杂志》也荣幸地成为其编委会成员。在科研机构、学校院所等广泛进行SAS或统计相关的培训与讲座，充分展现了其丰富的统计培训经验。
2024临床试验设计与样本量计算关键技术专题培训班
各有关单位：

在当今的医学研究领域，临床试验对于验证新药、治疗方法或医疗设备的安全性和有效性而言，显得尤为关键。随着医药科技的日新月异，临床试验的复杂性和对专业知识的需求也在不断攀升。合理的临床试验设计不仅关乎研究的质量和可信度，更直接影响到患者能否及时获得有效的治疗。

临床试验的设计与样本量计算，这一专业领域内的挑战不容忽视。不当的设计可能导致资源浪费、错误结论，甚至对患者构成潜在风险。特别是在样本量计算方面，不精确的估算可能致使试验无法检测到实际效应，或者需要额外增加受试者才能得出有意义的结果，从而增加了研究的成本和时间投入。

为了助力药企临床试验设计管理人员更好地掌握临床试验设计与样本量计算的关键技术，我们将于2024年7月27日至28日举办一场线上专题培训班。此次课程旨在为临床研究的专业人员提供一个系统而深入的学习机会，使他们能够熟练掌握临床试验设计的基本原则和样本量计算的核心技巧，进而提升临床研究的工作效率和质量。
一、课程目标
本培训课程致力于为临床研究的专业人员提供深入的理论知识和实践技能，旨在优化临床试验设计并精准计算所需样本量。通过学习，参与者将能够：

●深入理解临床试验设计的核心原理和不可或缺的要素。
●牢固掌握样本量计算的统计学基础，包括必要的统计概念和原理。
●学会运用实用的工具和技巧进行样本量计算，确保准确性和效率。
●能够独立处理与临床试验设计及样本量计算相关的复杂问题。

二、会议安排

会议时间：2024年7月27日至28日
会议地点：腾讯会议
主讲嘉宾：张老师，一位拥有统计学博士学位的专家，拥有丰富的统计咨询经验。他熟悉各类研究设计、样本量计算及统计分析，曾助力多项创新药械成功上市，并参与众多临床研究课题，协助临床医生发表了众多学术论文。
1）流行病学中的研究设计
a、偏倚的定义与分类
b、队列研究：探讨特定因素与疾病发生的关系
c、病例对照研究：比较病例与对照人群的特征差异
d、实验流行病学：通过干预措施评估特定因素对疾病的影响

2）临床试验的统计设计
a、统计设计的基本要素：确保试验的科学性和可靠性
b、统计设计的基本原则：遵循统计学原理，合理设定试验参数
c、经典试验设计案例分享：从实际案例中学习统计设计的精髓

3）统计推断原理
a、参数估计与假设检验：通过数据推断总体参数和提出假设
b、假设检验基本原理：理解P值、第I/II类统计错误等关键概念

4）样本量计算基本原理
a、样本量计算原理：明确样本量与试验精度、可信度之间的关系
b、样本量计算的直觉认识：通过实例加深对样本量计算的理解

5）样本量计算工具
a、PASS、SAS、STATA等软件介绍：掌握这些专业工具进行样本量计算
b、不同终点便捷软件实操：针对不同研究终点，灵活运用软件进行计算

6）文献参数提取、转换与合并
a、参数提取：从文献中准确获取所需数据和参数信息
b、参数转换：将不同研究中的参数进行统一转换，便于比较和分析
c、使用R做Meta分析：通过R语言进行文献参数的合并分析
d、Meta分析结果解读：理解Meta分析的原理和结果，为临床研究提供有力支持。
1）非劣效与等效设计
a、非劣效设计/等效设计的概述
b、非劣界值的设定方法
c、非劣效设计的样本量计算技巧

2）多重性问题探讨
a、类错误与总I类错误的概念
b、临床研究中常见的多重性问题
c、多重性调整的策略及方法

3、适应性设计解析
a、成组序贯设计的原理
b、样本量重估的流程
c、盲态与非盲态样本量重估的差异

4）诊断试验的设计与样本量计算
a、定性诊断试验与定量诊断试验的对比
b、诊断试验的样本量计算方法

5）特殊类型样本量计算
a、单臂Simon设计等特殊设计类型的介绍
b、罕见事件样本量的计算技巧

6）样本量相关设计考量
a、减少样本量的十大策略及实践
b、减少样本量时的几个常见误区

7）方案/标书中的统计学撰写要点
a、统计学部分的撰写要点及案例分享

答疑时间：16:30-17:00
培训对象：制药公司临床试验设计管理人员、研究型临床医生、生物统计师、临床药理学/临床医学研究人员及其他药物研发相关的工作人员。