• 回答数

    4

  • 浏览数

    281

早秋2013
首页 > 医学论文 > 有P值错误的医学期刊

4个回答 默认排序
  • 默认排序
  • 按时间排序

猪猪爱次次

已采纳

缺失值的处理:缺失值是人群研究中不可避免的问题,其处理方式的差异可能在不同程度上引入偏倚,因此,详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如,瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略,包括:将二分类结局中的缺失值视为未发生事件;将生物标志物和心电图测量中的缺失值进行多重填补(multiple imputation);为了证明缺失值处理的合理性和填补结果的稳定性,研究还比较了多重填补与完整数据(complete-case)分析的结果。2、数据的预处理:实施统计分析之前往往需要将原始数据进行预处理,如:对连续变量进行函数转换使其更接近正态分布,基于原始数据构建衍生变量,将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据,瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述:确定统计分析使用的变量,并针对每一个变量的分布特征进行描述,是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求,但作者往往套用常用方法,如:连续变量符合正态分布时,采用均数(标准差)描述,否则采用中位数(四分位间距)描述;分类变量采用频数(百分比)描述等。事实上,应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如,CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征,而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析(primary analysis):指针对研究结局的统计分析,是研究论文的核心证据。因此,医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中,应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

346 评论

yeting1976

1. 关于P值的理解

P值可以理解为结论的风险大小,也就是数据得出的结果有多大的错误风险。P值越小,结论错误的风险越小,即结论越可靠;P值越大,错误的风险越大,即结论的可靠性差。P值是对已有结果的错误风险判断,与结果大小无关。目前不少医学杂志上仍然存在着关于P值的不规范用语,如P≤认为“差异显著”,P≤认为“差异非常显著”等。不要将P值大小与实际差异大小联系起来。这是一个值得注意的地方。

统计学中普遍以作为假设检验的检验水准,这在手工计算的时代无疑是十分方便的。但到了计算机发达的今天,我们已经可以很轻松地计算出确切的P值,仅以P≤认为有统计学意义已经不符合潮流了。P值等于和等于有什么差别呢?无非就是比多了支持结论的证据,但是少了这的证据就没有意义了吗?因此,最好给出确切的P值,以便展示更多的信息。

2. 关于significant的理解

很多书通常将significant翻译为“显著的”,这一词很容易让人将其与实际差别大小联系起来。实际上significant的含义应该是“非偶然的”,当根据样本资料所得结果是significant,实际上表明这一结果“不是偶然”得到的,更可能是真实存在这样一种结果。如显著性水准设为,则P≤表示根据样本数据计算的统计量只有不到5%的可能是偶然(也可以理解为抽样误差造成的)造成的,反过来,计算的统计量不大可能是偶然造成的,而更有可能是真实的情况。

3. 统计学意义与实际意义

当统计学分析结果显示P≤时,我们的结论应该写为“组间差异有统计学意义”、“相关性有统计学意“、“影响有统计学意义”等,而不应该直接写成“组间有差异”、“变量间有相关”、“变量有影响”等。统计学结论与实际结论不同,它仅反映了从样本数据得到当前结果不是偶然的,但不反映实际结果的大小。

理论上,样本含量越大,越有可能得到小的P值。即使实际差别很小,大样本所得的P值也可能很小,于是问题来了:有的人便认为统计学是数字游戏。实际上并非如此,大样本P值很小,表明大样本的结果更为稳定可靠,恰恰反映了统计学的严谨性。比如某医生治愈1人,他据此宣称治愈率为100%,你会相信吗?但如果他治疗10000人仍然全部治愈,那他说治愈率100%,你会不会更相信?关键的问题是,当增加样本的时候,是不是还会保持原来的结果。治疗1人可以治愈,治疗第二个人一定会治愈吗?如果不断增加样本,结果仍然不变,统计学就会认为这种建立在大样本基础上的结果是可靠的,而不是偶然的,就会给出一个小P值。如果小样本的结果发现有差异,统计学会认为基于小样本的差异不一定可靠,因此会给出一个较大的P值,以提醒研究者谨慎下结论。

4. 单侧检验与双侧检验

单侧和双侧检验多用于组间比较。如果比较A、B两种药物的疗效,如果预期B药不可能不如A药,则可以采用单侧检验。这种情形也常用于新药与安慰剂比较。预期药物疗效不可能比安慰剂差,则可以用单侧检验。如果对两种药的疗效并不确定,B药可能优于A药,也可能劣与A药,则多采用双侧检验。

一般而言,如果事先对A、B两组了解不多,没有足够的证据了解A和B谁大谁小,就可选择双侧检验,如果事先了解谁大谁小,就可以选择单侧检验。值得注意的是:单侧检验和双侧检验的选择必须根据专业在数据分析之前确定。

对于同一资料,单侧检验比双侧检验更容易得到“有统计学意义”的结论,也就是更容易得到阳性结果。因此,切不可得到P值后再返回来选择有利的单侧检验或双侧检验,否则就真的是在玩统计学游戏了。

5. 关于把握度的理解

把握度又称检验效能(power),它表示如果确实有统计学意义的话,按照现有数据能够发现这种统计学意义的概率或把握度有多大。例如:两组比较中,power为,表示如果两组确实有差异的话,那我们在分析中有80%的把握度能够得到”有统计学差异“的结论。

把握度通常用1-β表示,β即犯第二类错误的概率。把握度在平常的统计分析中一般不大为人所重视,但当数据出现阴性结果的时候,你就会发现它的用处了。你可以用把握度判断一下阴性结果是否因为例数太少,如果是,你可以继续增加样本含量,如果不是,那就只好宣布实验结果事与愿违了。

163 评论

blue-taste

原文: Why Most Published Research Findings Are False 译:张小邪 人们越来越担心的是,目前大多数已发表的研究结果都是错误的。研究主张成立的概率可能取决于研究的功效和偏倚、同一问题上其他研究的数量、以及每个科学领域中所探究的关系中真与假的比例。在这种框架下,当研究领域较小时;当效应值较小时;当被测关系的预选数量更多而预选次数更少时;当设计,定义,结果和分析模式具有更大灵活性时;当存在更大的金钱和其他利益和偏见时;当更多的团队参与科学领域以追求统计学意义时,研究结论就不太可能成立。模拟表明,对于大多数研究设计和设置,研究结论为假可能性更大。此外,对于一些当前科学领域,声称的研究结果可能通常只是对普遍存在的偏倚的准确测量。在本文中,我将讨论这些问题对研究的组织和解释的影响。 不断涌出的证据有时反驳了已发表的研究结果,随之而来的是困惑和失望。从临床试验和传统流行病学研究[1-3]到最现代的分子研究[4,5],研究设计的范围都存在驳斥和争议。越来越多的人担心,在现代研究中,错误的研究结果可能是已发表的研究主张的大多数乃至绝大多数[6-8]。然而,这并不令人惊讶。可以证明,大多数声称的研究结果都是错误的。在此,我将研究影响这一问题的关键因素及其中的一些推论。 几位方法学家指出[9-11],研究结论的非重复(缺乏证实)率高是追求便利的结果,然而,仅仅基于对单个研究在形式上的统计学显著性评估,就得出此研究结果毋庸置疑的结论,这种做法是站不住脚的(形式上的统计显着性,通常指p值小于)。研究结论的真伪并不总是能恰当地用p值(P-Value)表示和概括,但是,不幸的是,有一种普遍的观点认为医学研究文章应仅基于p值进行解释。研究结论在此定义为任何形式上能具有统计显著性的关系,例如有效的干预措施,信息性预报器,风险因素等等。其实 “负面”研究也非常有用。 “负面”实际上是一个误称,而且这种误解很普遍。但是,这里我们只针对研究者声称存在的关系,而不是无效的发现。 It can be proven that most claimed research findings are false. 如前所述,一项研究发现确实为真的概率取决于该事实为真的先验概率、研究的统计能力以及统计显著性水平[10,11]。想象一个2×2的表格,在表格中将研究结果与科学领域中真实关系的黄金标准进行比较。在一个研究领域中,关系存在真和假两种假设。令R为现场测试的“真关系”与“假关系”的数量之比。 R是该领域的特征,它可以有很大的变化,这取决于该领域是以高度可能的关系为目标,还是在可能的数千个假设中只搜索一个或几个真实的关系。为了简化计算,我们也可以认为,在这些领域中,要么只有一个真实的关系(在许多可以被假设的真实关系中),要么在几个现有的真实关系中找到任何一个的功效是相似的。一个关系为真的先验概率为R⁄(R+1)。研究发现真关系的概率反映的是功效1-β(1减去第二类错误率)。当没有一个关系真正存在时,声称关系为真的概率反映了Ⅰ型错误率,α。假设在该领域中正在探究c关系,表1中给出了2×2表的期望值。在基于正式的统计显著性声明了一项研究发现后,得出的结论是后验概率为真的预测值,PPV(positive predictive value)。 PPV也就是Wacholder等人所说的假阳性报告概率的补充概率[10]。根据表1,可以得出PPV =(1-β)R/(R-βR+α)。因此,如果(1-β)R>α,则研究发现更可能为真。通常,由于绝大多数研究者都取α= ,因此这意味着,如果(1-β)R> ,则研究结果更可能是对的。不太容易理解的是,全球各地不同研究人员团队的偏倚和重复进行的独立测试的程度可能会进一步扭曲这一状况,并可能导致研究结果真正属实的可能性更小。我们将尝试在类似的2×2表的环境中对这两个因素进行建模。 首先,让我们将偏倚定义为各种设计,数据,分析和表示因素的组合,这些因素往往会在不应该产生的时候产生研究结果。假设u是那些本不应该成为的 "研究结果",但最终却因为偏倚而呈现和报告为分析结果的比例。即使研究设计,数据,分析和陈述是完美的,也不应将偏倚与机遇变异相混淆,后者有一定概率会导致某些发现是错误的。在分析或报告结果的过程中,偏倚可能导致对分析或报告结果的操纵。断章取义或歪曲事实的报告是这种偏倚的典型形式。我们可以假设u并不取决于是否存在真实的关系。这不是一个不合理的假设,因为通常不可能知道哪些关系确实是真实的。在存在偏倚的情况下(表2),PPV =([1-β] R +uβR)⁄(R +α-βR+ u-uα+uβR),PPV随u的增加而减小,除非1-β ≤α,即在大多数情况下为1-β≤。因此,随着偏倚的增加,研究结论正确的机会将大大减少。图1中显示了针对不同功效水平和针对不同验前比(译者:即R)的情况。 反过来,真正的研究结果有时可能会因为反向偏倚而无效。例如,对于较大的测量误差,关系会在噪音中丢失[12],或调查人员无法有效使用数据,或他们没有注意到统计上显着的关系,或可能存在利益冲突,从而使他们倾向于 "埋没"重要的研究结果[13]。尚无良好的大规模实证证据表明,在不同的研究领域中,这种反向偏倚可能发生的频率有多高。然而,或许可以公平地说,反向偏倚并不常见。此外,测量误差和数据使用效率低下的问题可能正变得不那么频繁,因为随着分子时代技术进步,测量误差已经有所降低,研究者对数据的处理也越来越复杂。无论如何,反向偏倚可以与上面的偏倚相同的方式建模。同样,反向偏倚不应该与机遇变异混为一谈,后者可能会因为机会而错失一段真正的关系。(译者:上一段说偏倚越大,错误结果被认为真的可能性越低。这一段说,偏倚过大,有可能让真正的结果被埋没。) 几个独立的团队可能正在解决同一组研究问题。随着研究工作的全球化,几个研究团队(通常是几十个团队)可能会探索相同或相似的问题,这几乎是一种惯例。不幸的是,在某些领域,到目前为止,主流的心态一直是专注于单个团队的孤立发现,孤立地解释研究实验。至少有一项研究报告宣称有研究结果的问题越来越多,这就使得人们的注意力向这些问题倾斜。在关于同一问题的几项研究中,至少有一项研究声称其研究发现有统计学意义的概率很容易估计。对于n个等功率的独立研究,2×2的表(如表3)所示:PPV=R(1−βn)/(R+1−[1−α]n−Rβn)(不考虑偏倚)。随着独立研究数量的增加,除非1−β<α,即典型的1−β<,否则PPV有下降的趋势。在图2中显示了针对不同功效水平和不同的验前比的情况。对于不同功率的n个研究,在i = 1到n的情况下,βn被βi的乘积所取代,但推论是相似的。方块1中显示了一个实际示例。基于上述考虑,可以得出有关研究发现确实为真的概率的一些有趣的推论。 小样本量意味着较小的功效,对于上述所有函数,真正研究结果的PPV值随功效向1-β= 降低而降低。因此,在其他因素相同的情况下,在进行大研究的科学领域,如心脏病学的随机对照试验(几千名受试者随机化)[14],比起小研究的科学领域,如大多数分子预测因子的研究(样本量小100倍)[15],研究结果更有可能是真实的。 功效也与效应值有关。因此,在效应大的科学领域,如吸烟对癌症或心血管疾病的影响(相对风险3-20),与公认效应较小的科学领域,如多基因疾病的遗传危险因素(相对风险)[7],研究结果更有可能是真实的。现代流行病学越来越被迫以较小的效应规模为目标[16]。因此,真实研究成果的比例预计会下降。按照同样的思路,如果一个科学领域的真实效应值非常小,那么这个领域很可能会受到几乎无处不在的假阳性主张的困扰。例如,如果复杂疾病的大多数真正的遗传或营养决定因素的相对风险低于,那么遗传或营养流行病学的研究将在很大程度上是乌托邦式的。 如上所述,后验概率为真(PPV)在很大程度上取决于验前比(R)。因此,研究结果在验证性设计中,如大型III期随机对照试验或荟萃分析(meta-analyses)等,比起假设生成实验,研究结果更有可能是真的。基于大量经过汇编和测试的信息,被认为具有很高信息量和创造力的领域应具有极低的PPV,如微阵列和其他以发现为导向的高通量研究[4,8,17]。 对于一些研究设计,如随机对照试验[18-20]或荟萃分析[21,22]等,灵活性增加了将 "负面 "结果转化为 "正面 "结果的可能性,即偏倚u。遵循共同的标准很可能会增加真实发现的比例。研究结果也是如此。相较于设计了多种结果(例如精神分裂症结果的量表),当结果是明确和普遍认同的(如死亡),真实的结果可能更常见[23]。类似地,与分析方法仍处于实验阶段(例如,人工智能方法)并且只报告“最佳”结果的领域相比,使用普遍认同的、刻板的分析方法(例如,KaplanMeier曲线图和对数秩检验)的领域[24]可能产生更大比例的真实结果。不管怎么说,即使在最严格的研究设计中,偏倚似乎也是一个主要问题。例如,有强有力的证据表明,选择性结果报告,对报告的结果和分析进行操纵,即使对于随机试验也是一个常见的问题[25]。仅仅取消有选择的出版,并不能使这个问题消失。 利益冲突和偏见可能会增加偏倚u。利益冲突在生物医学研究中非常常见[26],虽然通常它们的报道不足且数量较少[26,27]。偏见不一定有经济根源。某一特定领域的科学家可能纯粹因为相信科学理论或致力于一己的发现而产生偏见。许多看似独立的、以大学为基础的研究可能只是为了给予医生和研究人员晋升或终身教职的资格,而不是出于其他原因。这样的非财务冲突也可能导致报告结果和解释被扭曲。有声望的研究者可能通过同行评审程序压制反驳他们的研究结果出现和传播,从而使他们的研究领域延续错误的教条。经验证据表明,专家意见极不可靠[28]。 这似乎是自相矛盾的推论,因为如上所述,当许多研究人员团队参与同一领域时,个别发现的PPV会降低。这可能解释了为什么在引起广泛关注的领域中,我们因重大发现而兴奋不已时,紧随其后的是深深的失望。随着很多团队挤入同一领域工作,随着大量实验数据的产生,要想击败竞争对手,时机变得至关重要。因此,每个团队可能会优先追求和传播其最令人印象深刻的 "正面 "成果。只有当其他团队在同一问题上找到了“正面”关联时,“负面”结果才可能变得具有传播吸引力。在这种情况下,驳斥一些著名期刊上的说法可能是有吸引力的。有人提出了Proteus现象这个术语来描述这种快速交替出现的极端研究主张和极端相反的反驳现象[29]。经验证据表明,这种极端对立的序列在分子遗传学中非常普遍[29]。 这些推论分别分析了每个因素,但这些因素往往相互影响。例如,在普遍认为真实效应值较小的领域工作的研究者,可能比在普遍认为真实效应值较大的领域工作的研究者更有可能进行大型研究。或者,偏见可能会在一个热门的科学领域盛行,进一步削弱其研究结果的预测价值。持有高度偏见的利益攸关方甚至可能制造障碍,破坏获得、传播相反结果的努力。反过来,一个领域很热门或能吸引浓厚的投资兴趣,有时会促进研究规模的扩大和研究水平的提高,从而提高其研究结果的预测价值。或者,大规模以发现为导向的测试可能会发现大量的重要关系,使研究者有足够的内容汇报及进行进一步的搜索,从而避免了数据挖掘、操纵。 在本文描述的框架中,PPV超过50%是相当困难的。表4提供了针对各种情况(可能是特定研究设计和设置所特有的)针对功效的影响,基于真实与非真实关系的比率和偏倚所开发的公式进行模拟的结果。从一项进行良好、有充分功效、以先验几率为50%(干预有效)开始的随机对照试验中发现,一项发现最终有大约85%的情况下是正确的。对高质量随机试验的验证性荟萃分析预期会有相当相似的表现:潜在的偏倚可能会增加,但与单一的随机试验相比,功效和预检机会更高。相反,如果R≤1:3,来自非结论性研究的荟萃分析结果很可能是错误的。来自功效不足的早期临床试验的研究发现,如果存在偏倚,仅有约四分之一的研究结果可能为真,甚至更少。以探索为导向的流行病学研究表现更差,特别是在功效不足的情况下,但即使功效充足,如果R=1:10,流行病学研究也可能只有五分之一的可能是真的。最后,在以发现为导向的研究中,如果测试的关系超过真实关系的1,000倍(例如,测试了30,000个基因,其中30个基因可能是真正的罪魁祸首)[30,31],即使在实验室和统计方法、结果和报告的标准化程度相当高、偏倚很小的情况下,每个已确认的关系的PPV也非常低。 如前述,大多数现代生物医学研究都是在研究前和研究后获得真实发现的概率非常低的领域进行的。让我们假设,在一个研究领域中,根本没有任何真正的发现。科学史告诉我们,至少根据我们目前的理解,过去科学工作常常浪费在完全没有真正科学信息的领域。在这样的“零场”中,理想情况下,在没有偏倚的情况下,所有观察到的效应大小都会在零场附近偶然变化。观察到的结果偏离预期的程度仅仅是偶然的,这仅仅是对普遍存在的偏倚的纯粹衡量。 例如,让我们假设缺乏营养或饮食习惯实际上是形成特定肿瘤风险的重要决定因素。我们还可以假设,科学文献研究了60种营养素,并声称所有这些营养素都与罹患这种肿瘤的风险有关,而在比较摄入量上限和下限的相对风险在至之间。那么,声称的效应值只是衡量了这些科学文献的产生过程中所涉及的净偏差。其实际上是对净偏差的最准确的估计。甚至可以说,在 "零场"之间,声称效应值更高的领域(往往伴随着医学或公共卫生重要性的声称)只是那些维持了最严重的偏倚的领域。 对于PPV很低的领域,为数不多的真实关系不会对整体情况造成太大扭曲。即使某些关系是正确的,观察到的效应分布的形状仍然可以清楚地衡量该领域所涉及的偏倚。这个概念完全颠覆了我们看待科学成果的方式。传统上,研究人员会兴奋地将巨大而极其重要的影响视为重要发现的迹象。在现代研究的大多数领域中,太大和太显著的影响实际上更有可能是巨大偏倚的迹象。它们应引导研究人员仔细地进行批判性思考,以了解其数据,分析和结果可能出了什么问题。 当然,在任何一个领域工作的研究人员都很可能不愿意接受这样一个事实,那就是,他们的职业生涯所处的整个领域都是一个 “零场”。然而,其他方面的证据,或技术和实验的进步,可能最终会导致一个科学领域的瓦解。衡量一个领域的净偏倚,也可能有助于了解其他领域的偏倚范围,在这些领域中,类似的分析方法、技术和冲突可能会在其他领域中使用。 大多数研究结果都是错误的,这是不可避免的吗?还是我们可以改善这种情况?一个主要的问题是,我们不可能百分之百肯定地知道任何研究问题中的真相是什么。在这方面,纯粹的 "黄金 "标准是无法实现的。然而,有几种方法可以提高后验概率。 提供更有力的证据可能会有所帮助,例如大型研究或低偏倚荟萃分析,因为它更接近未知的“黄金”标准。然而,大型研究仍可能存在偏倚,应该承认并避免这些偏倚。此外,对于当前研究中提出的数百万和数万亿个研究问题,大规模证据是不可能获得的。大规模证据应该针对先验概率已经相当高的研究问题,这样一个重大研究发现会使得后验概率可以被认为是相当确定的。当主要概念而不是狭义的、具体的问题能够得到检验时,也就特别指出了大规模证据的存在。一个否定的结论不仅可以反驳一个具体的建议主张,甚至可以驳斥整个领域或相当一部分的主张。根据狭义标准选择大规模研究的表现,例如特定药物的营销推广,这在很大程度上是浪费研究。此外,人们应该警惕的是,极大规模的研究,也许更有可能为一个与空值没有真正意义上区别的小效应,找到形式上的统计学显著性差异[32-34]。 其次,大多数研究问题都是由多个团队解决的,强调任何一个团队的统计学研究结果都是有误导性的。重要的是证据的整体性。通过提高研究标准和减少偏见来缩小偏倚也可能有所帮助。然而,这可能需要改变科学心态,而这可能很难实现。在一些研究设计中,通过研究的前期注册,如随机试验等,可提高成功的概率[35]。这是因为注册将对假设生成研究构成挑战。在领域内对数据收集或研究人员进行某种注册或联网可能比注册每个假设生成实验更可行。不管怎么说,即使我们在其他领域的研究注册方面没有取得很大的进展,但制定和遵守协议的原则可以从随机对照试验中更广泛地借鉴。 最后,我们不应该追逐统计学上的显著性,而应该提高我们对R值范围(验前比)的理解,这是研究真正能够发挥作用的地方[10]。在进行实验前,研究者应该考虑他们所测试的是真实关系而不是非真实关系的概率。推测的高R值有时会被确定。如上所述,只要在伦理上可以接受,应该对那些被认为是相对成立的研究结果进行偏差最小的大型研究,看看这些研究结果被证实的频率有多高。我怀疑有一些既定的 "经典 "将无法通过检验[36]。 然而,大多数新发现将继续来自验前比很低,甚至非常低的假设生成研究。那么,我们应该承认,单项研究报告中的统计显著性检验仅提供了部分情况,而不知道在报告之外和相关领域内的相关研究中,一共进行了多少检验。尽管有大量的统计文献可以进行多重检验校正[37],但通常情况下,我们不可能知晓报告作者或其他研究团队在报告研究发现之前进行了多少数据挖掘。就算这一点是可行的,我们也无法得知验前比是多少。因此,不可避免的是,人们应该对在相关研究领域和研究设计中被探究的关系中,有多少种关系是真实的,做出大致的假设。我们考虑的范围越广泛,就越有可能在独立研究中为确定验前比提供指导。在其他相邻领域中发现的偏倚经验也将是有益的借鉴。 在其他邻近领域检测到偏倚的经验也将有益于借鉴。尽管这些假设在很大程度上是主观臆断,但它们在解释研究主张并将其置于上下文中仍然非常有用。

303 评论

MIssMIss兔狗

医学论文统计学方法应用的错误解析论文

摘 要: 统计学方法应用正确与否直接关系到医学科研结果的可信度和有效性,在研究设计时的错误应用会否决整个科研研究方案,基于错误统计学方法上产生的结果会浪费科研人员的时间和精力。编审人员应该高度重视医学论文的统计学方法应用,提高单篇文献的质量和学术水平。

关键词: 统计学方法;医学论文;解析

一、引 言

医学由于其研究的复杂性和系统性,常需要应用严谨的统计学方法,由于有些作者对医学科研的统计学理论和方法的应用缺乏深刻了解,在医学论文中错误应用统计学方法的现象时有发生。统计学方法应用的错误直接导致统计结果的错误。例如统计学图表、统计学指标、统计学的显著性检验等。因此,正确应用统计学方法,并将所获得的结果进行正确的描述有助于单篇论著的质量提高,现将医学论文中统计学方法应用及其常见结果的错误解析如下。

二、医学论文统计学方法应用概况

医学论文的摘要是全文的高度浓缩[1],主要由目的、方法、结果、结论组成。一般要求要写明主要的统计学方法、统计学研究结果和P值。一篇医学论文的质量往往通过摘要的统计学结果部分就能判断。统计学方法的选择和结果的表达直接影响单篇论著的科研水平。

(一)材料与方法部分

正文中,材料与方法部分必须对统计学方法的选择、应用、统计学显著性的设定进行明确说明。通过对统计学方法的描述,读者应该清楚论著的统计学设计思路。材料部分要清楚说明样本或病例的来源、入组和排除标准、样本量大小、研究组和对照组的设定条件、回顾性或者前瞻性研究、调查或者实验性研究、其他与研究有关的一般资料情况,其目的是表明统计学方法应用的合理性和可靠性,他人作相关研究时具备可重复性。方法部分应详细叙述研究组和对照组的不同处理过程、观察的具体指标、采用的测量技术,要具备可比较性和科学性,

方法部分还要专门介绍统计分析方法及其采用的统计软件。不同的数据处理要采用不同的方法,必须清楚的说明计数或者计量资料、两组或者多组比较、不同处理因素的关联性研究。常用的有两组间计量资料的t检验,多组间计量资料的F检验,计数资料的卡方检验,不同因素之间的相关分析和回归分析。有些遗传学研究方法还有专门的统计学方法,要在这里简要说明并给出参考文献,还要简单叙述统计方法的原理。统计学软件要清楚的说明软件的名称和版本号,如基于家系资料研究的版本。

(二)论文结果部分

论文结果部分要显示应用统计学方法得到的统计量[2],所采用的统计学指标较多时,往往分开叙述。分组比较多时还要借助统计图表来准确表达统计结果。对于数据的精确度,除了与测量仪器的精密程度有关外,还与样本本身的均数有关,所得值的单位一般采用紧邻均数除以三为原则。均数和标准差的有效位数要和原始数据一致。标准差或标准误差有时需要增加一个位数,百分比一般保留一个小数。在统计软件中,分析结果往往精确度比较高,一般要采用四舍五入的方法使其靠近实验的实际情况,否则还会降低论文的可信度和可读性。

结果部分的统计表采用统一的“三线”表,表题中要注明均数、标准差等数据类型。表格中的数值要按照行和列进行顺序放置,要求整齐美观,不能出现错行现象。要明确标注观察的例数,得到的检验统计量。统计图可以直观的表达研究结果,如回归和相关分析的散点图可以显示个体值的散布情况。曲线图表达个体均值在不同组别随时间变化的情况或者不同条件下重复测量的结果。误差条图由均数加减标准误绘出,描述的是67%的置信区间,不是95%,提倡在误差条图采用95%的置信区间。

关于统计量,一般采用均数与标准差两个指标,均数不宜单独使用。使用均数的时候要明确变异指标标准差或者精确性指标标准误。关于百分比,分母的确定必须要符合逻辑,过小的样本会导致分母过小而出现百分比过大的情况。百分率的比较要写清两者中不同的变化,可以采用卡方检验。

1.假设检验的结果中,常见只写P值的情况,有时候会误导读者,也会隐藏计算失误的情况,因此写出具体的统计值,如F值、t值,可以增强可信度。对于率、相关系数、均数这类描述统计量,要清楚写明进行过统计学检验并将结果列出。P值一般取与作为检验显著性,对于结果的计算要求具体的P值,如P=或P=。

2.在对论文进行讨论时,作为统计学方法产生的结果往往要作为作者的主要观点支持其科学假设,对统计结果的正确解释至关重要。P值很大表明两组间没有差别属于大概率事件,P值很小表明两组间没有差别的概率很小。当P<;,表明差异具有统计学意义。P值与观察的样本量的大小有关联,当样本量小的时候,数据之间的差别即使很大,P值也可能很大;当样本量大时,数据之间的差别即使很小,P值也可能显示有显著性差异。相关系数统计学意义的显著性也与相关系数的大小没有绝对的关联,有统计学意义的样本相关系数可能很小。因此,有统计学差异的描述并不一定意味着两组间差别很大,错判的危险性很大,显著性的检验为定性的结果,结合统计量大小方可判断是否具有专业意义。

变量间虚假的相关关系与变量随时间变化而变化相关,统计学意义的关联并不表示变量间一定存在因果关系。因果关系的确定要根据专业知识和采用的'研究方法的不同来考量。使用回归方程进行分析,当两变量间具有显著性关系,但是从自变量推测因变量仍然不会很精确。相关或回归系数不能预测推测结果的精确程度,而只是预测一个可信区间。诊断性检验应用于人群发病率很低的疾病,灵敏度、特异度的高低对于明确疾病诊断并不能很肯定。“假阳性率”与“假阴性率”根据实际的需要不同要求并不一致,在疾病患病率很低时,出现假阳性也是正常的,要确诊疾病必须要与临床症状体征相结合。因此,这两个率的计算方法必须交待清楚。

三、医学论文统计学方法应用的常见错误分析

(一)“材料与方法”中的统计学方法应用的常见错误

“材料与方法”中统计学方法常见的问题主要为:对样本的选择或者研究对象的来源和分组描述很少或者过于简单。例如,临床入组病例分组只采用简单的随机分组,未描述随机分组的方法,未描述是否双盲双模拟,未设置空白对照组,分组后对性别、年龄、文化程度的描述未进行统计学检验,对于特殊的统计学方法没有详细交代;动物实验分组的随机化原则描述过于简单,没有具体说清完全随机、配对或分层随机分组等;统计分析方法没有任何说明采用的分析软件,有的只说明采用的分析软件而不交代在软件中采用的统计方法;没有说明原因的情况下出现样本量过于小等情况。

(二)“结果”统计学方法应用的常见错误

1.应用正确的统计学方法出现的结果表达并不一定正确。例如前文所述数据的精确度要求。医学论文常见错误中包括均数、标准差、标准误等统计学指标与原始数据应保留的小数位数不同;对于率、例数、比值、比值比、相对危险度等统计学指标保留的小数点位数过多;罕见疾病的发病率、患病率、现患率等指标没有选择好基数,导致结果没有整数位;相关系数、回归系数等指标保留的小数位数过多或者过少;常用的一些检验统计量,如F值、t值保留的位数不符合要求。

2.对统计学指标进行分析和计算时,一般采用计数资料和计量资料进行区分。计量资料常用三线表,在近似服从正态分布的前提下采用均数、标准差进行说明,如果不符合正态分布时,可以采用加对数或其他的处理方式使其近似正态分布,否则只能采用中位数和四分位数间距等指标进行描述。医学论文中常见未对数据进行正态分布检验的计算,影响统计结果的真实性和可信度。对于率、构成比等常用的计数资料指标,常见样本量过小的问题,采用率进行描述会影响统计结果的可靠性,采用绝对数进行说明会显得客观一些。还有一些文献将构成比误用为率,也是不可取的。

3.在判断临床疗效之一指标时,两组平均疗效有差别并不意味着两组的每一个个体都有效或无效,必须通过计算有效率进行计算。如比较某药物治疗糖尿病的疗效,服药一周后,研究组和对照组的对血糖降低值分别为 ± 和 ± ( P = 1) 。按空腹血糖值低于的疗效判定有效率,研究组和对照组的有效率分别为和 ,尽管平均疗效相差较多,但也要注意到该药物对部分患者无效()。对假设检验结果的统计学分析结果,P 值的表达提倡报告精确P值,如P = 或P = 等。目前的统计学分析软件均可自动计算精确的P 值。例如常用的SAS,SPSS等,只要提供原始数据,就可以计算出t值、F值和相应的自由度,并可获得精确的P值。

四、小 结

提高医学论文中统计学方法的使用质量是编辑部值得重视的一项长期而又艰巨的工作[3],医学论文中统计方法应用和统计结果的表达正确与否,不仅体现了论文的科学性和严谨性,而且对于提高期刊整体的学术质量,促进医学科学的发展和传播也有着重要作用[4]。

参考文献:

[1] 李敬文,吕相征,薛爱华.医学期刊评论性文章摘要的添加对期刊被引频次的影响[J].编辑学报,2011(23).

[2] 陈长生.生物医学论文中统计结果的表达及解释[J].细胞与分子免疫学杂志,2008(24).

[3] 潘明志.新时期复合型医学科技期刊编辑应具备的素质和能力[J].中国科技期刊研究,2011 (22).

[4] 张春军,董凯.网络信息时代加强医学期刊编辑的信息素养[J].牡丹江医学院学报,2011(32).

81 评论

相关问答

  • 有错误的统计医学论文

    论文一般由题名、作者、摘要、关键词、正文、参考文献和附录等部分组成,其中部分组成(例如附录)可有可无。论文各组成的排序为:题名、作者、摘要、关键词、英文题名、英

    o0大鹏0o 5人参与回答 2023-12-11
  • 医学期刊中的统计错误

    我搜到3篇文章,希望对你有所帮助医学科研设计中一个常被忽视的统计学错误辨析【作者中文名】 毕京峰; 段俊国; 【作者单位】 山东中医药大学; 成都中医药大学;

    社区人员 5人参与回答 2023-12-09
  • 医学论文有错误

    修改医学论文的方法:1、修改语言:论文的语言要确保简洁、严谨、准确。对于文章中一些比较啰嗦的语句,要进行精简,以少、简洁的语言进行表述,同时要确保前后流畅通顺。

    诺仔滴麻麻 5人参与回答 2023-12-09
  • 医学期刊t值和p的计算

    p就是犯第一类错误的概率,即原假设为真,被拒绝的概率,一般控制其小于0.05因为在医学中,我们宁可犯第一类错误,即原假设为真,被拒绝的概率,也不能容忍接收一个错

    I小蘑菇I 2人参与回答 2023-12-10
  • 医学期刊有错误如何更改

    据学术堂了解,在论文的发表过程中,退稿是人人都可能遇到的情况,被退稿想必是大家都不愿意看到的情况。其实,只要是有过发表经验的作者一定都有被退稿的经历,除非是学术

    哈笑折腰 3人参与回答 2023-12-06