第4章动物科学实验设计与统计分析

牧童 · 发表于 2007-9-19 02:14:58

完整内容见附件
这是为了方便大家阅读
附件里有图片
而这里不会贴图

[ 本帖最后由牧童于 2007-9-19 23:50 编辑 ]

牧童 · 发表于 2007-9-19 08:39:51

第4章动物科学试验的设计

目的要求：
1、了解动物试验的基本要求，掌握试验方案的拟定方法
2、正确理解试验误差，了解试验抽样技术
3、能够进行简单的试验设计及结果分析

主要内容
§1 一些基本概念
§2 实验设计
§3 实验设计实例
§4 科研中统计分析方法的选择
思考题

牧童 · 发表于 2007-9-19 08:40:33

§ 1 一些基本概念
1 试验指标
试验指标（experimental index）指试验中用来反映试验处理效果好坏的标志，常简称指标。动物试验中，常用动物的各种性状作指标。如产量、出生重、生长速度、产蛋数、乳脂率等。
2 试验因素
试验因素（experimental factor）。试验中，凡对试验指标可能产生影响的原因或要素，都称为因素。如动物生产受到品种、养殖密度、环境条件、管理措施、测量方法，以及保健措施等诸方面的影响，这些方面就是影响动物生产的因素。
试验中所研究的影响试验指标的因素称为试验因素。实验因素是根据研究目的，研究者希望着重研究的某些条件或方法，亦称处理因素。如不同温度、治疗方法、用药种类、用药剂量等。把除试验因素以外其它所有对试验指标有影响的因素称为非试验因素，或非处理条件，又称干扰因素或混杂因素。
例如：研究3种饲料的营养效果的实验中，老鼠的窝别，进食量等为非实验因素。
在新药的临床试验中，病人年龄、疾病历史等为非实验因素。
3 水平（level）
把试验因素的不同状态或数量等级称为该因素的水平，简称水平。为了分析实验因素的产生作用，常要将实验因素分为不同的水平下进行。如药物的不同剂量数，不同时间点数等。
试验因素个数和水平数常要根据专业而定。建议“少而精”。
4 水平组合（level combination）
同一试验中各因素不同水平组合在一起而构成的技术措施（或条件）就叫做水平组合。
5 处理
处理（treatment）指试验中进行比较的试验技术措施。在单因素试验中，一个处理指该因素的一个水平；在多因素试验中，一个处理指一个水平组合。
6 试验单元
  试验单元（experimental unit）指试验中安排一个处理的最基本的试验单位，也叫试验单位。如一个试验小区（experimental plot），一头动物或同一笼里的几只鸡，一个小圈里的几头猪，等等。
7 抽样(sampling)
(1) 简单随机抽样(simple random sampling)  这是一种直接从总体中随机抽取若干个体构成样本的抽样方法。具体作法是：先对总体中所有个体逐个进行编号，然后用随机方法（查随机数字表或抽签法）按样本容量从总体中抽取所需个体组成样本。
(2)顺序抽样(systematic sampling)  又称系统抽样、机械抽样或等距抽样。具体作法是：将总体全部个体N按自然顺序进行编号，并将总体平分成若干组。组数等于样本容量n。然后从第一组内随机抽取1个个体（抽样单位），再以组内个体数（N/n）为间隔在第二组抽取另一个体（抽样单位）。如此继续下去，直到抽出所需个体组成样本。
(3) 分层抽样(stratified random sampling)  又叫类型抽样或分类抽样，是一种混合抽样方法。其具体方法分两个步骤进行：①将总体按变异情况分成若干较均匀同质的部分，即区层。各区层的个体（抽样单位）数可等可不等。②分别在各区层中按一定比例确定该区层抽样数ni，并按ni在该区层内进行简单随机抽样。最后将各层中抽得的个体（抽样单位）共同组成一个样本。
(4) 整群抽样(cluster sampling)  此法是一种以包含若干个体的单位群为抽样对象的抽样方法。其具体作法是：首先对所调查总体按需要划分成若干单位群，并对各群进行编号，然后用简单随机抽样法在总体中抽单位群来组成样本。所抽单位群个数与每个群中个体数之乘积等于样本容量n。
(5)分级抽样(nested random sampling)  又叫阶段抽样。其方法是：先将总体分成若干大组（初级单位），并从中随机抽取几个大组；然后在所抽大组中再分小组（次级单位），并分别随机抽取几个小组；需要时还可再分，最后根据最终抽取的所有单位组的全部个体组成样本，逐个进行观测。
(6)典型抽样(typical sampling)  指根据试验调查的要求，从总体中有意识有目的地选取一定量的典型个体或抽样单位作为样本加以观测。
8 试验误差
（1）观察值（实际值）与真实值（理论值）之差称为试验误差，简称误差（error）。
（2）误差的来源：由于生物个体的变异性等原因使得误差在医学领域中广泛存在，误差有三个来源：过失误差，系统误差和随机误差。
（3）过失误差（gross error）：是由于观察者的错误造成的误差。比如观察者有意或无意的记录错误，计算错误，数据核查、录入错误，度量衡单位错误，甚至故意修改数据导致的错误。过失误差在统计学研究中是不允许的，必须通过加强调查、录入和分析人员的责任心，完善检查核对制度等方法来避免和消除过失误差，以保证数据和结果的真实性。
（4）系统误差(systematic error)：由处理以外的其它非试验条件的明显不一致所造成。是由于某些已知的或未知的因素造成，而且具有一定变化规律的误差称为系统误差，又称偏倚（bias)。
系统误差的产生：
 仪器的差异
 方法的差别
 试剂的差异
 条件的差异
 顺序的差异
 人为的差异
系统误差处理方法：系统误差对研究结果的影响很大。但是系统误差一般是恒向、恒量的，且有其特定的变化规律，所以可以通过严格、科学的实验设计将其减小或控制在最小范围之内。但不能通过统计分析方法来加以控制。
（5）随机误差(random error)：又叫偶然误差。在严格控制非试验条件相对一致后仍不能消除的偶发性误差，是由于实验对象个体的变异及一些无法控制的因素波动而产生的误差，是排除过失误差、系统误差之后尚存在的误差。如：正常成年人的体重，身高、心率各不相同。
随机误差的特点：随机误差是由多种无法控制的因素引起，其大小和方向是随机变化。随机误差不可避免但是有规律，它以零为中心呈正态分布，所以可以利用概率统计学的方法对随机误差进行估计。
随机误差的产生：有随机抽样误差和随机测量误差两种。
（6）抽样误差（sampling error）  是在随机抽样研究中，由于抽样而引起的样本统计量和总体参数之间的差异。
抽样误差的大小主要取决于个体之间变异程度的大小和样本含量的多少，变异程度越大，样本含量越小，抽样误差就越大；反之亦然。
减少抽样误差的主要办法是选择自身变异小的实验对象，如选择来自同一动物同一批的实验材料，同时各实验对象的条件保持一致如动物的饲养环境、处理的措施等。
（7）随机测量误差（random measurement error）：随机测量误差指在同一条件下对同一观察单位的同一指标进行重复测量所产生的误差。
由于医学科学技术水平的限制，随机测量误差目前也是无法避免的，只能尽量提高仪器设备的准确性和精密性来控制随机测量误差在容许的范围之内。
（8）误差是不可避免的，而避免错误发生是完全可以做到的。不同的误差应采取不同的方法进行处理。
9 控制试验误差的途径
(1)选择相对一致的试验材料。
(2)试验的管理操作技术应尽量一致。
(3)控制外界环境的主要因素。

牧童 · 发表于 2007-9-19 08:42:17

§ 2 实验设计
1实验的要求
(1)试验条件的代表性
(2)试验的正确性：准确度（accuracy）和精确度（precision）
(3)试验结果的重演性
2 研究实验设计的重要性
（1）进行一项科研课题如同造一座大桥、一座大厦。如果大厦事先没有良好的设计就会倒塌，同样科研课题事先没有良好的设计就会失败。科研设计如同建筑设计一样举足轻重。
试验设计是试验过程的依据，是试验结果数据处理的前提，也是提高研究质量的重要保证之一。
（2）研究设计的好坏，直接关系到研究结果的可靠信，任何设计上的缺陷，都不能期望事后弥补。
很多科研工作者仅依赖现有的专业知识进行研究，只是在实验做完后才开始想到运用统计学知识。
进行完试验后再找统计学家分析数据，如同病人死后再找医生进行尸体解剖，医生会告诉病人死的原因是什么。同样，统计学家会告诉你试验失败的原因是什么。
----费歇尔(Ronand A. Fisher,1890-1962)
（3）一项良好的试验设计能为科研工作节省大量资金和人力、物力资源，有时可达90%以上。一项有问题的科研设计，不仅浪费资金，而且会导致试验的失败，甚至得出错误的结论，对后来的科研产生误导作用。
英国统计学家费歇尔(Ronand A. Fisher,1890-1962),在进行农业田间试验时提出的，他发现在田间试验中，环境条件难以严格控制，随机误差不可怱视，故提出对试验方案必须作合理的安排，以减少随机误差的影响，提高试验的可靠信。
(4)试验设计的主要目的是希望以较少的实验，便能揭示实验结果与各实验条件之间的关系，在此基础上寻找最佳工艺条件。科学有效的试验设计和结果数据处理分析，除揭示实验的因果关系外，还能对实验结果误差有比较准确的估计和判断，使之对所研究的问题得出正确的结论。
3 试验设计的主要任务与型式
试验设计就是拟定试验方案。在进行科学研究时，对研究方案作合理的安排，以减少随机误差的影响。采用适当的研究试验次数，减少试验的成本并能对数据进行有效的分析，提高研究试验的可靠信，从而实现研究目的。
3.1 试验设计的主要任务
研究设计包括专业设计与统计设计两个部份。
统计设计主要是依据研究目的，从研究的现况条件出发，规定研究因素、选择效应指标、确定研究对象的引入方式方法和规模，拟实施的方法、方案，及数据收集、整理分析的模式,直至结果的解释,进行系统的安排,使其消耗最少的人力和物力、时间,而获得可靠的信息与结论。
3.2 试验设计的主要类型
在动物科学研究中，根据观察者是否主动施加干预，可把试验设计分为两类：
（1）干预研究设计（实验研究）：是指研究者根据研究目的、通过对受试对象施加干预，严格控制各种影响因素，获得干预研究结果。
例如：研究3种饲料的营养效果的实验。将60只老鼠随机分为三组，每组分组喂3种不同的饲料。
又如：新药的临床试验。将200病人随机分为二组，一组采用新药，另一组采用对照药。
干预研究设计的类型：有实验研究设计和临床试验设计两种：
试验研究：临床医学中实验研究常指动物实验(animal experiment)，是把动物作为实验对象，在动物身体进行实验。根据获得的结果，逐步过渡到人体。
临床试验(clinical trials)　是为了探索疾病临床阶段，对病人身心无大损伤的试验。可以是短期观察，也可以是中期或远期追踪观察，目的多为某种药物及某项疗法的效果观察。
例如：采用某新药物治效感冒的效果
在严格控制条件下的干预试验，不仅可以避免偏倚，而且可以用最小的消耗获取最大的功效。
（2）观察研究：是指对特定对象群体进行调查，影响被调查者因素是客观存在的，研究者只能被动地了解和如实记录。调查时研究条件难以控制，只有通过合理分组、设置对照等手段尽可能地减少干扰。
例如关于吸烟与肺病关系的研究必定是观察研究，不可能将试验对象随机分为两组，一组让它吸烟，一组不吸烟。没有人会仅仅因为讨好统计学家而去抽5年烟。

牧童 · 发表于 2007-9-19 08:43:37

4 试验设计的三要素间的关系
要掌握实验设计的三要素之间的关系：
试验因素实验对象实验效应
4．1实验因素
在试验设计中，只有变化的量才称为因素。因素的取值范围根据实际需要合理确定。例如，在不同品种生产性比较试验中，品种即为试验因素，除品种以外的其他饲养管理因素和环境因素均为非处理条件。
研究中，如果只有一个实验因素，则称为单因素，两个以上称为多因素。
(1)根据试验的目的、任务和条件选择确定试验因素
(2)各因素的水平确定要适当
 水平要有先进性和针对性。
 水平的数目要合适。
 水平的范围及间隔大小要合理。
(3)试验方案中必须设立作为比较标准的对照
(4)试验处理间应遵循唯一差原则
(5)拟定试验方案时必须正确处理试验因素和试验条件之间的关系
4．2实验对象
实验对象是指接受实验因素作用的对象，亦称实验单位。
实验对象种类：
 人
 动物
 微生物
 细胞
 分子
 基因
4．3实验效应
（1）试验效应就是第1节说的试验指标。指实验因素施加于实验对象后所起的作用。任何效应都是通过指标的具体取值反映出来的，所以效应指标是鉴定效应的尺度。
（2）实验效应分类。按效应指标的性质分为：
 定量指标：是能通过工具测量获得的具体数值的指标。如，身高、体重、血压等。
 定性指标：是表现为无不相容的类别或属性的指标，患者结局有生存或死亡。
 等级指标：是表现为有顺序等级的类别或属性的指标，治疗效果全愈、好转、不变、恶化。
如果实验效应指标选择不当，就不能准确反应实验因素的作用，研究结果就缺乏科学性，因此，选择好实验指标是非常重要的环节。
（3）效应指标的选择。选择指标的依据是具有如下6个方面：
 关联性
 客观性
 灵敏性
 可用性（敏感性和特异性）
 精确性（精确性和准确性）
 稳定性
（4）主要指标和次要指标。主要指标是指专业上认为最能准确的反应实验因素作用的效应指标。次要指标指其它有一定意义的相关效应指标。

牧童 · 发表于 2007-9-19 08:44:11

5 试验设计三原则
见下图

图1  试验设计三项基本原则的关系图

5．1 随机化
（1）随机化（randomization)就是在抽样或分组时必须做到使总体中任何一个个体都有同等的机会被抽取进入样本，以及样本中任何一个个体都有同等机会被分配到每个组中去。
（2）随机化目的。
 使各组的试验对象具有相同的特征；
 避免试验者主观因素对分组的影响；
 保证试验设计分析结果没有偏倚。
（3）随机化方法。怎样进随机化是试验设计的重要内容。
常用的方法有两种：
 用查随机数字表；
 用计算机随机化程序。
注意：随机不是随意
5．2 对照
（1）对照(Control)是指试验因素的水平数至少有两个，其中一个为对照组。只有通过设立对照才可比较试验效应的差别。
（2）要分析一个药物是否有效，某种疗法是否有效，只有通过同另一种药物、疗法比较才能鉴别。
（3）对照的方式。空白对照
 安慰剂对照
 标准对照
 自身对照
 相互对照
 试验对照
 历史或中外对照
（4）对照的作用。1966至69年，妇产科医生Herbst在波斯顿发现8例女青年患一种极罕见的阴道透明细胞腺癌。调查发现其中有7例服用DES。经过严密试验设计（1：4病例对照研究）证实DES的负作用，它增加阴道癌的危险性，美国FDA于1971年禁止给妇女服用该药。
（5）经典案例1：结核病金制剂疗法。20世纪20至30年代，治疗结核病的金制剂疗法普遍流行，印度名医为此发表论文数以百计（该未设立对照），论证金制剂疗法的有效，并曾将金制剂疗法作为定论编入医学院的讲义。
用15年后，医学上，采用了有均衡对照的临床试验(controlled clinical trials)，作出否定金制剂疗法治疗结核病的结论。
5．3 重复
（1）重复是指具有相同处理的实验对象不止一个。实验误差客观存在，只有多次对实验对象测定，才能通过观测值的差异计算出误差大小。
（2）重复的主要目的是估计试验误差、提高试验结果的可靠性。
（3）样本含量：估计试验重复次数即样本含量。进行一项科学试验，必须有可重复性，样本含量的估计是试验设计的重要内容。
（4）重复原则并非要求研究者无限追求大样本，但需要足够的样本含量。究竟需要大数量的样本，要根据不同的问题和试验设计的要求，用专门的统计方法估计。
（5）新药临床试验样本含量。在新药II期临床试验中，国家食品药品监局(SFDA)规定要求各组样本含量至少100例，III期临床试验中，要求试验组样本量至少300例，
或在试验设计时，应对所需的样本含量作出较准确的估计。
5．4 均衡性
均衡是指在各组间除了处理因素这一点之外其它条件相同。否则就会产生混淆，造成偏倚。
随机化是保证非处理因素均衡性的重要方法。
6随机化分组方案
随机化分组是首先将受试对象按某一特征编号，在每个编号下用随机化工具产生相应的随机数字，然后，再按照事先规定的分组原则进行合理的分组。
6．1  完全随机分组设计
如果将受试对象完全随机地分配到每一个组中,各组分别接受不同的处理。这样的设计分组称为完全随机分组设计。
例如：现有20个动物试验，分别采用5种不同的方法进行试验，试用完全随机分为5组。解步骤如下：
第1步：进入　试验设计模块
点击试验设计---设计方案---完全随机分组
试验样本总例数：　30，
处理组数：2
1组例数：15
2组例数：15---确定
第2步：进入结果模块  查看结果
  点击结果

完全随机设计编号分组结果（总例数=20，处理组数=5）
━━━━━━━━━━━━━━━━━━━━━━
处理01  处理02  处理03  处理04  处理05
──────────────────────
   7    5    2    1    4
   12    9    3    6    10
   16    11    13    8    14
   17    20    15    19    18
━━━━━━━━━━━━━━━━━━━━━━
6．2配对设计
配对设计是将受试对象按某种相近的特征或条件配成对子，从而减少误差，提高效率。
配对设计可分为两种：
 同源配对
 非同源配对
例欲比较2种饲料作用是否相同，现取24只老鼠进行实验，它们取自12窝的老鼠，每窝有2只，采用配对设计，试进行配对设计分组。
6．3 配伍组设计
如果实验因素有G个水平组，事先将受试对象按某种重要的非实验因素进行分组，即配伍组或区组（block）。每个区组内有G个实验对象，采用完全随机地分配，每个实验对象接受一种不同的处理称为配伍组分组，亦称随机区组设计。
例要比较5种方法作用是否相同，现取7窝老鼠，每窝有5只老鼠，试进行配伍组分组。
配伍组是由若干特征相似的试验材料组成，如同一窝的动物，批号相同的试剂，体重相近的受试者等。
6．4 交叉设计（反转设计）
交叉设计是一种自身对照的实验设计方法，可减少实验对象，控制个体差异。
常用的是2X2交叉设计。将试验时间划分为前后两个阶段，同一实验对象前后分别采用不同的处理，不同组别的实验对象处理顺序不同。
注间前后两阶段间有洗脱期。

牧童 · 发表于 2007-9-19 08:46:28

7 观察研究设计（调查研究）
观察研究是指对特定对象群体进行调查，影响被调查者因素是客观存在的，研究者只能被动地了解和如实记录。调查时研究条件难以控制，只有通过合理分组、设置对照等手段尽可能地减少干扰。
例如关于吸烟与肺病关系的研究必定是观察研究，不可能将试验对象随机分为两组，一组让它吸烟，一组不吸烟。没有人会仅仅因为讨好统计学家而去抽5年烟。
8 混杂因素的影响
观察发现在吸烟与疾病之间存在着一种强关联，但这种关联关不等于因果关系。可能存生着某些隐蔽的混杂因素，它诱使人们吸烟同时也使他们得病，倘若这样的话，中止吸烟就没意义：因为它不能改变那些隐蔽的因素。
经过科学的观察研究，现已证实吸烟导致多因疾病的发生，因此为了人类的健康，世界各国开展禁烟运动，如禁止香烟广告等，美国民控告各大烟草公司，要求索培上干亿美元。
8.1 何谓混杂因素
[案实例解析] 携带火柴和发生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌？
客观事实，携带火柴不可能引起肺癌。这中间存在混杂因素---吸烟。起关系可见图1。

携带火柴肺癌

吸烟
图1 危险因素、混杂因素和结果的关系
8.2分层分析方法-----控制混杂因素对结果的影响
分层分析是在其它影响因素保持恒定情况下，评价某一危险因素对结果的影响。
例如，上面我们可以分别在吸烟者和非吸烟者之中，比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下，分析喝啡咖对MI的影响。

§3 实验设计实例
通过实际的试验设计实例,加深对试验设计技术的理解。
1 典型统计案例
坏血症的治疗　---医学历上第一次有控制的干预试验。
（1）1747年，英国J. Lind医生发现一类患者的主要症状是：牙龈溃烂，皮肤有出血点，双膝无力。现代医学认为是这坏血症的常见症状。
坏血症如何治疗？
当时英国对这病采用的治疗方案有6种：
1）苹果汁；　　　　4）泻药；
2）桔子和柠檬；　　5）硫酸丹剂；
3）醋；　　　　　　6）大蒜和芥子.
如何评价6种治疗方案的有效性？
（2）1747年5月20日，Lind医生将12名病情相同似的患者带到一艘船上。分为6组每组两人，分别给予下列6种干预：
A组：每天饮1夸脱苹果汁；
B组：服25滴硫酸丹剂，每天3次；
C组：服2匙醋，每天3次；
D组：每天饮约半品脱海水，服缓和的泻药；
E组：每天食2个桔子，一个柠檬；
F组：每天服由大蒜、芥子等成份组成的干药。
其中，Lind医生的试验将病情最重的2名患者分到D组泻药是当时流行的治病方法。
当6月16日船返回英国Plymouth港时，所有患者的病情都有好转。其中
E组恢复的最快、最好，其中一人到第6天就可以工作了。
B组也有一人比登船时健康。
Lind医生的试验并没有得出明确的结论.
（3）直到160年后，通过动物实验才真正从科学意义上解释了E组疗效最好的真正原因。
坏血病的对症治疗是补充维生素C。
用现代统计学的观点看，Lind医生的干预试验有两点符合统计学要求：
 一是设有对照组：6个干预相互比较；
 二是质量控制：所有患者在同一条船上，便于监督服药和观察病情。
无对照试验和质量控制不严而导致研究结果“失真”的例子，在现代医学研究中也常发生。
（4）Lind医生的干预试验，在统计设计和统计分析上还应做到：
 所有受试者均为经临床和实验室检查确诊的坏血病患者。
 采用随机分组方法，保证各组干预效果的可比性。Lind医生的试验将病情最重的2名患者分到D组（泻药是当时流行的治病方法），D组的干预效果不及E组和B组也可能是病情所致，未必是干预的真实效果。
 有足够多的试验病例。
 用定量测量数据表示干预效果，血清（血浆）的抗坏血酸的含量、尿中的抗坏血酸排出量等。Lind医生的干预效果评价用的是“病情是否好转”，属定性观察。定性观察所用的试验样本通常远远多于定量观察。
 用假设检验的方法比较两组均数（多组均数）间的差别，以推论本次试验的结果是否对所有坏血病患者都有效。
2 样本含量的估计
进行一项科学试验，必须有可重复性，重复原则并非要求研究者无限追求大样本，但需要足够的样本含量。
2.1新药临床试验样本含量
在新药II期临床试验中， II期临床试验中，国家食品药品监局(SFDA)规定要求各组样本含量至少100例，III期临床试验中，要求试验组样本量至少300例。
或在试验设计时，应对所需的样本含量作出较准确的估计。
2．2样本含量的计算
样本含量 n 取决于以下四个因素：假设检验的第Ⅰ类错误的概率α；②假设检验的第Ⅱ类错误的概率β；③处理组间的差别δ，亦称最大容许误差或差值；④实验单位的标准差σ。α和β由实验者根据研究目的事先给定，δ和σ则需通过专业知识、历史资料或预试验（pilot study）做出估计。α定得越小，β定得越小，差别δ越小，标准差σ越大，所需样本含量就越大。
例1 单组样本均数检验的样品含量估计。据文献报道，脑血栓形成后血浆纤维蛋白浓度的均数和标准差分别为4.3 (g/L)和 1(g/L)。现试验一新治疗措施，预试验结果使血浆纤维蛋白浓度平均下降 1(g/L)，问正式试验时至少需要观察多少病例?
假定:第一类错误的概率α= 0.05(双侧检验)；第二类错误的概率β= 0.1；试验组与总体均数差值δ= 1；个体间标准差σ= 1；所需样本含量：11
例2 两组样本均数检验的样品含量估计。某新降血压药的临床试验，选取一常规药为对照组，已知个体血压的标准差为1kPa。如果新药的降压效果至少比常规药平均高出0.8kPa方可推广，试问需要多大的样本含量。 α= 0.05， β= 0.05。
假定:
第一类错误的概率α= 0.05(单侧检验)；
第二类错误的概率β= 0.05；
两试验组均数差值δ= 0.8；
两试验组合并标准差σ= 1；
每组所需样本含量即每组例数：34
例3 单组样本率检验的样品含量估计。已知用常规方法治疗某病的有效率是80%，现试验一种新的治疗方法，预计有效率是90% 。给定α＝0.05，β＝0.10，问至少观察需要多少病例才能发现两种方法的有效率有10%的差别?
假定：
第一类错误的概率α= 0.05(单侧检验)；
第二类错误的概率β= 0.10；
历史对照总体率 = 0.8；
试验组总体率 = 0.9；
所需样本含量：138
例4 两组样本率检验的样品含量估计。新药临床试验，某新药预计有效率是80%，选另一常规药作对照，其有效率是70%。问需要多大样本含量?
假定：
第一类错误的概率α= 0.05(单侧检验)；
第二类错误的概率β= 0.10；
第一组总体率 = 0.7；
第二组总体率 = 0.8；
每组所需样本含量：每组例数：317
3 研究设计的基本内容
3。1 建立研究假设、明确研究的主要问题和次要问题
(1)主要考察哪些试验因素以及各因素应取哪些水平;
(2)确定试验组和对照组；
3。2 确定研究对象
(1)选用什么作为试验对象；
(2)纳入标准；
(3)排除标准；
(4)多大的样本含量；
3。3 选用适当的设计方案
(1)处理因素和非处理因素
选用什么样的设计方案来控制重要的非处理因素的影响，以便有效地控制和估计试验误差;
(2) 选定试验方案：完全随机分组设计；随机单位组设计(配对设计)；反转设计；拉丁方设计；析因设计；正交设计等。
3.4 选定观察效应指标
(1)主要效应指标和次要效应指标
(2)客观性指标
(3)主观性指标
4 试验计划书
编制试验计划书(Prptocol) ，内容包括：
(1) 研究设计的基本内容和方案
(2) 数据质量控制方法和手段
(3) 统计分析方法和计划书

牧童 · 发表于 2007-9-19 08:48:20

§4 科研中统计分析方法的选择
1四个因素
熟悉和掌握下述四个因素是正确进行统计分析的基础
1.1分析目的
 统计描述
– 统计指标、统计图或统计表
– 均数、标准差、率、构成比
 统计推断（参数估计、假设检验）
 相关分析
– 以相关系数来衡量各因素间的密切程度和方向
 回归分析
– 研究某因素与另一因素的依存关系
1.2 资料类型
数值变量资料－计量资料
无序分类变量资料－计数资料
有序分类变量资料－等级资料
注意：不宜将定量资料转化为分类资料
1.3 设计方法
 每一种科研设计方法都有与之相适应的统计方法
 成组设计t检验
 配对t检验
 条件Logistic回归
 非条件Logistic回归
1.4 数理统计条件
 数理统计与概率论是统计的理论基础
 只有当某个或某些条件满足时，某个数理统计统计公式才成立
 涉及最多是数据分布特征
 其次方差齐性
 理论数大小
2数据资料的描述
2.1 数值变量资料的描述
 描述集中趋势的指标，用以反映一组数据的平均水平
 描述离散程度的指标，用以反映一组数据的变异大小
（两类指标的联合应用才能全面描述一组数值变量的基本特征）

描述数值变量资料的常用指标
指标名称适用的资料
均数（X）正态分布或近似正态分布
中位数（M）偏态分布、分布未知、两端无界
几何均数（G）对数正态分布、等比资料
标准差(s) 正态分布或近似正态分布
四分位数间距偏态分布、分布未知、两端无界
极差（R）观察例数相近的数值变量
变异系数（CV）比较几组资料间的变异大小

 均数与标准差联合使用描述正态分布或近似正态分布资料的基本特征
 中位数与四分位数间距联合使用描述偏态分布或未知分布资料的基本特征
 最为常见的错误是不考虑这些指标的适用范围和条件的滥用
2.2 分类变量资料的描述
 以比代率，即误将构成比（proportion）当作率（rate）来描述某病发生的强度和频率
 把各种不同的率相混淆，如把患病率与发病率、死亡率与病死率等概念混同

描述分类变量资料的常用指标
指标名称计算公式意义
率发生某现象的观察单位数
可能发生某现象的观察单位数描述事件发生的强度和频率
构成比 A×100%
A＋B＋…. 事物内部各组成部分所占的比重
发病率
Incidence 一年内发生的某病新病例数／同年平均人口数在一定时间(一般为1年)内,某人群中发生某种疾病的新病例频率。
患病率(现患率)
Prevalence 某特定时间内某人群中发现有某种疾病者的比例。
死亡率Mortality 死亡率=一年内总死亡数／同年平均人口数在一定时间(一般为1年)内,某人群中死亡的频率。
病死率Case fatality ra tio 因某病死亡人数／患该病的总数患某病者中因该病死亡者占的比例。

3 数据资料的比较
3.1假设检验的基本思想
 样本数据间的不同有两种原因所致
1. 样本来自同一总体，样本指标间的不同是由于抽样误差所引起
2. 样本分别来自不同的总体，其样本指标间的不同是由于来源于不同的总体所致
 假设检验是反证法原理的统计应用
 假设两个样本均数可能来源于同一总体，然后计算出在此假设下的某个统计量的大小，当这个统计量在其分布中的概率较小时（如p≤0.05）我们就拒绝其假设，而接受其对立假设，认为两样本分别来自不同的总体。
3.2 假设检验的基本步骤
 建立检验假设（三个内容）
1. 无效假设（null hypothesis）H0
2. 备择假设（alternative hypothesis）H1
3. 检验水准（size of test）α
 计算统计量
 根据统计量的值来得到概率（p）值；再按概率值的大小得出结论
3.3假设检验的注意事项
 前提
1. 研究者需要通过样本的信息去推断总体的结论
2. 各样本资料对其总体应具有良好的代表性
 假设检验的概率大小与结论的关系
1. 当p≤ α时，概率越小，越有理由拒绝H0假设（无差别的假设），即拒绝H0假设的可信程度就越大
2. 注意：当p≤ α时，不能说“概率越小，组间的差别就越大”

 假设检验的结论不能绝对化
– 在作出结论时，要避免使用绝对的或肯定的语句
– 当p≤ α时，只要p≠0，我们无法完全拒绝无差别的假设，即不能肯定各总体间有差别
– 当p＞ α时，只要p≠1，我们无法完全接受无差别的假设，即不能肯定各总体间无差别
 两组与多组比较
– 两组比较：t检验、u检验、两组秩和检验、四格表和较正四格表的X2检验等
– 多组比较：方差分析、多组秩和检验、行乘列X2检验等（也可用于两组比较）
– 注意：错误使用两组比较的方法代替多组比较的情况并不少见，如，三个均数比较用三个t检验、四个t检验
 假设检验结论的两类错误
– 当p≤ α时，做出“拒绝其无差别的假设，可认为各总体间有差别”的结论时就有可能犯错误，这类错误称为第一类错误（typeⅠ error）其犯错误的概率用α 表示，若α取0.05，此时犯Ⅰ型错误的概率≤0.05，若假设检验的p值比0.05越小，犯第一类错误的概率就越小。
– 当p＞ α时，做出“不拒绝其无差别的假设，还不能认为各总体间有差别”的结论时就有可能犯第二类错误（type Ⅱ）其犯错误的概率用β表示，通常β为未知数，但假设检验p值越大，犯第二类错误的概率就越小
 注意：当认为干预有负影响时，应使用双侧检验法。除非你有非常可信的证据证明这种差异仅在一个方向存在，否则，你需要用双侧检验法。
3.4 常用的假设检验方法
 计量资料的假设检验
 计数资料的假设检验
 等级资料的假设检验
(1) 常用计量资料的假设检验
比较目的应用条件统计方法
样本与总体比较例数较大 u检验
例数较小 t检验
两组资料的比较（完全随机设计）例数较大 u检验
例数较小，来自正态分布且方差齐成组设计的t检验
例数较小且非正态分布或方差不齐成组设计的秩和检验／中位数检验

常用计量资料的假设检验（续表）
比较目的应用条件统计方法
配对资料的比较例数较大（任意分布）配随设计u检验
（配对设计）例数较小，差值来自正态配对设计的t检验
例数较小，差值为非正态配对设计的秩和检验
多组资料的比较各组均数来自正态分布
且方差齐成组设计的方差分析
（完全随机设计）各组为非正态分布且
方差不齐成组设计的秩和检验
配伍资料的比较各组均数来自正态分布
且方差齐配伍设计的方差分析
（配伍设计）各组为非正态分布且
方差不齐配伍设计的秩和检验

(2) 统计学处理方法的选择

单个自变量资料的统计学分析方法
 自变量  因变量  统计方法
 属性  属性  卡方(χ2)检验
 二分(属性)  数值  t-检验
 多分(属性)  数值  方差分析
 属性  数值(有截缩)  寿命表法/积限法
 数值  数值  回归(或相关)分析

两个或以上自变量资料的统计学分析方法
 自变量  因变量  统计方法
 属性  属性  对数-线性
 属性或数值  属性(二分)  logistic回归
 属性或数值  属性(多分)  判别分析
 属性  数值  方差分析
 数值  数值  多元回归
 数值或属性  数值(有截缩)  Cox回归
 属性(有混杂)  数值  协方差分析
 数值  ─  因子分析或聚类分析

(2) 常用计数资料假设检验方法
比较目的应用条件统计方法
样本率与总体率的比较 n较小时二项分布的直接法
np>5且n(1-p)>5 二项分布的u检验
两个率或构成比的比较（完全随机设计） np>5且n(1-p)>5 二项分布的u检验
n>40且T>5 四格表的X2检验
n>40且1<T<5 较正四格表的X2检验
n<40或T<1 四格表的确切概率法

(2)常用计数资料假设检验方法（续表）
比较目的应用条件统计方法
配对四格表比较（配对设计） b+c >40 配对X2检验
np>5且n(1-p)>5 较正配对X2检验
多个率或构成比的比较（完全随机设计）全部格子T>5或少于1/5的格子1<T<5 列联表的X2检验
若有T<1或有多于1/5的格子1<T<5 列联表的确切概率法

(3)常用等级资料假设检验方法
比较目的统计方法
两组比较（完全随机设计）
多组比较（完全随机设计）两组比较的秩和检验
多组比较的秩和检验
配伍设计配伍设计的秩和检验
配对设计符号秩和检验

牧童 · 发表于 2007-9-19 08:49:33

4变量间的相关分析
 数据资料的比较，是同一指标的不同处理组间的比较。
 在临床研究工作中，常常涉及疾病危险因素的研究和疾病危险因素的探讨，即分析某个因素与疾病间的关系
 注意：相关关系并不等于因果关系
4.1常用数值资料的关系分析方法
比较目的应用条件统计方法
两变量的依存关系正态单变量资料直线回归Ⅰ型
正态双变量资料直线回归Ⅱ型
两变量的相关关系正态双变量资料直线相关
两变量均不服从正态等级相关

4.2无序分类变量（计数资料）的相关分析
 前瞻性研究
– 相对危险度（RR）
– 归因危险度（AR）
 回顾性研究
– 比值比（OR）
4.3有序分类变量（等级资料）等级相关
 参数检验
– 积矩相关系数(Pearson’sγ)
 非参数检验
– Spearman等级相关系数

思考题

1.什么是试验设计？其意义何在？
2.动物试验设计的基本要求是什么？
3.什么是试验方案？如何拟定一个正确的试验方
案？
4.试验误差的主要来源是什么？如何避免系统误
差，降低偶然误差？
5.试验设计应遵循哪三项基本原则？这三项基本
原则相互关系与作用如何？
6.完全随机设计与随机区组设计各有何特点？各
在什么情况下应用？
7.正交设计的基本步骤有哪些？
8.什么叫反转设计？怎样设计？
9.动物研究中常用抽样方法有哪些？各适用
于什么情况？
10.研究VB对产蛋的效果，设置A、B、C、D、E 5个处理浓度（其中E为清水对照），5次重复，单笼小区，采用完全随机设计。试验结果见下表，试作方差分析。

huren · 发表于 2007-10-3 08:25:47

要下载学习以下，多谢

第4章 动物科学实验设计与统计分析

第4章动物科学实验设计与统计分析