统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎复盖了社会科学和自然科学的各个领域。统计学家王见定的研究已经说明了数理统计学永远“吃不掉”社会统计学,今后的日子,将是社会统计学与数理统计学共存与互补。统计学提供了许多方法来估计和修正样本和收集资料过程中的随机性(误差),如同上面所提到的透过经验所设计的实验。
统计学基础_统计学 -发展过程
起源
统计在金融上应用广泛
统计学的英文statistics最早源于现代拉丁文statisticum collegium(国会)以及意大利文statista(国民或政治家)。德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。在十九世纪统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”,“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说:它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而属于数学的范畴。
城邦政情
“城邦政情”(Matters of state)阶段始于古希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”。他一共撰写了一百五十馀种纪要,其内容包括各城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济情况的比较、分析,具有社会科学特点。“城邦政情”式的统计研究延续了一两千年,直至十七世纪中叶才逐渐被“政治算数”这个名词所替代,并且很快被演化为“统计学”(Statistics)。统计学依然保留了城邦(state)这个词根。
政治算术
威廉・配第
与“城邦政情”阶段没有很明显的分界点,本质的差别也不大。
“政治算术”的特点是统计方法与数学计算和推理方法开始结合。分析社会经济问题的方式更加注重运用定量分析方法。
1690年英国威廉・配弟出版《政治算数》一书作为这个阶段的起始标志。
威廉・配第用数字,重量和尺度将社会经济现象数量化的方法是近代统计学的重要特征。因此,威廉・配第的《政治算术》被后来的学者评价为近代统计学的来源,威廉・配第本人也被评价为近代统计学之父。
配第在书中使用的数字有三类:
第一类是对社会经济现象进行统计调查和经验观察得到的数字.因为受历史条件的限制,书中通过严格的统计调查得到的数据少,根据经验得出的数字多;
第二类是运用某种数学方法推算出来的数字。其推算方法可分为三种:
平均数为基础进行推算的方法”;
第三类是为了进行理论性推理而采用的例示性的数字。配第把这种运用数字和符号进行的推理称之为“代数的算法”。从配第使用数据的方法看,“政治算数”阶段的统计学已经比较明显地体现了“收集和分析数据的科学和艺术”特点,统计实证方法和理论分析方法浑然一体,这种方法即使是现代统计学也依然继承。
统计分析科学
在“政治算术”阶段出现的统计与数学的结合趋势逐渐发展形成了“统计分析科学”。
十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。当时的“统计分析科学”(Science of statistical analysis)课程的内容仍然是分析研究社会经济问题。
“统计分析科学”课程的出现是现代统计发展阶段的开端. 1908年,“学生”氏(William Sleey Gosset的笔名Student)发表了关于t分布的论文,这是一篇在统计学发展史上划时代的文章。它创立了小样本代替大样本的方法,开创了统计学的新纪元。
正态分布的钟型曲线
现代统计学的代表人物首推比利时统计学家奎特莱(Adolphe Quelet),他将统计分析科学广泛应用于社会科学,自然科学和工程技术科学领域,因为他深信统计学是可以用于研究任何科学的一般研究方法.
现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代统计方法便有了比较坚实的理论基础。
主要术语
统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。
描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。
推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。
变量(variable):每次观察会得到不同结果的某种特征。
分类变量(categorical variable):观测结果表现为某种类别的变量。
顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。
数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。
均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。
中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。
众数(mode):众数也就是数据集中出现频率最多的数字。
相关观念
统计中的各种图
为了将统计学应用到科学,工业以及社会问题上,我们由研究母体开始。这可能是一个国家的人民,石头中的水晶,或者是某家特定工厂所生产的商品。一个母体甚至可能由许多次同样的观察程序所组成;由这种资料收集所组成的母体我们称它叫时间序列。
为了实际的理由,我们选择研究母体的子集代替研究母体的每一笔资料,这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。资料是统计分析的对象,并且被用做两种相关的用途:描述和推论。描述统计学处理有关叙述的问题:资料是否可以被有效的摘要,不论是以数学或是图片表现,以用来代表母体的性质?基础的数学描述包括了平均数和标准差。图像的摘要则包含了许多种的表和图。
推论统计学被用来将资料中的数据模型化,计算它的机率并且做出对于母体的推论。这个推论可能以对/错问题的答案所呈现(假设检定),对于数字特征量的估计(估计),对于未来观察的预测,关联性的预测(相关性),或是将关系模型化(回归)。其他的模型化技术包括变异数分析(ANOVA),时间序列,以及数据挖掘。
相关的观念特别值得被拿出来讨论。对于资料集合的统计分析可能显示两个变量(母体中的两种性质)倾向于一起变动,好像它们是相连的一样。举例来说,对于人收入和死亡年龄的研究期刊可能会发现穷人比起富人平均来说倾向拥有较短的生命。这两个变量被称做相关的。但是实际上,我们不能直接推论这两个变量中有因果关系;参见相关性推论因果关系(逻辑谬误)。
如果样本足以代表母体的,那么由样本所做的推论和结论可以被引申到整个母体之上。最大的问题在于决定样本是否足以代表 整个母体。统计学提供了许多方法来估计和修正样本和收集资料过程中的随机性(误差),如同上面所提到的透过经验所设计的实验。参见实验设计。
要了解随机性或是机率必须具备基本的数学观念。数理统计(通常又叫做统计理论)是应用数学的分支,它使用机率论来分析并且验证统计的理论基础。
任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。误用统计学可能会导致描述面或是推论面严重的错误,这个错误可能会影响社会政策,医疗实践以及桥梁或是核能发电计划结构的可靠性。
即使统计学被正确的应用,结果对于不是专家的人来说可能会难以陈述。举例来说,统计资料中显着的改变可能是由样本的随机变量所导致,但是这个显着性可能与大众的直觉相悖。人们需要一些统计的技巧(或怀疑)以面对每天日常生活中透过引用统计数据所获得的资讯。
统计方法
测量的尺度
统计学一共有四种测量的尺度或是四种测量的方式。这四种测量(名目、顺序、等距、等比)在统计过程中具有不等的实用性 。
等比尺度(Ratio measurements)拥有零值及资料间的距离是相等被定义的;
等距尺度(Interval measurements)资料间的距离是相等被定义的但是它的零值并非绝对的无而是自行定义的(如智力或温度的测量);
顺序尺度( Ordinal measurements)的意义并非表现在其值而是在其顺序之上;
名目尺度(Nominal measurements)的测量值则不具量的意义。
统计技术
英国统计学家费希尔
以下列出一些有名的统计检定方法以及可供验证实验数据的程序
Fisher最小显着差异法(Fisher's Least Significant Difference test )
学生t检验(Student's t-test)
曼-惠特尼 U 检定(Mann-Whitney U)
回归分析(regression analysis)
相关性(correlation)
皮尔森积矩相关系数(Pearson product-moment correlation coefficient)
史匹曼等级相关系数(Spearman's rank correlation coefficient )
卡方分布(chi-square )
创立时期
德国的斯勒兹曾说过:“统计是动态的历史,历史是静态的统计”。可见统计学的产生与发展是和生产的发展、社会的进步紧密相联的。
统计学的萌芽产生在欧洲,17世纪中叶至18世纪中叶是统计学的创立时期。在这一时期,统计学理论初步形成了一定的学术派别,主要有国势学派和政治算术学派。
统计学基础_统计学 -统计学的统一
社会统计学与数理统计学的理论统一
王见定:统计学统一理论的创始人
据权威统计学史记载,从17世纪开始就有了“政 治 算 术”. “国势学”,
即初级的社会统计学,起源于英国.德国。几乎同时在意大利出现了“赌博数学”,即初级的概率论。直到19世纪,由于概率论出现了大数法则和误差理论,才形成了初级的数理统计学。也就是说 :社会统计学的形成早于数理统计学两个世纪。由于社会统计学广泛 地用于经济和政治,所以得到了各国历届政府的极大重视,并得到系统的发展。而 数理统计学在20世纪40年代以后,由于概率论的发展,而得到飞速发展。经过近400年的变迁 ,世界上已形成社会统计学与数理统计学两大体系。两体系争论不休,难分伯仲.统计学家王见定经过30年的学习与研究,发现了社会统计学与数理统计学的联系和区别。它们的关系与著名的牛顿力学与相对论的关系非常相似。相对论力学在接近光速时使用,而大多数情况是远离光速的,此时使用牛顿力学既准确又方便。如果硬套相对论力学,则是杀鸡用宰牛刀,费力不讨好。社会统计学在描写变量时使用;数理统计学在描写随机变量时使用。
我们知道变量与随机变量是既有联系又有区别的。当变量取值的概率不是1时,变量就变成了随机变量;当随机变量取值 的概率为1 时,随机变量就变成了变量。
变量与随机变量的联系与区别搞清楚了,社会统计学与数理统计学的关系就搞清楚了。以后,在描述变量时,大胆地使用社会统计学;在描述随机变量时,就用数理统计学。如果在描述变量时非用数理统计学,那就是杀鸡用了宰牛刀。近70年,由于数理统计学的飞速发展,大有“吃掉”社会统计学的势头,尤其是以美国为代表的发达国家,几乎认为统计学就是数理统计学。实际上,这是一个极大的误区。统计学家王见定的研究已经说明了数理统计学永远“吃不掉”社会统计学,今后的日子,将是社会统计学与数理统计学共存与互补。社会统计学与数理统计学的争论可以结束了。
结束语:
“社会统计学与数理统计学的统一”对近四百年历史的统计学进行了科学的疏理,规范了整个统计学的发展,结束了一百年来社会统计学与数理统计学之间的争论。由于经济是通过统计学进行计量和分析的,所以社会统计学与数理统计学的统一,必将从整体上提高经济学的分析水平。
“社会统计学与数理统计学的理论统一”的重大意义
统计学家王见定著
统计学家王见定指出:社会统计学描述的是变量,数理统计学描述的是随机变量,而变量和随机变量是两个既有区别又
有联系,且在一定条件下可以相互转化的数学概念。王见定的这一论述在数学上就是一个巨大的发现,我们知道“变量”的概念是17世纪由著名数学家笛卡尔首先提出,而“随机变量”的概念是20世纪30年代以后由苏联学者首先提出,两个概念的提出相差3个世纪。截至到王见定,世界上还没有第二个人提出变量和随机变量两者的联系、区别以及相互的转化。我们知道变量的提出造就了一系列的函数论、方程论、微积分等重大数学学科的产生和发展;而随机变量的提出则奠定了概率论和数理统计等学科的理论基础和促进了它们的蓬勃发展。可见变量、随机变量概念的提出其价值何等重大,从而把王见定在世界上首次提出变量、随机变量的联系、区别以及相应的转化的意义称为巨大、也就不视为过。
下面我们回到“社会统计学和数理统计学的统一”理论上来。王见定指出社会统计学描述的是变量,数理统计学描述的是随机变量,这样王见定准确地界定了社会统计学与数理统计学各自研究的范围,以及在一定条件下可以相互转化的关系,这是对统计学的最大贡献。它结束了近400年来几十种甚至上百种以上五花八门种类的统计学的混战局面,使它们回到正确的轨道上来。
由于变量不断地出现且永远地继续下去,所以社会统计学不仅不会消亡,而且会不断发展状大。当然数理统计学也会由于随机变量的不断出现同样发展状大。但是,对随机变量的研究一般来说比对变量的研究复杂的多,而且直到今天数理统计的研究尚处在较低的水平,且使用起来比较复杂;再从长远的研究来看,对随机变量的研究最终会逐步转化为对变量的研究,这与我们通常研究复杂问题研究转化为若干简单问题的研究的道理是一样的。既然社会统计学描述的是变量,而变量描述的范围是极其宽广的,绝非某些数理统计学者所云:社会统计学只作简单的加、减、乘、除。从理论上讲,社会统计学应该复盖除了数理统计学之外的绝大多数数学学科的运作。所以统计学家王见定提出的“社会统计学与数理统计学统一”理论,从根本上纠正了统计学界长期存在的低估社会统计学的错误学说,并从理论上和应用上论证了社会统计学的广阔前景。
统计学家王见定著
英文版《社会统计学与数理统计学的统一》一书于2010年6月由中国经济出版社出版,并陆续向国外
发行。 该书对有近四百年历史的统计学进行了科学的梳理,规范了整个统计学的发展,结束了一百多年来社会统计学与数理统计学之间的争论。注:该书着者王见定是国际资深统计学会会员,国际著名数学家。 The book "The Unity of Social Statistics and Mathematical Statistics" was published by China Economic Publishing House in June 2010 and the book will be put on sale throughout the world.编号:342705 出版社:中国经济出版社。
检验应用
统计学
统计学的中心问题就是如何根据样本去探求有关总体的真实情况。因此,如何从一个总体中抽取一些元素组
成样本,什么样的样本最能代表总体,这直接影响着统计的准确性。如果抽取元素的方法是使总体中的元素成分不改,所观测到的数值是互相独立的随机变量,并有着和总体一样的分布,这样的样本是一个简单的随机样本,它是总体的最好代表,而取得简单随机样本的过程叫做简单随机取样。
简单随机取样就是重复进行同一随机试验,也就是指每次试验都在同一组条件下进行,因而每次试验得到什么结果,其可能程度都是固定不变的。对于有限总体,简单随机抽样意味着每次抽出一个元素后,放还再抽,若不放还,总体的成分将有所改变,那么再抽时,出现各种结果的可能程度就相对地改变了。至于无限总体则没有区分“放回”或“不放回”的必要。
除以上述原则外,另一方面,获得样本的具体方法能否保证观察值是独立的,这是问题的关键,因此,一样本的随机与否还取决于获得样本的具体方法。
在具体进行取样时,必须根据研究目的的不同,选择不同的取样方法。
①单纯随机取样法先把每个个体编号,然后用抽签的方式从总体中抽取样本。这种方法适用于个体间差异较小、所需抽选的个体数较少或个体的分布比较集中的研究对象。
②分区随机取样法将总体随机地分成若干部分,然后再从每一部分随机抽选若干个体组成样本。这种抽样法可以更有组织地进行,而且中选的个体在总体的分布比单纯随机取样更均匀。
③系统取样法先有系统地将总体分成若干组,然后随机地从第一组决定一个起点,如每组15个元素,决定从第一组的第13个元素选起,那么以后选定的单位即28,43,58,73等等。
④分层取样法根据对总体特性的了解,把总体分成若干层次或类型组,然后从各个层次中按一定比例随机抽选。这种方法的代表性好,但若层次划分得不正确,也不能获得有高度代表性的样本。
统计学基础_统计学 -学校排名
学科评估高校排名:0714 统计学(2012年)
本一级学科中,全国具有“博士一级”授权的高校共56所 ,本次有46所参评;还有部分具有“博士二级”授权和硕士授权的高校参加了评估; 参评高校共计87所。以下得分相同的高校按学校代码顺序排序。
(排名是依据各学校送检材料得来)
学校代码学校名称学科整体水平得分10002中国人民大学9010001北京大学8810384厦门大学8510055南开大学8310200东北师范大学8310269华东师范大学8310272上海财经大学8310353浙江工商大学7810358中国科学技术大学7810422山东大学7810004北京交通大学7610027北京师范大学7610034中央财经大学7610173东北财经大学7610028首都师范大学7410038首都经济贸易大学7410246复旦大学7410335浙江大学7410558中山大学7410003清华大学7310248上海交通大学7310532湖南大学7310533中南大学7310559暨南大学7310610四川大学7310213哈尔滨工业大学7210284南京大学7210486武汉大学7210487华中科技大学7210520中南财经政法大学7210635西南大学7210036对外经济贸易大学7010125山西财经大学7010183吉林大学7010285苏州大学7010357安徽大学7010386福州大学7010611重庆大学7011078广州大学7011560西安财经学院7010378安徽财经大学6910511华中师范大学6910689云南财经大学6910698西安交通大学6910011北京工商大学6810094河北师范大学6810140辽宁大学6810252上海理工大学6810280上海大学6810299江苏大学6810320江苏师范大学6810327南京财经大学6810446曲阜师范大学6810459郑州大学6810530湘潭大学6810596桂林理工大学6810697西北大学6810741兰州财经大学6811117扬州大学6811482浙江财经学院6811799重庆工商大学6810319南京师范大学6610475河南大学6610488武汉科技大学6610512湖北大学6610701西安电子科技大学6611414中国石油大学6610052中央民族大学6510294河海大学6510336杭州电子科技大学6510338浙江理工大学6510389福建农林大学6510491中国地质大学6510513湖北师范学院6510536长沙理工大学6510602广西师范大学6510613西南交通大学6510681云南师范大学6510736西北师范大学6510759石河子大学6511660重庆理工大学6511846广东外语外贸大学6587903上海社会科学院6510112太原理工大学6410165辽宁师范大学6410166沈阳师范大学6410231哈尔滨师范大学6410574华南师范大学64