逻辑斯谛回归/曲线方程、模型 逻辑斯谛方程

http://blog.sina.com.cn/s/blog_4b700c4c0100pm1s.html

(2011-02-16 15:15:19)
标签:

校园

分类: 工作篇

S型曲线(S-Curve)  S型曲线(S-Curve)多存在于分类评定模型(Logitmodel),逻辑回归(Logisticregression)模型,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销等统计实证分析的常用方法。

  

难道一切真的都得依照S型曲线发展,社会、经济总有一天会衰败吗?难道我们就不能阻止这个让人失望的结局发生吗?难道我们就不能阻止这个让人失望的结局发生吗?而且,除了徐熙娣的S型曲线之外,我们也可以有查尔斯•汉迪组合式人生。

塔尔德经济增长的S型曲线(1890)

  

十九世纪末,法国的社会学家塔尔德(GabrielTarde)观察到,一个新思想的采纳率在时间中遵循一种S型曲线。1890年,塔尔德的《模仿律》》(《The Laws ofImitation 》)这部著作影响了两个当代的研究传统,即扩散理论和社会学习理论。也有人说,塔尔德实际是提出了经济增长的S型曲线。

  塔尔德认为,模拟是最基本的社会关系。一切社会过程无非是个人之间的互动。每一种人的行动都在重复某种东西,是一种模拟。社会事实是由模拟而传播、交流的个人情感与观念。

  

塔尔德(1843—1904)是一名律师和法官,后来成为一名社会学家。他还撰写了《意见和大众》(1901)、《隐蔽的人》(1905)等著作,是有关未来社会的风气变化的未来主义乌托邦。

  塔尔德把社会规律还原为支配、模拟的规律,社会互动还原为个人间的心理联系,认为社会学即是研究这种心理联系的“精神间的心理学”。这种思路应该追溯到S型曲线控制法(逻辑斯谛曲线)及其早期的应用。

费尔许尔斯特—珀尔方程(1833)

  1833年,费尔许尔斯特以其著名的逻辑斯谛曲线描述人口增长速度与人口密度的关系,把数学分析方法引入生态学。

  历史上,当孟德尔提出其著名的遗传定律时,也曾遇到过无法解释的尴尬:按照他的理论,通过简单数学计算将得出,某一生物群体中的表现型比例将会逐渐呈现一边倒的现象。就在这一理论遭到质疑的时候,数学家哈代等人建立起了数学模型,对其定律进行了修正与论证,得到了“遗传不会影响基因频率”的正确结论。

  数学不仅拯救了生物学支柱之一的孟德尔定律,科学家还通过它得到了费尔许尔斯特—珀尔方程和洛特卡—沃尔泰拉方程。费尔许尔斯特—珀尔方程描述生物种群增长的规律,可以帮助人们计算出人口增长速度与人口密度的关系;而洛特卡-沃尔泰拉方程则帮助人们认识到农药的滥用在毒杀害虫的同时也杀死了害虫的天敌,如今在农作物的防病虫害斗争中发挥着重要作用。

  马尔萨斯于1798年发表的《人口论》一书造成了广泛的影响。费尔许尔斯特1833年以其著名的逻辑斯谛曲线描述人口增长速度与人口密度的关系。

S型曲线控制法(逻辑斯谛方程)

  S型曲线控制法逻辑斯谛方程,即常微分方程:dN/dt=rN(K-N)/K.

  字母含义

  式中N为种群个体总数,t为时间,r为种群增长潜力指数,K为环境最大容纳量。

  意义

  

当一个物种迁入到一个新生态系统中后,其数量会发生变化.假设该物种的起始数量小于环境的最大容纳量,则数量会增长.增长方式有以下两种:

  (1)J型增长若该物种在此生态系统中无天敌,且食物空间等资源充足(理想环境),则增长函数为N(t)=n(p^t).其中,N(t)为第t年的种群数量,t为时间,p为每年的增长率(大于1).图象形似J形。

  (2)S型增长若该物种在此生态系统中有天敌,食物空间等资源也不充足(非理想环境),则增长函数满足逻辑斯谛方程。图象形似S形.

工程S曲线(S-Curve)

  即按照对应时间点给出的累计的成本、工时或其他数值的图形。该名称来自曲线的形状如英文字母S(起点和终点处平缓,中间陡峭),项目开始时缓慢,中期加快,收尾平缓的情况造成这种曲线。

逻辑回归模型(Logistic回归模型)

  通常人们将“Logistic回归”、“Logistic模型”、“Logistic回归模型”及“Logit模型的称谓相互通用,来指同一个模型,唯一的区别是形式有所不同:logistic回归是直接估计概率,而logit模型对概率做了Logit转换。不过,SPSS软件好像将以分类自变量构成的模型称为Logit模型,而将既有分类自变量又有连续自变量的模型称为Logistic回归模型。至于是二元还是多元,关键是看因变量类别的多少,多元是二元的扩展。

城市化进程的倒S型曲线(1979)

  1979年,美国城市地理学家诺瑟姆Ray.M.Northam发现并提出了“诺瑟姆曲线”,这个曲线表明:发达国家的城市化大体上都经历了类似正弦波曲线上升的过程。

  城市化进程呈现一条被拉平的倒S型曲线,当城市化超过30%时,进入了快速提升阶段。城市化的发展在时间和空间两个维度展开,表现为阶段性和地区差异。

  诺瑟姆在总结欧美城市化发展历程的基础上,把城市化的轨迹概括为拉长的S型曲线。他把城市化进程分为三个阶段:第一是城市化起步阶段,城市化水平较低,发展速度也较慢,农业占据主导地位;第二是城市化加速阶段,人口向城市迅速聚集,城市化推进很快。随着人口和产业向城市集中,市区出现了劳动力过剩、交通拥挤、住房紧张、环境恶化等问题。小汽车普及后,许多人和企业开始迁往郊区,出现了郊区城市化现象;第三是城市化成熟阶段,城市化水平比较高,城市人口比重的增长趋缓甚至停滞。在有些地区,城市化地域不断向农村推进,一些大城市的人口和工商业迁往离城市更远的农村和小城镇,使整个大城市人口减少,出现逆城市化现象。

  

前景理论的s型价值函数

  “前景理论”由丹尼尔•卡尼曼 (Daniel .Kahneman )教授提出,获得2002 年诺贝尔经济学奖。卡尼曼通过一个s型价值函数更为准确的描述了决策过程,并表明非理性行为可以被识别及预测。

  长期以来,正统经济学一直以“理性人”为理论基础,通过一个个精密的数学模型构筑起完美的理论体系。而卡尼曼教授等人的行为经济学研究则从实证出发,从人自身的心理特质、行为特征出发,去揭示影响选择行为的非理性心理因素,其矛头直指正统经济学的逻辑基础——理性人假定。

  

瑞典皇家科学院称,卡尼曼因为“将来自心理研究领域的综合洞察力应用在了经济学当中,尤其是在不确定情况下的人为判断和决策方面作出了突出贡献”,摘得2002年度诺贝尔经济学奖的桂冠。

  而1947年HerbertSimon(1978年荣获诺贝尔经济学奖)考虑到人的心理因素在经济行为中的作用,提出“有限理性”理论。他认为,在当今的复杂社会里,一个人不可能获得所有必要的信息来做出合理的决定。

函数S-粗集与系统规律挖掘

空雨衣--变革时代的商务哲学

  

空雨衣是一个象征。在这个变化迅猛的世界,竞争日益激烈,以企业为主要代表的组织忙于在激烈的竞争中求生存,因此变得越来越机械、越来越没有人性,越来越强迫员工长时间工作;而个人要在激烈的竞争中求得生存与发展,只有疲于奔命,许多人实际上除了工作外几乎不再有别的自由空间,即双休日、节假日也都在公司中度过,对他们来说,人生就是完成一项又一项永远也完成不了的任务。空雨衣是我们时代的最急迫的悖论的象征。

查尔斯•汉迪新变革的“S型曲线”

  查尔斯•汉迪(CharlesHandy)的《空雨衣》(又译为《觉醒的年代》)在《觉醒的年代》提出了三种管理思想架构:一是在持续成长的同时施行新变革的“S型曲线”,二是必须在做与做得到之间取得平衡的“甜甜圈原理”,三是充分运用双赢艺术的“中国式契约”。

  汉迪毕业于牛津大学,并曾在麻省理工学院的史隆管理学院追随本尼斯、雪恩、阿奇利斯等大师进行组织研究。曾任教于英国伦敦商学院,担任过英国石油公司顾问、以及英国皇家艺术及工商促进会主席。

  

中国人民大学出版社组织出版了一批查尔斯•汉迪的著作,有《思想者》、《觉醒的年代》、《饥

  饿的灵魂》、《个人与组织的未来》、《工作与生活的未来》、《经理人制造》、《组织的概念》与《大师论大师》。

查尔斯•汉迪组合式人生

  在组合式人生的时间分配上,他及妻子伊丽沙白每年分配150天用于纯粹的创造性工作,写作和摄影以及相关的阅读与研究,100天用于商业和管理活动,基本是到国外做巡回演讲,再拿30天时间用于各种志愿性工作,除此之外还有85天自由时间,可用于每周的休息和应对突发事件,这种安排很好地实现了生活的平衡。

  汉迪对政治和社会的兴趣跟管理一样大,属通识型学者。他晚年的著述是糅合了市场经济、企业文化与人道观点,低声地在提倡营利,大声地在鼓吹对人的尊重。近年来他一直在探讨:什么样的工作方式与生活方式是最适合21世纪的社会?汉迪在西方社会一生的体验使他相信:个人的自由与独立,要与财富的分享、社会的正义相互平衡。汉迪不仅是管理大师,更是人道主义者。

S曲线和反S曲线

  在Photoshop中,一般指用曲线调整时候,S形是提高对比度.,反s形正好相反。

S函数(System Function)

  S函数是SystemFunction的简称。在很多情况下,Simulink现有的模块已经不能满足用户的需要,这时可以自己编写相应的代码来完成对模块功能的需求。S函数则提供了一个代码和Simulink模块之间的接口,用来实现对模块的编程。其中S函数的代码可以用Matlab语言编写,也可以是C、C++、Ada、Fortran等语言编写。

逻辑斯蒂回归模型

http://wenku.baidu.com/view/5ea474e9b8f67c1cfad6b854.html

http://baike.baidu.com/view/1719747.htm

8.逻辑斯蒂模型

 

200年前马尔萨斯提出的人口增长指数模型,在较短时间内比较符合实际情况,但从长期看不可能永远按相同的(相对)增长率增长.事实上,人口较少时增长越来越快,但人口数量较大时,由于资源、环境、战争、灾害等因素,人口增长率会慢下来.因此必须修改马尔萨斯的模型.实际上主要修改增长率是常数的这个基本假设.19世纪30年代比利时生物数学家维尔豪斯提出了修改的增长模型¾¾阻滞增长模型,也称逻辑斯蒂模型.其基本假设是:人口的增长率是关于人口数量的线性递减函数.

现设初始人口数量为y(0)=y0y(t)表示时刻t的人口数,增长率r(y)=r0-syy的线性递减函数,其中r0,s是正的常数,见上图.

我们称r0固有增长率,即人口很少(y»0)时的增长率.为确定s的意义,引入资源、环境等条件所能容纳的最大人口数量ym,称为人口容量.在y=ym时人口不再增长,即r(ym)=0.于是s=.现在,(相对)增长率是

r(y)=r0-y,从而

即 ,我们得到模型方程

,

其中因子体现了对人口增长的阻滞作用,y越大,因子越小,阻滞作用越大,增长越慢.现求解此方程:

分离变量:.

积分:

,

得通解

,

代入初值y0=y(0),得C=,

得特解

.

例2.7.17 已知1960年的世界人口为29.8亿,当时增长率是1.85%.假如某些人口学家估计世界人口的固有增长率r0=2.9%,试估计世界人口容量ym,并估算2000年的世界人口数.

解.以1960年为初始年份:t=0.

y0=29.8(亿),r0=0.029,r(29.8)=0.0185.

r(29.8)=0.029-29.8s,解出

,

»82.3(亿).

其次,

.

注.如计算结果与实际数字的误差较大,说明估计的参数r0必须进行修正.

实验题.你找几位同学组成调查小组,到一个社区做人口调查,记录最近10年内该社区人口变化情况,由此分析该社区人口变化的规律,将分析结果与逻辑斯蒂模型作一对照.

http://www.math.nankai.edu.cn/~gdsxjxb/wlkj/windows/artsmath/chapter2/section7/point8/h0207080001.htm

逻辑斯蒂增长模型又称自我抑制性方程。用植物群体中发病的普遍率或严重度表示病害数量(x),将环境最大容纳量k定为1(100%),逻辑斯蒂模型的微分式是:



dx/dt=rx(1-x)



式中的r为速率参数,来源于实际调查时观察到的症状明显的病害,范.德.普朗克(1963)将r称作表观侵染速率(apparentinfectionrate),该方程与指数模型的主要不同之处,是方程的右边增加了(1-x)修正因子,使模型包含自我抑制作用。

模型的积分式为:



上式中的B为积分常数,因为x是经过t时间后的病害数量,

图4.4 “S”型曲线与逻值线对应图

当t=0时,x的初始值为x0,则积分常数B为(1-x0)/x0。经过整理可写成:



其线性方程为:

式中:ln(x/(1-x))称作x的逻辑斯蒂转换值,通常简称逻值(logit(x));

当x=0.5时,逻值(ln(x/(1-x))等于0;x<0.5时,逻值为负值;x>0.5时,逻值为正值。S型曲线的直线化,就是将病情(x)百分率转换成逻值后,用普通座标纸以逻值为纵座标对时间(t)作图,则病情进展曲线就成为一条直线,也称逻值线(图中B)。逻值线与纵轴相交的截点,为初始病害数量(x0),逻值线的斜率就是病害的流行速度,即表观侵染速率。

逻辑斯蒂方程的推导

  当一种新产品刚面世时,厂家和商家总是采取各种措施促进销售。他们都希望对这种产品的推销速度做到心中有数,这样厂家便于组织生产,商家便于安排进货。怎样建立数学模型描述新产品推销速度呢?

  首先要考虑社会的需求量.社会对产品的需求状况一般依如下两个特性确定:

  1.对产品的需求有一个饱和水平.当产品需求量达到一定数量时,对这种产品的需求也饱和了,设饱和水平为a;

  2.假设在时刻t,社会对产品的需求量为x=x(t),需求的增长速度dx/dt正比于需求量x(t)与需求接近饱和水平的程度a-x(t)之乘积,记比例系数为k;

  根据上述实际背景的两个特征,可建立如下微分方程:

  .......................(1)

  分离变量,得:

  

  两边积分,得:

  

  其中:

  从而,通解为:

  ......(2)

  其中,B和b为正常数,可由初始条件确定。式(1)称为逻辑斯蒂方程(1ogisticequation),式(2)称为逻辑斯蒂曲线。

[编辑]

逻辑斯蒂方程的基本性质

  1.当t=O时,x(t)的值为:;

  2.x(t)的增长率,因此,x(t)是增函数;

  3.当B值较大而t较小时,将很大,,于是

  

  x(t)近似于依指数函数增大,销售速度不断增大;

  4.当t增大以后,越来越接近于零,分母越来越接近于1,销售速度开始下降,x(t)的值接近于a(饱和值)。

[编辑]

逻辑斯蒂方程的应用

  1.人口限制增长问题

  人口的增长不是呈指数型增长的,这是由于环境的限制、有限的资源和人为的影响,最终人口的增长将减慢下来。实际上,人口增长规律满足逻辑斯蒂方程。

  2.信息传播问题

  所谓信息传播可以是一则新闻,一条谣言或市场上某种新商品有关的知识,在初期,知道这一信息的人很少,但是随时间的推移,知道的人越来越多,到一定时间,社会上大部分人都知道了这一信息.这里的数量关系可以用逻辑斯蒂方程来描述。若以t表示从信息产生算起的时间,P表示已知信息的人口比例,则逻辑斯蒂方程变为:

  ...................(3)

  例如,当某种商品调价的通知下达时,有10%的市民听到这一通知,2小时以后,25%的市民知道了这一信息,由逻辑斯蒂方程可算出有75%的市民了解这一情况所需要的时间。

  在方程(3)中,由t=0时,P=10%可得B=9;再由t=2时,P=25%可得,。

  当P=75%时,有:

  

  解得t=6,即6小时后,全市有75%的人了解这一通知。

  3.商品销售预测问题

  例如,某种商品的销售,开始时,知道的人很少,销售量也很小。当这种商品信息传播出去后,销售量大量增加,到接近饱和时销售量增加极为缓慢。比如,这种商品饱和量估计a=500(百万件),大约5年可达饱和,常数b经测定为b=lnl0,B=100。下面我们来预测一下第3年末的销售量是多少。

  由,有:

  (百万件)

  所以第三年末的市场销售量大约为454.5百万件,这样可以做到有计划地生产。

  逻辑斯蒂方程的应用比较广泛。如果问题的基本数量特征是:在时间t很小时,呈指数型增长,而当t增大时,增长速度就下降,且越来越接近于一个确定的值,这类问题可以用逻辑斯蒂方程加以解决。

http://wiki.mbalib.com/wiki/逻辑斯蒂方程

逻辑斯蒂增长模型(Logisticgrowth model)

  逻辑斯蒂增长模型又称自我抑制性方程。用植物群体中发病的普遍率或严重度表示病害数量(x),将环境最大容纳量k定为1(100%),逻辑斯蒂模型的微分式是:

  dx/dt=rx(1-x)

  式中的r为速率参数,来源于实际调查时观察到的症状明显的病害,范.德.普朗克(1963)将r称作表观侵染速率(apparentinfectionrate),该方程与指数模型的主要不同之处,是方程的右边增加了(1-x)修正因子,使模型包含自我抑制作用。

  模型的积分式为:

  或 

  上式中的B为积分常数,因为x是经过t时间后的病害数量,

  图4.4“S”型曲线与逻值线对应图

  当t=0时,x的初始值为x0,则积分常数B为(1-x0)/x0。经过整理可写成:

  其线性方程为:

  式中:ln(x/(1-x))称作x的逻辑斯蒂转换值,通常简称逻值(logit(x));

  当x=0.5时,逻值(ln(x/(1-x))等于0;x<0.5时,逻值为负值;x>0.5时,逻值为正值。S型曲线的直线化,就是将病情(x)百分率转换成逻值后,用普通坐标纸以逻值为纵坐标对时间(t)作图,则病情进展曲线就成为一条直线,也称逻值线(图中B)。逻值线与纵轴相交的截点,为初始病害数量(x0),逻值线的斜率就是病害的流行速度,即表观侵染速率。

与一般回归的区别在于,逻辑斯蒂变换能解决一般回归模型遇到的如下困难: 1. 模型的预测概率可能落在[0,1]区间之外; 2. 独立变量不是正态分布的; 3. 因变量的方差是不一致的。 
 
  1. Cody, R.F. and Smith, J.K. Applied Statistics and the SAS ProgrammingLanguage,4th ed..NJ:Prentice-Hall,1997.这书已经出第五版了,北大图书馆只有这第四版。非常容易上手的一本书,前半部分用input和datalines让读者专心做统计,后半部分从导入导出数据开始阐述SAS的通用编程语言。这本书用的是SAS8.这里我们只关注它第九章Multiple-RegressionAnalysis的最后Logistic Regression部分。我这篇的例子即来于此,有简化;
  2. SASOnlineDoc V8,或者SAS OnlineDoc V9,是要花功夫熟悉它们的结构了。以前我四处下载了数G的电子书,现在才发觉还是它们好使。体例上V8和V9一样,你找到SAS/STAT–>SAS/STATUser’s Guide–>The LOGISTIC Procedure,就可以跟着学习了,文字都非常简明。
Logistic回归处理因变量是分类型变量如“0、1”的情形。一下就假设你至少对它模模糊糊有些印象,比如说我们用p表示正例(如输出变量为“1”)的概率,那么p/(1-p)就被称作odds ratio,对p做logit变换记做logit(p),它等于log(p/(1-p),我们回归方程的形式就如logit(p)=log(p/(1-p)=a+bx,你可以把它理解成向量形式。  
假设我们有一个数据,45个观测值,四个变量,包括:  
  1. age(年龄,数值型);
  2. vision(视力状况,分类型,1表示好,0表示有问题);
  3. drive(驾车教育,分类型,1表示参加过驾车教育,0表示没有) 和
  4. 一个分类型输出变量accident(去年是否出过事故,1表示出过事故,0表示没有)。我们的目的就是要考察前三个变量与发生事故的关系。
 
 
种族增长曲线  
 

在高中生物教材中,种群增长曲线是一个重要的知识点。在种群增长曲线中,增长率不等于曲线的斜率,只有增长速率才可等于曲线的斜率。“J”型增长曲线的增长率不变,但其增长速率(等于曲线的斜率)却逐渐增大。而呈“S”型增长曲线的种群增长率是先增后减的,且其增长速率(同于曲线斜率)也是先增后减的。

S型曲线

种族增长曲线
虽然物种具有巨大的增长潜力,但在自然界中,种群却不能无限制地增长。因为随着种群数量的增长,环境的制约因素的作用也在增大,环境中制约种群增长的因素称为环境阻力。它包括同种个体之间对食物和空间的竞争加剧、疾病蔓延、捕食者因捕食对象的增多而增多等,从而导致残废率增长、出生率降低,最终趋向平衡。因此,在自然环境中,种群的增长曲线是一个“S”型曲线(也称为逻辑斯蒂曲线)。种群达到环境所能负担的最大值,称为环境的满载量或负载能力,用“K”表示(如图1)。那么,种群为什么不能无限增长而保持在相对稳定的水平?根据对很多生物种群在有限食物和有限空间条件下数量动态的研究,种群在开始时增长比较缓慢,以后逐渐加快,当种群数量达到环境所允许的最大数量的一半时,增长速度最快,但是种群所需要的资源
种族增长曲线
(食物、空间等)是有限的,随着资源的枯竭,环境阻力将随着种群的增长而成正比例增加,种群增长速度逐渐缓慢下来,直到停止增长,此外,种群内部的相互关系和其他一些环境因素,如气候、食物、空间、营巢地、天敌、疾病、种间竞争等环境阻力都会抑制种群数量无限增长。当种群增加到“K”值,会因为食物不足、空间有限、天敌增加等因素而使种群数量逐渐降低,降到基准线以下,又会因空间、食物的充裕而数量上升,所以,种群的数量会在一定范围内(基准线上下)波动,保持在一个相对恒定的水平上(如图2)。K值的应用
种族增长曲线
种数数量在达到K/2时(如图3中的A点),种群数量几乎呈直线上升,这一时期称指数生长期,A点是影响种群数量的关键点。该值可直接用于解释文中有关“种群数量变化的意义”中的几个实例问题。

实例

实例:研究种群数量变化的规律,有利于对野生生物资源的合理利用和保护。

释义:一般野生动植物种群的数量控制在环境容纳量的一半,即K/2值时,此时种群增长速度最快,可提供的资源数量也最多,而又不影响资源的再生,当种群数量大于K/2值,种群增长的速度将开始下降。所以在开发动植物资源时,种群数大于K/2值时就可以猎取一定数量的该生物资源,而且获得的量最大,当过程猎取导致种群数量小于K/2值时,种群增长的速度将会减慢,获取的资源数量将减少,而且还会影响资源的再生。

知识拓展

种群变化规律,对于控制世界人口增长,解决环境危机同样具有重要的指导意义。人类目前面临的生存危机,其根源就在于人口种群的急速增长与有限的环境资源之间的矛盾。世界人口长期以来呈指数增长趋势,主要是由于人类能够不断的开发新能源,并通过工业革命、农业革命等手段,适当地提高了自然界对人类的最大负荷量(K值)。但环境资源毕竟有限,假如人口数量增加到K值,将会引起生物圈的崩溃,后果不堪设想。所以科学的控制人口增长率,是解决环境问题的根本措施。

Logistic回归延伸了多元线性回归思想,即因变量是二值(为了方便起见通常设这些值为0和1)的情形。和在多元线性回归中一样,自变量也许是类别变量或连续变量或是两种类型的混合。

标准的多元线性回归模型不合适这些数据:
1. 模型的预测概率可能落在[0,1]区间之外;
2.独立变量不是正态分布的。实际上,二项式模型会更合适。例如,如果单元格个数是11,那么变量只能取0,1,2…11。设想在每个单元格中家庭的(做出的)反应是由独立的抛硬币来决定,在单元格中的采用概率由头像正面向上的概率表示。
3.如果我们认为正态分布是对二项分布的近似,在所有单元格中因变量的方差是不一致的:它将会比在单元格中采用概率p高,是接近0.5而不是接近0或1。这将增加落在单元格中家庭的总数量n。这个方差等于n(p(1-p))。
Logistic回归模型被发展来处理这些困难。它在经济计量学中描述选择行为和在流行病风险因素建模中变得非常流行。在选择行为的环境中,它通常被表现为服从随机效用理论,这个理论是由Manski对标准消费者行为经济理论的拓展。
实质上,消费者理论陈述了当面对一个选择集时,消费者会做出有最高的效用的选择(对价值做出的主观的、由0或一些标称变量表示的定量化衡量)。它假设消费者有一个满足如传递性等标准的合理的选择排序。这个偏好序列能依靠个人(如上例1所示的社会经济学的特征)及选择的属性。随机效用模型认为选择的效用包含了一个随机因素。当我们对来自“合理”的分布的随机因素建模,我们能从逻辑上建立预测选择行为的Logistic模型。
如果我们让y=1代表做了一个选择,y=0表示不选择它,Logistic回归模型规定: 1
逻辑斯谛回归/曲线(方程、模型) 逻辑斯谛方程
概率)...exp(1)...exp()...,|1(11011021kkkkkxxxxxxxYββββββ+++++==
其中,kβββ,...,10是未知的和多元线性回归模型相似的常数。
对我们模型中的自变量是:
≡1x(教育:高中以下=0,大学以上=1)
≡2x(居住稳定性:在过去5年中没有变化=0,在过去5年有变化=1)
≡3x(收入:低=0,高=1)


对系数的估计通常基于最大似然原则来执行,这个原则可以保持很好的渐近的估计。在通常情况下最大似然估计是:
􀂾 一致的:随着例子规模的增长,估计出的概率和从真值之间的差异接近于0;
􀂾 渐进有效的:方差在所有一致的估计中是最小可能的;
􀂾 渐进的正态分布:倘若例子规模是很大的,将会允许我们计算置信区间和采用类似于线性多元回归模型的统计检验。
和线性回归相比,系数估计和计算置信区间的算法是迭代的和缺少鲁棒性的。对于数据质量好的数据集来说,计算出的估计通常是可靠的。数据质量好通常是指,这个数据集中因变量取值是0或1的事例数较大;它们的比率是“不太接近于”0或1;并且在Logistic回归模型中系数的数目相对于样本的大小是很小的(不超过10%)。与线性回归一样,当遇到共线性(在自变量中有很强的相关性)时Logistic回归能导致计算困难。近来计算的强度算法被发展起来可以解决一些这样的困难。
7


http://www.core.org.cn/NR/rdonlyres/Sloan-School-of-Management/15-062Data-MiningSpring2003/B2EC3803-F8A7-46CF-8B9E-D0D080E52A6B/0/logreg.pdf

http://www.physics.sdnu.edu.cn/sdnujpkc/zl/ckzl/logistic�ع�.ppt

http://jpkc.njust.edu.cn/gltj/files/Logistic�ع������Ӧ��.ppt

http://www.tcmcec.com/conference/lecture/lecture2006010907.ppt

logistic回归分析,是当因变量是分类变量时的回归。

主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
  logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinearmodel)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。
  logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
  logistic回归的主要用途:一是寻找危险因素,正如上面所说的寻找某一疾病的危险因素等。二是预测,如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。三是判别,实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
  这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归几乎已经成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势。

实现

在SAS中用STAT模块的logistic过程

spss中regression 中有相关的分析。

stata做logistic回归做的不错。

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/duanshuyong0/archive/2010/03/19/5397541.aspx

logistic回归对因变量的比数的对数值( logit值)建立模型
因变量的logit值的改变与多个自变量的加权和呈线性关系
因变量呈二项分布
logistic回归的局限性
理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。
模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。
最大似然法估计参数的局限
样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。
能否用发病的概率P来直接代替 y呢?
p=β0+β1X1+β2X2+…+βpXp
定义:logit(P)= ln[P/(1-P)]为 Logistic变换, Logistic 回归模型为:

logit(P)=β0+β1X1+…+βpXp ;
经数学变换可得:

exp(β0+β1X1+…+βpXp)
P=─────────────
1+ exp(β0+β1X1+…+βpXp);

exp表示指数函数。
Logistic回归模型是一种概率模型, 它是以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项,多项分类的资料。

http://idv.kh.usc.edu.tw/yclin/teaching/MultuvariateAnalysis/Logistic�j�k��R��q.doc

http://www.physics.sdnu.edu.cn/sdnujpkc/zl/ckzl/logistic�ع�.ppt

http://www.6lib.com/pdf/059F92EA4081179805.pdf

Logistic回归模型:方法与应用(当代科学前沿论丛)
作者:王济川 等
出版社:高等教育出版社
出版日期:2001年9月

  

爱华网本文地址 » http://www.aihuau.com/a/25101010/27778.html

更多阅读

2014届高中数学复习知识点:圆锥曲线概念、方法、题型、易误点技

来自:要学习网 阅读原文1.圆锥曲线的两个定义:(1)第一定义中要重视“括号”内的限制条件:椭圆中,与两个定点  的距离的和等于常数2a,且此常数2a一定要大于  ,当常数等于  时,轨迹是线段  ,当常数小于  时,无轨迹;双曲线中,与两定点  

法国clarins娇韵诗化妆品 clarins娇韵诗 孕妇

  法国clarins娇韵诗化妆品成立于1954年,是世界闻名的美容护肤品牌。clarins娇韵诗化妆品的开发设计一直以顾客的需求为主。clarins娇韵诗化妆品已开发出细致肌肤护理、特造曲线护理、调和曲线护理、舒爽护理、特殊身体护理、香醒

一、生物学第一课堂教学 生物学教学期刊

什么是教学方法?教学方法就是师生为共同完成教学任务,在教学过程中所采用的手段和方式的总称。包括教师的教法和学生的学法。学生的“学”和教师的“教”是紧密联系着的。对于学生如何学的问题,固然要取决于学生自身的努力,然而在很大程

(转)收益率曲线形态分析 收益率曲线翻转

收益率曲线形态分析反映出某一时点上,不同期限债券的到期收益率水平。在一般情况下,债券收益率曲线通常是有一定角度的正向曲线,即长期利率的位置要高于短期利率。收益率曲线可以用水平、斜率、凸度三个指标来描述。收益率曲线交易是

三、模型介绍主KAITO kaito模型

当MMD越来越盛行的时候,人们就不单单的开始满足于现有的自带模型和最早制作的那批模型了。开始自己动手,丰衣足食了。于是,各种式的模型频繁出现,而且水平越来越高。下面我就以KAITO为主,介绍几个KAITO的模型吧:1、军曹式这个模型可谓

声明:《逻辑斯谛回归/曲线方程、模型 逻辑斯谛方程》为网友行赱禸分享!如侵犯到您的合法权益请联系我们删除