网上有关“数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)”话题很是火热,小编也是针对数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。
在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得各指标间不具有可比性。在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行分析。数据标准化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系的作用力同趋化。数据无量纲化主要解决数据的不可比性,在此处主要介绍几种数据的无量纲化的处理方式。
可以选择如下的三种方式:
即每一个变量除以该变量取值的全距,标准化后的每个变量的取值范围限于[-1,1]。
即每一个变量与变量最小值之差除以该变量取值的全距,标准化后各变量的取值范围限于[0,1]。
,即每一个变量值除以该变量取值的最大值,标准化后使变量的最大取值为1。
采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。由于极值化方法对变量无量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。
来计算,即每一个变量值与其平均值之差除以该变量的标准差,无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异。
,该方法在消除量纲和数量级影响的同时,保留了各变量取值差异程度上的信息。
(4)标准差化方法
。该方法是标准化方法的基础上的一种变形,两者的差别仅在无量纲化后各变量的均值上,标准化方法处理后各变量的均值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值。
综上所述,针对不同类型的数据,可以选择相应的无量纲化方法。如下的示例就是一个典型的评价体系中无量纲化的范例。
近年来我国淡水湖水质富营养化的污染日益严重,如何对湖泊水质的富营养化进行综合评价与治理是摆在我们面前的任务,下面两个表格分别为我国5个湖泊的实测数据和湖泊水质评价标准。
表1 全国五个主要湖泊评价参数的实测数据
表2 湖泊水质评价标准
(1)试用以上数据,分析总磷,耗氧量,透明度,总氨这4个指标对湖泊水质评价富营养化的作用。
(2)对这5个湖泊的水质综合评价,确定水质等级。
在进行综合评价之前,首先要对评价的指标进行分析。通常评价指标分成效益型,成本型和固定型指标。效益型指标是指那些数值越大影响力越大的统计指标(也称正向型指标);成本型指标是指数值越小越好的指标(也称逆向型指标);而固定型指标是指数值越接近于某个常数越好的指标(也称适度型指标)。如果每个评价指标的属性不一样,则在综合评价时就容易发生偏差,必须先对各评价指标统一属性。
(ⅰ)建立无量纲化实测数据矩阵和评价标准矩阵,其中实测数据矩阵和等级标准矩阵如下,
然后建立无量纲化实测数据矩阵和无量纲化等级标准矩阵,其中
得到
(ⅱ)计算各评价指标的权重
计算矩阵B的各行向量的均值和标准差,
最后对变异系数归一化得到各指标的权重为
(ⅲ)建立各湖泊水质的综合评价模型
通常可以利用向量之间的距离来衡量两个向量之间的接近程度,在Matlab中,有以下的函数命令来计算向量之间的距离;
dist(w,p): 计算中的每个行向量和中每个列向量之间的欧式距离;
mandist(w,p): 绝对值距离。
计算中各行向量到中各列向量之间的欧氏距离,
,则第个湖泊属于第级。
这说明杭州西湖,武汉东湖都属于极富营养水质,青海湖属于中营养水质,而巢湖和滇池属于富营养水质。
,则第个湖泊属于第级。
其评价结果与利用欧氏距离得到的评价结果完全一样。
所以,从上面的计算可以看出,尽管欧氏距离和绝对值距离的意义完全不一样,但对湖泊水质的评价等级是一样的,这表明了方法的稳定性。
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
各位老铁养成习惯,看完点个赞呗,随便也来个关注!!!
对于缺失值的处理
任何一项课题研究都要依据一定的方法来进行,研究方法一般包括实验研究法,行动研究法等,此外还有调查法、观察法、案例法、比较法、历史法、文献法等。这些方法最常用的是实验研究法和行动研究法。这里重点介绍一下实验研究法:
(一)实验研究法概论
1、实验研究法的定义:
实验研究法就是在可控的教育情景中,依据一定的理论假设,有目的地改变一些教育因素(自变量)。控制无关因素,观察记录另一些教育因素的变化,到了一定时间后,在统计分析的基础上,找到两类教育因素之间的内在联系验证理论假设的方法。
自变量也叫实验变量,它是指实验者操作的假定的原因变量;
因变量也叫反应变量,是自变量作用予实验对象后出现的教育结果。
无关变量是指自变量与因变量之外的一切变量。
2、教育实验的操作步骤
(1)定题就是提出实验课题
定题要遵循有价值、有创造性和可行性等原则。
(2)建立实验假说
所谓假说就是实验者对自变量(实验变量)与因变量(反变量)之间关系的推测与判断。它是自己的教育经验,科学理论,他人经验综合加工的结果。(好比实现理想先有的幻想)假如:北京市宏庙小学的研究者看到的小学生没有得到全面和谐、充分地发展,于是确定了“小学生全面发展教育实验”课题建立了“实现整体优化,促进学生全面发展”的假说,开展了小学生教育整体优化实验。
实验假说具有三个特征:假说应当没想出实验变量与反变量之间的关系。假说要用表述或条件句的形式明确地毫不含糊地展述出来。假说应当是可以检验的.
(3)实验设计
实验设计是指实验者在实际着手验证假说之前制定的实验计划.它的目的在与更科学更经济地验证假说.实验设计的问答主要有以下几个方面。
①实验变量的操作与控制.确保实验者依据实验要求操作不走样(自变量)
②反应变量的观测方法.(因变量)测量手段:通过制表、绘图等进行比较分析。
③无关变量的控制措施(消除法、恒定法)
④实验对象的选择。(被式的选择)
⑤实验的组织形式。(单组或等组)
⑥实验数据处理方法的确定。
(4)实验的实施
实验的实施就是实验工作者按照设计的实验方案,操作实验变量,控制无关变量,观察、记录、测量反应变量,搜集实验信息的过程,也就是将实验方案物质化、现实化的过程。
实施设计(计划)必须做到以下两方面工作:
一是实验进程的控制,保持实验过程按实验设计的要求,程序进行。
二是经常地有重点地客观地搜集实验信息与资料、观测反应变量,为因果推论提供事实和依据。
实验进程的控制需做好以下的工作:
①健全实验组织机构,准备好实验的表格与器材。
②处理好教育实验过程中的“动”(实验因子、实验变量)“静”(非实验因子,无关变量)关系。
③做好阶段性总结。阶段性小结的目的是查明在实验措施的作用下,反应变量每个阶段的变化情况,并认真地事实求事地记录下来,看看哪些主观假说被验证,哪些被推翻,哪些有待于进一步验证。从而及时发现问题,为修改方案,进一步做好下一段工作提供依据与经验。
三是经常地有重点地客观地搜集实验信息与资料,观测反应变量,为因果推论提供事实和数据。
(5)资料的统计处理
对在实验过程中积累起来的资料,采用科学的统计方法进行统计分析。一般是先用描述的方法把反应结果的原始资料加以列表,图示、或计算该资料的平均数、标准差和相关数等,然后再用推断统计的方法来检验自变量与因变量之间的关系。在教育实验中常用的推断统计方法有乙检验、丁检验、F检验等。
(6)实验报告
实验报告是反应一项实验的过程及结果并将其公布于世的文学材料,是教育科研成果的一种重要形式。
(7)教育信息情报
搞教育实验开教育信息情报。教育信息情报贯穿于教育实验的始终。选题、建立假说、实验设计、实施实验、撰写实验报告这一整体过程,体现了情报获取、情报处理、情报运用和情报传递的全部内容。
(二)怎样写实验计划
实验计划是在实验开始操作之前制定的关于实验的内容和实施办法的文件。它是在实验设计的基础上加上实验课题形成的背景与实验目的和人员的组织分工与条件保障两大部分后形成的书面材料。
1、背景与目的
这一部分主要是说明:为什么要搞这项试验?这一课题是怎样确定下来的,搞这项实验要证明怎样的推断,控索一个什么规律,以及这一实验的目的和意义究境是什么。
(1)实验课题的确定过程一般源于以下几种原因:一是源于实际工作中的问题;第二是源与领导上的要求;三是源于教育经验的升华;四是源于理论的启发。而大多数实验课题的提出是以上多种原因的综合作用所致。题目(课题)确定下来之后要对课题的必要性和可行性予以论证。(这部分内容一般以“课题的提出”为小题目)
(2)实验假说
实验在一定意义上说是通过控制验证假说的活动。一个科学的实验在实验前应有一明确的假说。假说即在被实验和逻辑证明之前那些凭经验作出的判断。一般的条件句或陈述句明确地表达出来。
(3)实验的目的与意义
目的一般有两个方面:一是验证假说,探索教育规律;二是解决实际问题,提高教育科学质量与效益。意义也是两大方面:一是丰富与发展教育提高理论;二是提高教育科学质量,促进教育科学的改革与发展。
2、实验设计(也叫实验方法)
(1)自变量(实验变量)的操作定义与控制措施
给实验变量下操作意义就是把抽象的概念形式的实验变量转化客观的具体的指标或行为措施。从而使理论观念教育设想科学地转化为具体的可控制的操作步骤,以便于实验者作严密的操作和观察记录。
实际上对实验变量下操作定义就是规定变量在实验过程中的操作程序。如果实验变量不能以程序的形式给出,那么就要把变量分解成一项具体可遵照操作的要求。(举例可参看《中小学教育科研与论文写作教程》P62)
实验变量的控制措施一般通过集中培训和平时检查指导来完成,以确保实验的准确进行。
(2)因变量(反应变量)的观测指标与观测方法
a、中小学教育教学实验的观测指标多数是学生的考试成绩及自心素质的变化。
b、确定因变量的观测指标就是把因变量变化用数字表示出来。(例如,考分是学生某一方面能力的标志,智商是一个人智力水平的标志等,搞教育实验一定要想办法把因变量的变化的数字化,否则,将来对因变量是否真的发生了变化或发生了多大的变化就说不清楚。c、在选择实验的因变量即反应变量时,最好选择那些有量表或自己能够制造测量手段的品质来当取应变量,而且,要在实验计划中说清究竟怎样测出这些品质的变化。
(3)无关变量(无关因子因素)的控制措施。
在教育实验中,通常采用清除法、恒定法、平衡法、随机抽样法和盲法控制来控制无关变量。
a、消除法:消失,比如家庭辅导
b、恒定法:前后不变,比如上课时间、学生作业
c、平衡法:分组实验中,各组作用相同,比如教师水平,学生数目,知识基础
d、盲法控制:让学生(以及实验者)不知道是在搞实验,以消除其实验意识和实验情绪
e、代表性策略:选择“普通”(教材、学生)确保代表性便于推广。
(4)被式选择:
被式选择,即实验对象的选择,一般搞学生的选择,除代表法外,常使用的是抽样法。抽样法即总体中抽出一定数量的个体组成一个即比总体小,又能反应总体性质的样本。
a、简单随机抽样:抽佥法
b、机械抽样:等距抽样、有规律、分组
c、分层抽样:类型抽样
d、整群抽样
(5)实验的组织形式
实验计划中要说清被式是怎样组织的,也就是说明是搞单组实验,还是搞等组实验,或者是什么其它的等组形式。
单组实验是对随机抽取的一组被式先后施加两种不同的实验措施,在无关因子保持恒定不变的情况下,观察测量因变量的变化,从而确定自变量与因变量之间关系的组织形式。
等组实验设计是指两个或两个以上条件大致相同的组作为实验对象。一个组接受某个实验因素的影响,另一组无实验因素的影响,或两个组同时分别接受不同实验因素的影响,其它各种条件保持不变,然后比较教育实验因素影响与实验因素影响的不同效果或两种不同实验效果,从而证明实验因素对反应变量是否产生了促进作用或证明两种实验变量是否有明显的差别。
(6)资料的收集与处理方法
说明用什么方法和争取观测出因变量的变化,最后用什么统计方法判断实验手段是否有效。
3、实用人员与条件保障
(1)课题组成员及分工
这部分要把课题组的主要成员的姓名以及分工都写清楚。如组长、副组长等。
(2)实验所需要的仪器设备及其它条件保障
有的实验需要特殊的仪器设备或必不可少的条件,实验计划应说明对这些必备和条件是否能够满足。
(三)怎样写实验报告
写实验报告是搞教育实验的最后一环,也是收获成果的产健一步。应按照科学的程序和格式做好这一结尾工作。
中小学校教育实验报告(是搞好教育实验的最后一环)的格式与内容如下:
标题:××实验报告
实验单位,作者姓名
1、背景与目的(问题的提出)
(1)实验课题确定的过程
(2)实验的假说
(3)实验的目的及意义
这部分与实验计划的内容基本相同,但是如果在实验的实施过程中,对实验计划中的这部内容有所改变,那就要以改后的内容为准。
2、方法
(1)被式的选择方法与组织形式
这部分与实验计划中的内容一样。
(2)实验变量的操作方法及辅助措施
这部分内容一方面要根据实验计划的内容来写,另一方面更要以事实为根据,把实验变量的实际操作程序或特点,全面详细地写出来。
如果实验变量没有操作程序,那就要把实验措施和有关的要求说清楚。
如果除了主要变量外还有一些辅助措施,那么就要把这些措施全部都说明白。
(3)无关变量的控制方法
主要说明在实验中是怎样控制无关因素的,一般应指出具体的控制方法。
(4)因变量的观测方法
即说明用什么方法获得的关于因变量(反应变量)变化数据,采用的什么量表,什么仪器,参加的是哪一级的考试等。
3、结果
(1)实验中得到的原始数据的描述统计结果
(2)根据描述统计的结果,采用推断统计获得的结果。
实验报告的结果部分常常是一些表格和图象以及根据这些数据表各中的数据推断出来的统计结果。有时也列出一些工作中的成就,如果在竟赛中获奖,在地区统考中取得好名次等,作为必要的说明。
按要求,实验报告最好运用推断统计下结论,让数字说话,让事实说话,而不能仅仅依靠工作中的成绩,来做为实验成功的依据。
结果部分所列的全部内容必须来自本实验,既不能任意修改,增删也不要添加自己的主观见解。
4、讨论与结论
(1)是否验证了假说为什么?
(2)对实际教育教学有什么促进作用?
(3)有哪些意外的发现?
(4)有什么建议。
讨论与结论有时分开写,有时合在一起写,现在多数报告都合在一起写,一边讨论,一边下结论,还有的结果和讨论放在一部分,把结果单列出来,有时甚至把结果讨论结论三部分合在一部写,这也是可以的。“结论”部分在保证写清所要求的四部分内容外,要特别注意以下几点:
第一,结论要简短不要长篇大论
第二,结论一定要以本实验的结果和分析为依据,不能夸大,也不能缩小,要确切地客观地反映出整个实验的收获。
5、附录
实验报告的结果往往是很多表格图像,一般在实验报告里写不全,所以经常以附录的形式,把必要的材料附在报告的后面。
建议:不同场景下的数据缺失机制不同,这需要工程师基于对业务选择合适的填充方法。
如何判断缺失值类型?
缺失值的分类按照数据缺失机制可分为:
可忽略的缺失
不可忽略的缺失
平常工作中遇到的缺失值大部分情况下是随机的(缺失变量和其他变量有关)
这个就可以用estimator来做了,选其中一个变量(y),然后用其他变量作为X,随便选个值填充X的缺失部分,用X train一个estimator,再预测y的缺失部分(大致思路)
此外有些数据是符合某种分布的,利用这个分布呢也可以填充缺失的数据,如(EM算法)
处理缺失数据的三个标准:
1. 非偏置的参数估计
不管你估计means, regressions或者是odds ratios,都希望参数估计可以准确代表真实的总体参数。在统计项中,这意味着估计需要是无偏的。有缺失值可能会影响无偏估计,所以需要处理。
2. 有效的能力:
删除缺失数据会降低采样的大小,因此会降低power。如果说问题是无偏的,那么得到的结果会是显著的,那么会有足够的能力来检验这个效力(have adequate power to detect your effects)。反之,整个检测可能失效。
3. 准确的标准差(影响p值和置信区间):
不仅需要参数估计无偏,还需要标准差估计准确,在统计推断中才会有效。
缺失值处理的方法大致分为这几类:1、删除法;2、基于插补的方法;3、基于模型的方法; 4、不处理; 5、映射高维
有些处理方法是基于完全随机缺失假设(MCAR),一般来说,当数据不是 MCAR 而 是随机缺失(MAR)时,这些方法是不适用的;而有些方法(如似然估计法)在 MAR 的假设下是适用的,因此,在进行缺失数据处理时,首先需要认真分析缺失数 据产生的原因,然后采取有针对性的补救措施,这样才能够获得无偏或弱偏估计。
此处关于使用多重插补来处理非随机缺失(MNAR)的问题,它其实效果不一定,也可能出现效果倒退的情况,总的说多重更适合MAR
注:此处一元与多元指的是仅有一个特征有缺失值与多个特征有缺失值
对于不同类别的缺失值的处理方法如上图。
以下展开介绍各个方法:
注: k-means插补 与KNN插补很相似,区别在于k-means是利用无缺失值的特征来寻找最近的N个点,然后用这N个点的我们所需的缺失的特征平均值来填充,而KNN则是先用均值填充缺失值再找最近的N个点。
类似的还有 随机回归插补 :也优于纯回归插补
其他单一插补法:
与单一插补方法相比较,多重插补方法充分地考虑了数据的不确定性。多重插补的主要分为三个步骤,综合起来即为:插补、分析、合并。插补步是为每个缺失值都构造出 m 个可能的插补值,缺失模型具有不确定性,这些插补值能体现出模型的这个性质,利用这些可能插补值对缺失值进行插补就得到了 m 个完整数据集。分析步是对插补后的 m 个完整数据集使用一样的统计数据分析方法进行分析,同时得到 m 个统计结果。综合步就是把得到的这 m 个统计结果综合起来得到的分析结果,把这个分析结果作为缺失值的替代值。多重插补构造多个插补值主要是通过模拟的方式对估计量的分布进行推测,然后采用不同的模型对缺失值进行插补,这种插补是随机抽取的方式,这样以来能提高估计的有效性和可靠性。
多重插补-python手册
多重插补法主要有以下几种:
(使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。)
基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到较为可能的补全值。如果带有缺失值的列是数值变量,采用回归模型补全;如果是分类变量,则采用分类模型补全。
常见能够自动处理缺失值模型包括:KNN、决策树和随机森林、神经网络和朴素贝叶斯、DBSCAN(基于密度的带有噪声的空间聚类)等。
处理思路:
自动插补 :例如XGBoost会通过training loss reduction来学习并找到最佳插补值。
忽略 :缺失值不参与距离计算,例如:KNN,LightGBM
将缺失值作为分布的一种状态 :并参与到建模过程,例如:决策树以及变体。
不基于距离做计算 :因此基于值得距离计算本身的影响就消除了,例如:DBSCAN。
ID3、c4.5、cart、rf到底是如何处理缺失值的?
最精确的做法,把变量映射到高维空间。
比如性别,有男、女缺失三种情况,则映射成3个变量:是否男、否女、是否缺失。连续型变量也可以这样处理。比如Google、 百度的CTR预估模型,预处理时会把所有变量都这样处理,达到几亿维。又或者可根据每个值的频数,将频数较小的值归为一类'other',降低维度。此做法可最大化保留变量的信息。
前推法 (LOCF,Last Observation Carried Forward,将每个缺失值替换为缺失之前的最后一次观测值)与 后推法 (NOCB,Next Observation Carried Backward,与LOCF方向相反——使用缺失值后面的观测值进行填补)
这是分析可能缺少后续观测值的纵向重复测量数据的常用方法。纵向数据在不同时间点跟踪同一样本。当数据具有明显的趋势时,这两种方法都可能在分析中引入偏差,表现不佳。
线性插值 。此方法适用于具有某些趋势但并非季节性数据的时间序列。
季节性调整+线性插值 。此方法适用于具有趋势与季节性的数据。
总而言之,大部分数据挖掘的预处理都会使用比较方便的方法来处理缺失值,比如均值法,但是效果上并不一定好,因此还是需要根据不同的需要选择合适的方法,并没有一个解决所有问题的万能方法。
具体的方法采用还需要考虑多个方面的:
在做数据预处理时,要多尝试几种填充方法,选择表现最佳的即可。
总结来说,没有一个最完美的策略,每个策略都会更适用于某些数据集和数据类型,但再另一些数据集上表现很差。虽然有一些规则能帮助你决定选用哪一种策略,但除此之外,你还应该尝试不同的方法,来找到最适用于你的数据集的插补策略。
当前最流行的方法应该是 删除法、KNN、多重插补法 。
参考文献: 庞新生. 缺失数据处理方法的比较[J]. 统计与决策, 2010(24):152-155.
关于“数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!
本文来自作者[王天霸]投稿,不代表冠华号立场,如若转载,请注明出处:https://pcoedu.com/guanhua/476.html
评论列表(3条)
我是冠华号的签约作者“王天霸”
本文概览:网上有关“数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)”话题很是火热,小编也是针对数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)寻找了一些与之相关...
文章不错《数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)》内容很有帮助