模糊數據均值方法及應用研究

(1)

V ol. 25 N o. 10 _{St at ist ics & Info rmat ion Fo rum} O ct. , 2010 收稿日期: 2010- 05- 21; 修复日期: 2010- 07- 26 基金项目: 2009 年度黑龙江省博士后科研启动金资助项目模糊数据统计方法及应用研究 ( L BH- Q 09113) 。作者简介: 王忠玉 ( 1963- ) , 男, 黑龙江哈尔滨人, 理学博士, 副教授, 研究方向: 应用统计、经济计量学。吴柏林 ( 1955- ) , 男, 台湾人, 理学博士, 教授, 研究方向: 应用统计、时间序列和人工智能。统计理论与方法

模糊数据均值方法及应用研究

王忠玉

1

, 吴柏林

2 ( 1. 哈尔滨工业大学经济与管理学院, 黑龙江哈尔滨 150001; 2. 台湾政治大学应用数学系, 台湾台北 11605) 摘要: 提出一种 Zadeh 式模糊数据, 并探讨这种模糊数据的模糊样本均值及其统计检验问题, 给出模糊等于、模糊属于的定义, 提出离散型和连续型模糊总体均值检验方法, 并利用一些实例阐述了此类统计方法的应用。关键词: 模糊数据; 模糊样本均值; 模糊总体均值检验方法中图分类号: C81 文献标志码: A 文章编号: 1007- 3116( 2010) 10- 0013- 05

一、模糊数据产生背景与模糊数

在自然科学和社会科学研究中, 许多测算或测量结果往往不是精确的实数或者向量, 而或多或少是非精确的( non- precise) 数或向量。例如, 环境学中许多测算都和大量的不确定性有关。比如, 空气中某种化学农药的浓度, 对其测量就是不精确的或者模糊的。这类不确定性不同于测量误差。另外, 人的感知认识描述也是模糊的, 如对事物外形及颜色的表述等。对这类模糊数据的利用与建模而言, 一种有效方法是把模糊集合理论、统计学、软计算方法结合起来。近 10 多年来, 已出版的大量文献致力于扩展已有的概率论及统计学, 包括数理统计学。这些探索工作的一个共同特性是对经典理论进行软化。这些软化方法使用诸如模糊集合理论、可能性理论, 还有一些其它方法, 比如 Dempster - Shafer 理论( 又称证据理论) 。模糊数据统计分析是模糊数学、软计算、统计学交叉融合而形成的一门新兴统计学分支。模糊数学理论对统计分析和建模产生了深远而广泛的影响, 其中最成功事例包括模糊聚类, 比如贝兹德克 ( Bezdek) 和模糊回归分析, 比如田中( T anaka) 等。模糊随机变量术语是首先由 Kw aker naak 引入的, 而后 Kr use 和 M eyer 对其加以精练发展[ 1- 3]_。在这种理论中, 模糊随机变量( KKM ) 被解释成经典随机变量的模糊感知( fuzzy perceptions) , 尽管很多语言标签被解释成其基础变量的模糊感知。另一发展方向是将模糊集合处理成第一类结果。Puri 和 R alescu 将模糊随机变量考虑成映射 X : FP R ( Rn) , 其中FPR( Rn) 表示函数集 f : Rn [ 0, 1] , 使得{ x Rn: f ( x ) } 是非空的且紧的, 对于所有 0 < 1[ 4]_{。对于上述两个框架来说, 第二种框架} 更具有一般性, 但在一些合理假设下, Zhong 和 Zhou 已经证明, 这两个框架是等价的[ 5]。不过, 其主要差异看起来在风格上, 即 Kw akernaak 的框架是以实分析为导向的, 而 P ur i 和 Ralescu 的框架则是以拓扑为导向的。在两种框架背景下, 都可以给出统计学中合理的模糊对应部分, 诸如期望值和方差。关于模糊数的定义, 许多学者对此有着极为一致的观点, 诸如 Zadeh、Puri 和 Ralescu 以及 Klir 和 Y uan 的书都曾给出模糊数定义[ 6]。

定义 1 模糊数: 模糊数是一个映射 f : R [ 0, 1] , 使得: ( a) f 是正规的, 也就是 x R, 使得 f ( x ) = 1; ( b) f 是一个凸的, 也就是 f 的截

(2)

集是一个闭区间, 对于 ( 0, 1) ; ( c) f = { x R: f ( x ) > 0 } 支集是有界的。

二、模糊样本均值

本文提出一种 Zadeh 式模糊数据, 这种定义既满足以往模糊数的定义, 又具有广泛的、可操作的应用前景。定义 2 模糊数据: 设 U 表示论域, 令{ A1, A2, , An} 表示 U 的子集。u 表示一个对应到[ 0, 1] 间的实数函数, 即 u: U [ 0, 1] 。假定论域 U 上存在一个陈述 X , 其相对于子集的隶属度函数以 { 1( X ) , 2( X ) , , n( X ) } 表示, 则在离散情况下, 陈述 X 的模糊数据可表示成: U( X ) = 1( X ) A1 + 2( X ) A2 + + n( X ) An ( 1) 其中 + 表示衔接符号, 并不表示加法含义, t( X ) At 表示陈述 X 隶属于子集 Ai 的程度。当 U 为连续时, 陈述 X 的模糊数据可表示成: ( X ) = x X t( X ) At ( 2) 例 1: 哈尔滨市居民对松花江工业园区排污段水域恶臭感觉的模糊数据表示。假定 X 表示哈尔滨市沿岸居民对松花江工业园区排污段水域恶臭的感觉, 并用模糊数据表示为 U( X ) 。假定论域 U = { 1 = 很严重, 2 = 严重, 3 = 普通, 4 = 轻度, 5 = 无影响} 。若 X 的感觉隶属度函数为 { 1( X ) = 0. 25, 2( X ) = 0. 6, 3( X ) = 0. 1, 4( X ) = 0. 05, 5( X ) = 0 } , 亦可以模糊数据表示为 U( X ) = 0. 25 1 + 0. 6 2 + 0. 1 3 + 0. 05 4 + 0 5。定义 3 三角形隶属度函数的计算设 U 表示其论域, { Xi: i = 1, , n} 为一组模糊样本。给定 U 的一个有序分割集合, { Pj: j = 1, , r} , 且其相对于语言变量为{ Lj: j = 1, , r } 。设 mj 为其分割集合 Pj的中间值, 若 Xi介于 mj 与 mj+ 1 之间, 则其属于语言变量 Lj 的隶属度为 mj + 1- Xt mj + 1- mj, 属于语言变量 L j+ 1 的隶属度为 Xi - mj+ 1 mj + 1- mj。例 2: 计算股市成交股数对应量的语言变量的隶属度。设{ Xi} = { 16, 34, 58, 70, 88} ( 单位: 千万) 表示上海股市中五只股票在某个月成交股数, 若选择一次序分割集合 U = { [ 0, 20] , [ 20, 40] , [ 40, 60] , [ 60, 80] , [ 80, 100] } , 其相对应的语言变量为: 微量 = L1 [ 0, 20) , 小量 = L2 [ 20, 40) , 普通 = L3 [ 40, 60) , 大量 = L4 [ 60, 80) , 巨量 = L5 [ 80, 100) , 其中表示相对于。再取各分割集合的中间值为{ m1 = 10, m2 = 30, m3 = 50, m4 = 70, m5 = 90} , 其相对应的语言变量为 { L1, L2, L3, L4, L5} 。因为 X1 = 16 介于 10 与 30 之间, 可计算出 X1 相对于 L1 及 L2 的隶属度如下: 30- 16 30- 10 = 0. 7 L1, 16 - 10 30 - 10= 0. 3 L2 同理, 可以得到{ Xi} 中每一个元素相对于语言变量的隶属度, 如表 1 所示。表 1 { Xi} 相对于语言变量{ Lj} 的隶属度 L1 L2 L3 L4 L5 X1 = 16 0. 7 0. 3 0 0 0 X2 = 34 0 0. 8 0. 2 0 0 X3 = 58 0 0 0. 6 0. 4 0 X4 = 70 0 0 0 1 0 X5 = 88 0 0 0 0. 1 0. 9 定义 4 离散型模糊样本均值设 U 表示一个论域, 令 L = { L1, L2, , Lk} 为论域 U 上的 k 个语言变量, { xt = m i1 L1 + mi2 L2 + + mik Lk, i = 1, 2, , n} 为一组模糊样本( k j = 1 mij = 1) ,

则把模糊样本均值( fuzzy sample m ean) 定义为

Fs = 1 n n i= 1 mi1 L1 + 1 n n i= 1 mi2 L2 + + 1 n n i= 1 mik Lk ( 3) 其中 mij 为第i 个样本相对于语言变量Lj 的隶属度。例 3: 离散型模糊均值应用于商品满意度调查。一种新上市的商品, 商品厂商打算探讨消费者的满意程度, 在街头邀 5 位消费者 A、B、C、D、E 作一个调查, 每位消费者对商品满意度的隶属度, 如表 2。表 2 5 位受访者对商品满意度的隶属度选择满意程度 L1很不满意 L2不满意 L3普通 L4满意 L5很满意 A 0 0. 5 0. 5 0 0 B 0 0 0. 8 0. 2 0 C 0 0. 3 0. 7 0 0 D 0 0 0 0. 9 0. 1 E 0 0 0. 2 0. 8 0 则模糊样本均值为: Fx = 1 5( 0 + 0+ 0 + 0 + 0) 很不满意 +

(3)

1 5( 0. 5 + 0+ 0. 3 + 0+ 0) 不满意 + 1 5( 0. 5 + 0. 8 + 0. 7+ 0 + 0. 2) 普通 + 1 5( 0+ 0. 2+ 0 + 0. 9+ 0. 8) 满意 + 1 5( 0+ 0 + 0 + 0+ 0. 1) 很满意 = _{很不满意 +}0 _{不满意 +}0. 16 0. 44_{普通 +} 0. 38 满意+ 0. 02 很满意此模糊样本均值所代表的意义为: 很满意的隶属度为 0. 02, 满意的隶属度为 0. 38, 普通的隶属度为 0. 44, 不满意的隶属度为 0. 16, 很不满意的隶属度为 0。此模糊均值是一个模糊数据, 表现出此商品的平均满意度最可能为普通 , 其次为满意。定义 5 等距尺度离散型模糊样本均值设 U 表示一个论域, 令{ L1, L2, , Lk} 为论域 U 上的k 个等距尺度变量, { x1, x2, , xn} 为一组模糊样本, 且每个样本 xi 相对于变量 Li 的隶属度为 mij, 其中 k i= 1 mij = 1。令 Mj 为Lj的组中点, 若 Fx = 1 n n i= 1 k j = 1 mijMj Lj, 则把模糊样本{ x1, x2, , xn} 的模糊样本均值定义为 Fx = Lk。例 4: 人力雇用数量的模糊样本均值哈尔滨某机构于近期在上海市拟定成立新办事处, 对于规模大小欲拟定人力雇用计划, 于是召集 A 、B、C、D、E 5 位相关主管进行意见调查。5 位专家根据给定的人数选项所做出的选择及个别的隶属度如表 3。表 3 5 位主管对应于各选项的隶属度选择人数 1 ~ 3 4 ~ 6 7 ~ 9 10 ~ 12 13 ~ 15 16 ~ 18 19 ~ 21 22 ~ 24 A 0. 4 0. 6 0 0 0 0 0 0 B 0 0 0. 3 0. 7 0 0 0 0 C 0 0 0 0 0. 7 0. 3 0 0 D 0 0 0 0 0 0 0. 2 0. 8 E 0 0. 4 0. 6 0 0 0 0 0 由于这 5 位主管有各自的观念及考虑, 造成对雇用人数的差异。若要从此样本中得到雇用人数, 又要忠实地反映样本的信息, 那么使用模糊样本均值是不错的方法。计算如下: 令 Mj 为人数区间的组中点: { 2, 5, 8, 11, 14, 17, 20, 23} , Fx = ( 0. 4 2+ 0. 6 5+ 0. 3 8+ 0 7 11+ 0. 7 14+ 0. 3 17+ 0. 2 20+ 0. 8 23+ 0 4 5+ 0. 6 8) / 5 = 58/ 5 = 11. 6 [ 10, 12] , 故模糊样本均值 Fx = [ 10, 12] 。由此可得, 人力雇用人数的模糊样本均值为 [ 10, 12] 这个区间。也就是说, 此机构于近期将成立新办事处的雇用人数, 参考 5 位主管的意见之后, 可以做出平均应该雇用 10 至 12 人的决策。定义 6 连续型模糊样本均值( 样本为连续型且均匀分布) 设 U 表示一个论域, 令 L = { L1, L2, , Lk} 为论域 U 上的 k 个语言变量, { xi = [ ai, bi] , i = 1, , n} 为论域 U 里的一组模糊样本, 则把模糊样本均值定义为: Fx = 1 n n i= 1 ai, 1 n n i= 1 bi ( 4)

三、模糊均值统计检验

由于模糊数据是对通常数的一种推广形式, 所以也可类似于度量空间中定义距离那样定义模糊数据之间的距离, 现给出模糊数据之间距离的定义。定义 7 模糊区间集合的距离设 A 表示具有隶属度函数 A( x ) = f ( x ) , 其支集( support) 是模糊区间集合[ al, au] ; B 表示具有隶属度函数 _B( y ) = g( y ) , 其支集是模糊区间集合 [ bl, bu] 。下面, 我们定义三种距离 d1( A , B) = inf{ | a - b | : a A , b B} ( 5) d2( A , B) = sup{ | a - b | : a A , b B} ( 6) d3( A , B) = inf{ | al- bl | , | au- bu| } ( 7)

(4)

定义 8 模糊等于设 A 表示具有隶属度函数 A( x ) = f ( x ) , 其支集是模糊区间集合[ al, au] ; B 表示具有隶属度函数 B( y ) = g( y ) , 其支集是模糊区间集合[ bl, bu] 。当 [ al, au] = [ bl, bu] 时, 则称 A 模糊等于 B , 写成 A = FB 。类似地, 可以给出无上界区间与无下界区间的模糊等于。定义 9 模糊属于设 A 表示具有隶属度函数 A( x ) = f ( x ) , 其支集是模糊区间集合[ al, au] ; B 表示具有隶属度函数 B( y ) = g( y ) , 其支集是模糊区间集合[ bl, bu] 。当 [ al, au] [ bl, bu] 时, 则称 A 模糊属于 B , 写成 A FB 。类似地, 可以给出无上界区间与无下界区间的模糊属于。设F 表示模糊数据样本总体均值, 我们想要检验在模糊检验水平下, 是否接受 H0: F = F 0 的假设, 其中 F 0 表示模糊总体均值。离散型模糊总体均值检验方法 1. 样本。设表示一个论域, 令{ Lj, j = 1, , k} 为论域上的 k 个语言变量, { xi, i = 1, , n} 为一组模糊随机样本, 且对每个样本 xi 相对于语言变量Lj有一标准化的隶属度mij 。令 Lmax- Lm in表示相对于语言变量的全距( 以 5 等级为例, 即为 5 - 1 = 4) 。 2. 统计假设。H0: F = F 0对 H1: F F 0。 3. 统计量。求此组模糊样本{ xi, i = 1, , n} 的模糊样本均值 FX 。计算样本均值与总体均值的反模糊化值 XF 与 0。 4. 决策准则。在模糊检验水平下, 当∣ XF -0 ∣ > ( Lmax- Lm in) 时, 则拒绝 H0。注意到, 对于左侧检验 H0: 0对 H1: > 0在模糊检验水平下, 决策法则为: 若 XF- 0 > ( Lmax- Lmin) , 则拒绝 H0。类似地, 可以给出右侧检验的情况。关于连续型模糊样本, 为了使符号一致, 我们直接说 F 等于某区间, 而不一定把它反模糊化。连续型模糊总体均值检验方法 1. 样本。设表示一个具有模糊均值[ a, b] 的论域, 令{ xi = [ xli, xui] , i = 1, , n} 为一组模糊区间随机样本。 2. 统计假设。H0: F = F[ a, b] 对 H1: F F[ a, b] 。 3. 统计量。计算 FX = [ xl, xu] 。 4. 决策准则。在模糊检验水平下, 计算 k = ( b - a) , 当 | Xl- a | > k 或 | Xu- b | > k 时, 则拒绝 H0。进行区间相等的检验时, 有时会遇到统计量落入事先假定的区间内情况, 但是可能由于区间相对过小, 得到拒绝等于的结论。因此, 我们必须考虑模糊属于检验, 以符合实际需要。有界样本的模糊属于检验 1. 统计假设。H0: F F F 0 对 H1: F FF 0。 2. 统计量。随机抽取一组模糊样本{ xi, i = 1, , n} , 计算 FX = [ xl, xu] 。 3. 决策准则。在模糊检验水平下, 计算 k = ( b - a) , 当 xl < a - k 或 xu > b + k 时, 拒绝 H0。

无下界样本( sample w ith no low er bound) 的模糊属于检验 1. 统计假设。H0: F F( - , b) 对 H1: F F(- , b) 。 2. 统计量。随机抽样一组模糊样本{ xi, i = 1, , n} , 计算 FX = (- , xu) 。 3. 决策准则。在模糊检验水平下, 令 k = b, 当 xu > b + k 时, 拒绝 H0。类似地, 可以给出无上界样本( sample w ith no upper bound) 的模糊属于检验。

四、应用实例

例 5: 哈尔滨市某农场主人想引进一种新品种的鸡, 作为炸鸡用途。只要大部分人试吃后的平均评价在普通以上, 他就决定引进大量繁殖。于是, 他随机找出 5 位顾客试吃, 然后依据语言变量给予隶属度, 数据整理如表 4 所示。表 4 农场主人想引进品种鸡的满意隶属度函数试吃者 1 = 很不满意 2 = 不满意 3 = 普通 4 = 满意 5 = 很满意 A 0 0 0 0. 3 0. 7 B 0 0 0 0 1 C 0 0. 4 0. 6 0 0 D 0 0 0 0. 8 0. 2 E 0. 1 0. 9 0 0 0 我们将此问题化成假设检验H0: _f 3 对 H1: f > 3。经计算得, Xf = 3. 68。在模糊检验水平 = 0. 1 下, k = 0. 1 ( 5- 1) 。当 Xf - _f = 0. 68 > 0 4, 故拒绝 H0, 因此, 他决定引进该新品种的鸡。例 6: 南京市某大公司人力资源部提出, 现今 20 岁至 26 岁的年轻人要求平均年薪待遇为 2万至 4 万元。统计主管想要检验此报告是否属实, 于是, 随机

(5)

找出 6 位 20 至 26 岁的年轻人调查, 得到他们所要求的待遇分别为 [ 3, 4] , [ 1. 8, 2] , [ 2, 3] , [ 4, 6] , [ 2, 2. 5] , [ 2. 5, 3] , 统计假设 H0: F = F[ 2, 4] 对 H1: F F[ 2, 4] 。根据模糊样本均值定义可得 FX = [ xl, xu] = 3+ 1. 8+ 2+ 4+ 2+ 2. 5 6 , 4+ 2+ 3+ 6+ 2. 5+ 3 6 = [ 2. 55, 3. 42] 。在模糊检验水平 = 0. 1 下, 计算 k = 01 ( 4 - 2) = 0. 2 。当 2. 55 > 2 0. 2, 3. 42 < 4 0. 2 时, 拒绝人力资源部平均年薪待遇为 2 万至 4 万元的说法。[2. 46, 3. 42] 落于[ 2, 4] 区间, F F[ 2, 4] , 也就是 20 岁至 26 岁的年轻人要求平均年薪待遇区间属于 2 万至 4 万元区间。

五、结

论

本文给出的一些模糊数据统计分析方法, 为如何从模糊数据中运用统计分析方法提取并揭示有用信息提供一种具有可操作性、应用广泛的一套方法。实际上, 还有许多方法或方面尚未讨论到。例如, 连续型模糊数据期望值, 仅仅讨论隶属函数形式为均匀分布及单峰对称两种情况, 而对于其他函数形式诸如 S 函数、Z 函数、梯形函数等则没有探讨; 对于如何选取适当的显著性水平, 进行一般模糊数据的大于或等于还尚未提出一套合理而方便的准则; 在描述统计量方面, 尽管模糊中位数已有研究, 但是关于模糊数据期望值、模糊方差等仍有许多问题有待解决。参考文献:

[ 1] K wakernaak H. Fuzzy Random Var iables. P art I: definition and theo rems[ J] . Info rmation Science, 1978( 2) : 1- 29. [ 2] Kw akernaak H . Fuzzy Rando m V ariables. P art II: alg o rithms and ex amples for the discrete case [ J] . Info rmation

Science, 1979( 3) : 253- 278.

[ 3] K ruse R, M ey er K D. Stat istics wit h V ag ue Data[ M ] . Reidel Do rdrecht, 1987: 3- 9.

[ 4] P ur i M L , R alescu D A . Fuzzy Random V ariables[ J] . Jo ur nal of M athematical A naly sis and A pplicatio ns, 1986( 2) : 409 - 422.

[ 5] Zhong C, Zho u G. T he Equiv alence o f T wo Definition of Fuzzy Random V ariables[ C] . T o kyo: In P roceedingd o f the 2nd Internatio nal Fuzzy Systems Association Co nf er ence, 1987: 50- 62.

[ 6] K lir G, Y uan B. Fuzzy Sets and F uzzy L og ic: T heo ry and A pplications[ M ] . P rentice- H all, U pper Saddle Riv er, N J. 1995: 21- 49.

Research on Methodology and Applications of Mean Analysis of Fuzzy Data WA N G Zhong- yu1, WU Bo- lin2

( 1. School of Economics and M anag ement, Har bin U niv ersit y of T echnolog y, H ar bin 150001, China; 2. Department of A pplied M athemat ics, N ational Chengchi U niver sity , T aipei 11605, China)

Abstract: St at ist ical data ar e fr equent ly not precise number s. T his paper int roduces the Zadeh t ype of fuzzy data, discusses f uzzy sample m ean and t he test o f it , and gives a def init ion of f uzzy equality and fuzzy belonging, put s fo rw ard test of populat ion mean w it h f uzzy dat a of discret e t ype and cont inuous t ype, as w ell as illust rat es w ith several examples on t he applicatio ns of t he met hods proposed in t his paper.

Key words: fuzzy dat a; sample mean of f uzzy dat a; t est o f po pulation m ean o f fuzzy dat a