• 沒有找到結果。

模糊數據均值方法及應用研究

N/A
N/A
Protected

Academic year: 2021

Share "模糊數據均值方法及應用研究"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)

V ol. 25 N o. 10 St at ist ics & Info rmat ion Fo rum O ct. , 2010 收稿日期: 2010- 05- 21; 修复日 期: 2010- 07- 26 基金项目: 2009 年度黑龙江省博士后 科研启动金资助项目 模糊数据统计方法及应用研究 ( L BH- Q 09113) 。 作者简介: 王忠玉 ( 1963- ) , 男, 黑龙江哈尔滨人, 理学博士, 副教授, 研究方向: 应用统计、经济计量学。 吴柏林 ( 1955- ) , 男, 台湾人, 理学博士, 教授, 研究方向: 应用统计、时间序列和人工智能。 统计理论与方法

模糊数据均值方法及应用研究

王忠玉

1

, 吴柏林

2 ( 1. 哈尔滨工业大学 经济与管理学院, 黑龙江 哈尔滨 150001; 2. 台湾政治大学 应用数学系, 台湾 台北 11605) 摘要: 提出一种 Zadeh 式模糊数据, 并探讨这种模糊数据的模 糊样本均 值及其统计 检验问题, 给 出模糊 等于、模糊属于的定义, 提出离散型和连续型模糊总体均 值检验方法, 并利用一些实例阐述了此类统计方法的 应用。 关键词: 模糊数据; 模糊样本均值; 模糊总体均值检验方法 中图分类号: C81 文献标志码: A 文章编号: 1007- 3116( 2010) 10- 0013- 05

一、模糊数据产生背景与模糊数

在自然科学和社会科学研究中, 许多测算或测 量结果往往不是精确的实数或者向量, 而或多或少 是非精确的( non- precise) 数或向量。例如, 环境学 中许多测算都和大量的不确定性有关。比如, 空气 中某种化学农药的浓度, 对其测量就是不精确的或 者模糊的。这类不确定性不同于测量误差。另外, 人的感知认识描述也是模糊的, 如对事物外形及颜 色的表述等。对这类模糊数据的利用与建模而言, 一种有效方法是把模糊集合理论、统计学、软计算方 法结合起来。 近 10 多年来, 已出版的大量文献致力于扩展已 有的概率论及统计学, 包括数理统计学。这些探索 工作的一个共同特性是对经典理论进行 软化 。这 些软化方法使用诸如模糊集合理论、可能性理论, 还 有一些其它方法, 比如 Dempster - Shafer 理论( 又 称证据理论) 。 模糊数据统计分析是模糊数学、软计算、统计学 交叉融合而形成的一门新兴统计学分支。模糊数学 理论对统计分析和建模产生了深远而广泛的影响, 其中 最 成 功 事 例 包 括 模糊 聚 类, 比 如 贝 兹 德 克 ( Bezdek) 和模糊回归分析, 比如田中( T anaka) 等。 模糊随机变量 术语是首先由 Kw aker naak 引 入的, 而后 Kr use 和 M eyer 对其加以精练发展[ 1- 3] 在这种理论中, 模糊随机变量( KKM ) 被解释成经典 随机变量的模糊感知( fuzzy perceptions) , 尽管很多 语言标签被解释成其基础变量的模糊感知。另一发 展方向是将模糊集合处理成 第一类结果。Puri 和 R alescu 将模糊 随机变 量考虑 成映 射 X : FP R ( Rn) , 其中FPR( Rn) 表示函数集 f : Rn [ 0, 1] , 使 得{ x Rn: f ( x ) } 是非空的且紧的, 对于所有 0 < 1[ 4]。对于上述两个框架来说, 第二种框架 更具有 一 般 性, 但在 一 些 合 理 假 设 下, Zhong 和 Zhou 已经证明, 这两个框架是等价的[ 5]。不过, 其 主要差异看起来在风 格上, 即 Kw akernaak 的框架 是以实分析为导向的, 而 P ur i 和 Ralescu 的框架则 是以拓扑为导向的。在两种框架背景下, 都可以给 出统计学中 合理 的模糊 对应 部分, 诸如 期望 值和 方差。 关于模糊数的定义, 许多学者对此有着极为一 致的观点, 诸如 Zadeh、Puri 和 Ralescu 以及 Klir 和 Y uan 的书都曾给出模糊数定义[ 6]。

定义 1 模 糊数: 模糊 数是一 个映射 f : R [ 0, 1] , 使得: ( a) f 是正规的, 也就是 x R, 使 得 f ( x ) = 1; ( b) f 是一个凸的, 也就是 f 的 截

(2)

集是一个闭区间, 对于 ( 0, 1) ; ( c) f = { x R: f ( x ) > 0 } 支集是有界的。

二、模糊样本均值

本文提出一种 Zadeh 式模糊数据, 这种定义 既满足以往模糊数的定义, 又具有广泛的、可操作的 应用前景。 定义 2 模糊数据: 设 U 表示论域, 令{ A1, A2, , An} 表示 U 的子集。u 表示一个对应到[ 0, 1] 间 的实数函数, 即 u: U [ 0, 1] 。假定论域 U 上存在 一个 陈 述 X , 其 相 对 于 子 集 的 隶 属 度 函 数 以 { 1( X ) , 2( X ) , , n( X ) } 表示, 则在离散情况下, 陈述 X 的模糊数据可表示成: U( X ) = 1( X ) A1 + 2( X ) A2 + + n( X ) An ( 1) 其中 + 表示衔接符号, 并不 表示加法含义, t( X ) At 表示陈述 X 隶属于子集 Ai 的程度。当 U 为连续时, 陈述 X 的模糊数据可表示成: ( X ) = x X t( X ) At ( 2) 例 1: 哈 尔滨市居民对 松花江 工 业园区排 污 段 水域恶臭感觉的模糊数据表示。假定 X 表示哈 尔滨市沿岸居民对松花江 工业园区排污段 水域 恶臭的感觉, 并用模糊数据表示为 U( X ) 。假定论 域 U = { 1 = 很严重, 2 = 严重, 3 = 普通, 4 = 轻度, 5 = 无影 响} 。若 X 的感 觉隶属 度函数 为 { 1( X ) = 0. 25, 2( X ) = 0. 6, 3( X ) = 0. 1, 4( X ) = 0. 05, 5( X ) = 0 } , 亦可以模糊数据表示 为 U( X ) = 0. 25 1 + 0. 6 2 + 0. 1 3 + 0. 05 4 + 0 5。 定义 3 三角形隶属度函数的计算 设 U 表示其论域, { Xi: i = 1, , n} 为一组模 糊样本。给定 U 的一个有序分割集合, { Pj: j = 1, , r} , 且其相对于语言变量为{ Lj: j = 1, , r } 。 设 mj 为其分割集合 Pj的中间值, 若 Xi介于 mj 与 mj+ 1 之 间, 则 其 属 于 语 言 变 量 Lj 的 隶 属 度 为 mj + 1- Xt mj + 1- mj, 属 于 语 言 变 量 L j+ 1 的 隶 属 度 为 Xi - mj+ 1 mj + 1- mj。 例 2: 计算股市成交股数对应量的语言 变量的 隶属度。设{ Xi} = { 16, 34, 58, 70, 88} ( 单位: 千 万) 表示上海股市中五只股票在某个月成交股数, 若选择一次序分割集合 U = { [ 0, 20] , [ 20, 40] , [ 40, 60] , [ 60, 80] , [ 80, 100] } , 其相对应的语言 变量为: 微量 = L1 [ 0, 20) , 小量 = L2 [ 20, 40) , 普通 = L3 [ 40, 60) , 大量 = L4 [ 60, 80) , 巨量 = L5 [ 80, 100) , 其中 表示相对于。再取各 分割集 合的中间值为{ m1 = 10, m2 = 30, m3 = 50, m4 = 70, m5 = 90} , 其相对应的语言变量为 { L1, L2, L3, L4, L5} 。因为 X1 = 16 介于 10 与 30 之间, 可计算出 X1 相对于 L1 及 L2 的隶属度如下: 30- 16 30- 10 = 0. 7 L1, 16 - 10 30 - 10= 0. 3 L2 同理, 可以得到{ Xi} 中每一个元素相对于语言 变量的隶属度, 如表 1 所示。 表 1 { Xi} 相对于语言变量{ Lj} 的隶属度 L1 L2 L3 L4 L5 X1 = 16 0. 7 0. 3 0 0 0 X2 = 34 0 0. 8 0. 2 0 0 X3 = 58 0 0 0. 6 0. 4 0 X4 = 70 0 0 0 1 0 X5 = 88 0 0 0 0. 1 0. 9 定义 4 离散型模糊样本均值 设 U 表示一个论域, 令 L = { L1, L2, , Lk} 为 论域 U 上的 k 个语言变量, { xt = m i1 L1 + mi2 L2 + + mik Lk, i = 1, 2, , n} 为一组模糊样本( k j = 1 mij = 1) ,

则把模糊样本均值( fuzzy sample m ean) 定义为

Fs = 1 n n i= 1 mi1 L1 + 1 n n i= 1 mi2 L2 + + 1 n n i= 1 mik Lk ( 3) 其中 mij 为第i 个样本相对于语言变量Lj 的隶属度。 例 3: 离散型模糊均值应用于商品满意度调查。 一种新上市的商品, 商品厂商打算探讨消费者的满 意程度, 在街头邀 5 位消费者 A、B、C、D、E 作一个调 查, 每位消费者对商品满意度的隶属度, 如表 2。 表 2 5 位受访者对商品满意度的隶属度选择 满意程度 L1很不满意 L2不满意 L3普通 L4满意 L5很满意 A 0 0. 5 0. 5 0 0 B 0 0 0. 8 0. 2 0 C 0 0. 3 0. 7 0 0 D 0 0 0 0. 9 0. 1 E 0 0 0. 2 0. 8 0 则模糊样本均值为: Fx = 1 5( 0 + 0+ 0 + 0 + 0) 很不满意 +

(3)

1 5( 0. 5 + 0+ 0. 3 + 0+ 0) 不满意 + 1 5( 0. 5 + 0. 8 + 0. 7+ 0 + 0. 2) 普通 + 1 5( 0+ 0. 2+ 0 + 0. 9+ 0. 8) 满意 + 1 5( 0+ 0 + 0 + 0+ 0. 1) 很满意 = 很不满意 +0 不满意 +0. 16 0. 44普通 + 0. 38 满意+ 0. 02 很满意 此模糊样本均值所代表的意义为: 很满意 的 隶属度为 0. 02, 满意 的隶属度为 0. 38, 普通 的 隶属度为 0. 44, 不满意 的隶属度为 0. 16, 很不满 意 的隶属度为 0。此模糊均值是一个模糊数据, 表 现出此商品的平均满意度最可能为 普通 , 其次为 满意 。 定义 5 等距尺度离散型模糊样本均值 设 U 表示一个论域, 令{ L1, L2, , Lk} 为论域 U 上的k 个等距尺度变量, { x1, x2, , xn} 为一组模 糊样本, 且每个样本 xi 相对于变量 Li 的隶属度为 mij, 其中 k i= 1 mij = 1。令 Mj 为Lj的组中点, 若 Fx = 1 n n i= 1 k j = 1 mijMj Lj, 则把模糊样本{ x1, x2, , xn} 的模糊样本均值定义为 Fx = Lk。 例 4: 人力雇用数量的模糊样本均值 哈尔滨某机构于近期在上海市拟定成立新办事 处, 对于规模大小欲拟定 人力雇用计划, 于是召集 A 、B、C、D、E 5 位相关主管进行意见调查。5 位专家 根据给定的人数选项所做出的选择及个别的隶属度 如表 3。 表 3 5 位主管对应于各选项的隶属度选择 人数 1 ~ 3 4 ~ 6 7 ~ 9 10 ~ 12 13 ~ 15 16 ~ 18 19 ~ 21 22 ~ 24 A 0. 4 0. 6 0 0 0 0 0 0 B 0 0 0. 3 0. 7 0 0 0 0 C 0 0 0 0 0. 7 0. 3 0 0 D 0 0 0 0 0 0 0. 2 0. 8 E 0 0. 4 0. 6 0 0 0 0 0 由于这 5 位主管有各自的观念及考虑, 造成对 雇用人数的差异。若要从此样本中得到雇用人数, 又 要忠实地反映样本的信息, 那么使用模糊样本均值 是不错的方法。计算如下: 令 Mj 为人数区间的组中点: { 2, 5, 8, 11, 14, 17, 20, 23} , Fx = ( 0. 4 2+ 0. 6 5+ 0. 3 8+ 0 7 11+ 0. 7 14+ 0. 3 17+ 0. 2 20+ 0. 8 23+ 0 4 5+ 0. 6 8) / 5 = 58/ 5 = 11. 6 [ 10, 12] , 故模糊 样本均值 Fx = [ 10, 12] 。 由此可得, 人 力雇用 人数 的模糊 样本 均值 为 [ 10, 12] 这个区间。也就是说, 此机构于近期将成立 新办事处的雇用人数, 参考 5 位主管的意见之后, 可 以做出平均应该雇用 10 至 12 人的决策。 定义 6 连续型模糊样本均值( 样本为连续型 且均匀分布) 设 U 表示一个论域, 令 L = { L1, L2, , Lk} 为 论域 U 上的 k 个语言变量, { xi = [ ai, bi] , i = 1, , n} 为论域 U 里的一组模糊样本, 则把模糊样本均值 定义为: Fx = 1 n n i= 1 ai, 1 n n i= 1 bi ( 4)

三、模糊均值统计检验

由于模糊数据是对通常数的一种推广形式, 所 以也可类似于度量空间中定义距离那样定义模糊数 据之间的距离, 现给出模糊数据之间距离的定义。 定义 7 模糊区间集合的距离 设 A 表示具有隶属度函数 A( x ) = f ( x ) , 其支 集( support) 是模糊区间集合[ al, au] ; B 表示具有隶 属度函数 B( y ) = g( y ) , 其支集是模 糊区间集合 [ bl, bu] 。下面, 我们定义三种距离 d1( A , B) = inf{ | a - b | : a A , b B} ( 5) d2( A , B) = sup{ | a - b | : a A , b B} ( 6) d3( A , B) = inf{ | al- bl | , | au- bu| } ( 7)

(4)

定义 8 模糊等于 设 A 表示具有隶属度函数 A( x ) = f ( x ) , 其支 集是模糊区间集合[ al, au] ; B 表示具有隶属度函数 B( y ) = g( y ) , 其支集是模糊区间集合[ bl, bu] 。当 [ al, au] = [ bl, bu] 时, 则称 A 模糊等于 B , 写成 A = FB 。类似地, 可以给出无上界区间与无下 界区间 的模糊等于。 定义 9 模糊属于 设 A 表示具有隶属度函数 A( x ) = f ( x ) , 其支 集是模糊区间集合[ al, au] ; B 表示具有隶属度函数 B( y ) = g( y ) , 其支集是模糊区间集合[ bl, bu] 。当 [ al, au] [ bl, bu] 时, 则称 A 模糊属于 B , 写成 A FB 。类似地, 可以给出无上界区间与无下 界区间 的模糊属于。 设F 表示模糊数据样本总体均值, 我们想要检 验在模糊检验水平 下, 是否接受 H0: F = F 0 的 假设, 其中 F 0 表示模糊总体均值。 离散型模糊总体均值检验方法 1. 样本。设 表示一个论域, 令{ Lj, j = 1, , k} 为论域 上的 k 个语言变量, { xi, i = 1, , n} 为 一组模糊随机样本, 且对每个样本 xi 相对于语言变 量Lj有一标准化的隶属度mij 。令 Lmax- Lm in表示相 对于语言变量的全距( 以 5 等级为例, 即为 5 - 1 = 4) 。 2. 统计假设。H0: F = F 0对 H1: F F 0。 3. 统计量。求此组模糊样本{ xi, i = 1, , n} 的 模糊样本均值 FX 。计算样本均值与总体均值的反 模糊化值 XF 与 0。 4. 决策准则。在模糊检验水平 下, 当∣ XF -0 ∣ > ( Lmax- Lm in) 时, 则拒绝 H0。注意到, 对于 左侧检验 H0: 0对 H1: > 0在模糊检验水平 下, 决策法则为: 若 XF- 0 > ( Lmax- Lmin) , 则拒 绝 H0。类似地, 可以给出右侧检验的情况。 关于连续型模糊样本, 为了使符号一致, 我们直 接说 F 等于某区间, 而不一定把它反模糊化。 连续型模糊总体均值检验方法 1. 样本。设 表示一个具有模糊均值[ a, b] 的 论域, 令{ xi = [ xli, xui] , i = 1, , n} 为一组模糊区 间随机样本。 2. 统 计 假 设。H0: F = F[ a, b] 对 H1: F F[ a, b] 。 3. 统计量。计算 FX = [ xl, xu] 。 4. 决策准则。在模糊检验水平 下, 计算 k = ( b - a) , 当 | Xl- a | > k 或 | Xu- b | > k 时, 则拒 绝 H0。 进行区间相等的检验时, 有时会遇到统计量落 入事先假定的区间内情况, 但是可能由于区间相对 过小, 得到拒绝等于的结论。因此, 我们必须考虑模 糊属于检验, 以符合实际需要。 有界样本的模糊属于检验 1. 统 计 假 设。H0: F F F 0 对 H1: F FF 0。 2. 统计量。随机抽取一组模糊样本{ xi, i = 1, , n} , 计算 FX = [ xl, xu] 。 3. 决策准则。在模糊检验水平 下, 计算 k = ( b - a) , 当 xl < a - k 或 xu > b + k 时, 拒绝 H0。

无下界样本( sample w ith no low er bound) 的 模糊属于检验 1. 统计假 设。H0: F F( - , b) 对 H1: F F(- , b) 。 2. 统计量。随机抽样一组模糊样本{ xi, i = 1, , n} , 计算 FX = (- , xu) 。 3. 决策准则。在模糊检验水平 下, 令 k = b, 当 xu > b + k 时, 拒绝 H0。 类似地, 可以给出无上界样本( sample w ith no upper bound) 的模糊属于检验。

四、应用实例

例 5: 哈尔滨市某农场主人想引进一种新品种 的鸡, 作为炸鸡用途。只要大部分人试吃后的平均评 价在普通以上, 他就决定引进大量繁殖。于是, 他随 机找出 5 位顾客试吃, 然后依据语言变量给予隶属 度, 数据整理如表 4 所示。 表 4 农场主人想引进品种鸡的满意隶属度函数 试吃者 1 = 很不满意 2 = 不满意 3 = 普通 4 = 满意 5 = 很满意 A 0 0 0 0. 3 0. 7 B 0 0 0 0 1 C 0 0. 4 0. 6 0 0 D 0 0 0 0. 8 0. 2 E 0. 1 0. 9 0 0 0 我们将此问题化成假设检验H0: f 3 对 H1: f > 3。经计算得, Xf = 3. 68。在模糊检验水平 = 0. 1 下, k = 0. 1 ( 5- 1) 。当 Xf - f = 0. 68 > 0 4, 故拒绝 H0, 因此, 他决定引进该新品种的鸡。 例 6: 南京市某大公司人力资源部提出, 现今 20 岁至 26 岁的年轻人要求平均年薪待遇为 2万至 4 万 元。统计主管想要检验此报告是否属实, 于是, 随机

(5)

找出 6 位 20 至 26 岁的年轻人调查, 得到他们所要求 的待遇 分别为 [ 3, 4] , [ 1. 8, 2] , [ 2, 3] , [ 4, 6] , [ 2, 2. 5] , [ 2. 5, 3] , 统计假设 H0: F = F[ 2, 4] 对 H1: F F[ 2, 4] 。 根据模糊样本均值定义可得 FX = [ xl, xu] = 3+ 1. 8+ 2+ 4+ 2+ 2. 5 6 , 4+ 2+ 3+ 6+ 2. 5+ 3 6 = [ 2. 55, 3. 42] 。 在模糊检验水平 = 0. 1 下, 计算 k = 01 ( 4 - 2) = 0. 2 。当 2. 55 > 2 0. 2, 3. 42 < 4 0. 2 时, 拒绝人力资源部平均年薪待遇为 2 万至 4 万元 的说法。[2. 46, 3. 42] 落于[ 2, 4] 区间, F F[ 2, 4] , 也就是 20 岁至 26 岁的年轻人要求平均年薪待 遇区间属于 2 万至 4 万元区间。

五、结

本文给出的一些模糊数据统计分析方法, 为如 何从模糊数据中运用统计分析方法提取并揭示有用 信息提供一种具有可操作性、应用广泛的一套方法。 实际上, 还有许多方法或方面尚未讨论到。例如, 连 续型模糊数据期望值, 仅仅讨论隶属函数形式为均 匀分布及单峰对称两种情况, 而对于其他函数形式 诸如 S 函数、Z 函数、梯形函数等则没有探讨; 对于 如何选取适当的显著性水平, 进行一般模糊数据的 大于或等于还尚未提出一套合理而方便的准则; 在 描述统计量方面, 尽管模糊中位数已有研究, 但是关 于模糊数据期望值、模糊方差等仍有许多问题有待 解决。 参考文献:

[ 1] K wakernaak H. Fuzzy Random Var iables. P art I: definition and theo rems[ J] . Info rmation Science, 1978( 2) : 1- 29. [ 2] Kw akernaak H . Fuzzy Rando m V ariables. P art II: alg o rithms and ex amples for the discrete case [ J] . Info rmation

Science, 1979( 3) : 253- 278.

[ 3] K ruse R, M ey er K D. Stat istics wit h V ag ue Data[ M ] . Reidel Do rdrecht, 1987: 3- 9.

[ 4] P ur i M L , R alescu D A . Fuzzy Random V ariables[ J] . Jo ur nal of M athematical A naly sis and A pplicatio ns, 1986( 2) : 409 - 422.

[ 5] Zhong C, Zho u G. T he Equiv alence o f T wo Definition of Fuzzy Random V ariables[ C] . T o kyo: In P roceedingd o f the 2nd Internatio nal Fuzzy Systems Association Co nf er ence, 1987: 50- 62.

[ 6] K lir G, Y uan B. Fuzzy Sets and F uzzy L og ic: T heo ry and A pplications[ M ] . P rentice- H all, U pper Saddle Riv er, N J. 1995: 21- 49.

Research on Methodology and Applications of Mean Analysis of Fuzzy Data WA N G Zhong- yu1, WU Bo- lin2

( 1. School of Economics and M anag ement, Har bin U niv ersit y of T echnolog y, H ar bin 150001, China; 2. Department of A pplied M athemat ics, N ational Chengchi U niver sity , T aipei 11605, China)

Abstract: St at ist ical data ar e fr equent ly not precise number s. T his paper int roduces the Zadeh t ype of fuzzy data, discusses f uzzy sample m ean and t he test o f it , and gives a def init ion of f uzzy equality and fuzzy belonging, put s fo rw ard test of populat ion mean w it h f uzzy dat a of discret e t ype and cont inuous t ype, as w ell as illust rat es w ith several examples on t he applicatio ns of t he met hods proposed in t his paper.

Key words: fuzzy dat a; sample mean of f uzzy dat a; t est o f po pulation m ean o f fuzzy dat a

參考文獻

相關文件

„ 傳統上市場上所採取集群分析方法,多 為「硬分類(Crisp partition)」,本研 究採用模糊集群鋰論來解決傳統的分群

Then, it is easy to see that there are 9 problems for which the iterative numbers of the algorithm using ψ α,θ,p in the case of θ = 1 and p = 3 are less than the one of the

This bioinformatic machine is a PC cluster structure using special hardware to accelerate dynamic programming, genetic algorithm and data mining algorithm.. In this machine,

根據研究背景與動機的說明,本研究主要是探討 Facebook

蔣松原,1998,應用 應用 應用 應用模糊理論 模糊理論 模糊理論

表 2.1 停車場經營管理模型之之實證應用相關文獻整理 學者 內容 研究方法 結論

The scenarios fuzzy inference system is developed for effectively manage all the low-level sensors information and inductive high-level context scenarios based

譚志忠 (1999)利用 DEA 模式研究投資組合效率指數-應用