[0045] 下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
[0046] 实施例1
[0047] 如图1所示,基于多中心云计算的数据分析系统,所述系统包括:
[0048] 数据采集单元,配置用于采集原始数据;
[0049] 数据映射单元,配置用于对原始数据进行多空间映射,得到在每个空间下的映射值,基于得到的映射值,针对每个原始数据建立多空间映射集合;
[0050] 多个并联的云计算单元,云计算单元的数量与进行多空间映射所使用的的空间数量相同,每个云计算单元针对每个原始数据,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度,在所有的云计算单元完成在其对应空间下的归一化近似度计算后,统计近似度高于设定阈值的空间映射值的数量,该数量作为该原始数据与相邻原始数据的数据亲和度;所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据;
[0051] 数据分析单元,配置用于将数据亲和度超过设定的阈值的两个原始数据进行归类,作为一个类别;完成归类后,针对所有类别的原始数据,计算得到聚类中心,基于计算得到的聚类中心,进行聚类分析。
[0052] 采用上述技术方案,本发明利用多个云计算单元针对原始数据在多个空间下的近似度分析,得出原始数据彼此之间的数据亲和度,在此基础上,再对原始数据进行聚类分析,其数据分析的结果更加准确,数据分析效率更高;主要通过以下过程实现:1.多空间映射:本发明通过多空间映射实现了将原始数据分解到各个空间中,在针对各个空间的映射值进行后续的数据处理,相较于传统的单纯地针对数据进行处理,其数据处理的结果更能反映数据本身的特征,因为将数据进行映射后,相当于对数据进行了分解,针对分解后的各个子量,即映射后的值更能从多角度反映原始数据;2.聚类中心的获取,本发明进行聚类分析时,相较于传统的聚类算法,首选得到原始数据的聚类中心,在后续的聚类分析过程中,基于该聚类中心进行聚类分析,分析结果更加准确;3.本发明通过计算空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法来得到数据亲和度,而不是简单的进行数据类比,其获得的结果更加准确。
[0053] 实施例2
[0054] 在上一实施例的基础上,所述数据分析单元计算得到聚类中心包括以下步骤:类别总数记为G,通过如下公式,计算得到聚类中心
[0055]
[0056]
[0057] 其中,G为类别总数,c为聚类数,N为样本总数,UG表示第G个维度下的隶属度矩G G阵 ,V 表示第G个维度下的聚类中心,X 表示第G个维度小的聚类样本,
表示第G个维度下的第i类的中心点,d为样本的维度数,
xj,G表示第G个维度下的第j个样本点,μij,G表示第G个维度下的第j个样本属于第i类的隶属度,m为调整系数,必须满足m<1:根据建立的聚类中心, 为聚类中心。
[0058] 具体的,聚类与分类的不同在于,聚类所要求划分的类是未知的。
[0059] 聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
[0060] 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k‑均值、k‑中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
[0061] 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
[0062] 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
[0063] 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
[0064] 实施例3
[0065] 在上一实施例的基础上,所述数据分析单元基于建立的聚类中心,进行聚类分析包括以下步骤:计算每个原始数据距离聚类中心的距离;根据计算出的距离,得到该原始数据的坐标点;将得到的所有的坐标点组成一个集合,作为原始数据坐标点集合;在得到的原始数据坐标点结合上,再进行聚类分析。
[0066] 实施例4
[0067] 在上一实施例的基础上,所述云计算单元,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤:设定每个空间映射值的距离变换函数为:
[0068] 其中,d(p,q)表示每个空间映射值的欧氏距离的集合,p和q分别表示每个原始数据的横坐标和纵坐标;空间映射值Da(p)表示空间映射值的纵坐标,Db(q)表示空间映射值的横坐标,Ib表示横坐标的范围值,其取值范围为{2~10};hb位纵坐标的范围值,其取值范围为{3~12}。
[0069] 具体的,映射空间亦称函数空间,拓扑学的一个基本概念。它是一类重要的拓扑空间,设X,Y是集合,F为X到Y的映射组成的族,在F上引入拓扑使之成为拓扑空间,则称F为映射空间。在映射空间理论中常见的拓扑有点态收敛拓扑、紧开拓扑、一致收敛拓扑、紧收敛拓扑等。
[0070] 实施例5
[0071] 在上一实施例的基础上,所述云计算单元计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法包括:设定目标原始数据的坐标为:(x′n,,y′n);将该作为视为混沌系统中的一个点,并得到该点的混沌映射方程为: 其中,进而通过如下公式,得到目标原始数据与其他相邻原始数据进行分析计算的顺序方程为:
[0072] 其中,xn和yn为下一个进行分析计算的原始数据的横坐标和纵坐标;x′n和y′n为当前进行分析计算的原始数据的横坐标和纵坐标;a为第一调整参数,范围为:(1~5);c为第一调整系数,范围为(1.1~1.5);b为第二调整参数,范围为:(1~5);d为第二调整系数,范围为(1.1~1.5)。
[0073] 具体的,本发明利用多个云计算单元针对原始数据在多个空间下的近似度分析,得出原始数据彼此之间的数据亲和度,在此基础上,再对原始数据进行聚类分析,其数据分析的结果更加准确,数据分析效率更高;主要通过以下过程实现:1.多空间映射:本发明通过多空间映射实现了将原始数据分解到各个空间中,在针对各个空间的映射值进行后续的数据处理,相较于传统的单纯地针对数据进行处理,其数据处理的结果更能反映数据本身的特征,因为将数据进行映射后,相当于对数据进行了分解,针对分解后的各个子量,即映射后的值更能从多角度反映原始数据;2.聚类中心的获取,本发明进行聚类分析时,相较于传统的聚类算法,首选得到原始数据的聚类中心,在后续的聚类分析过程中,基于该聚类中心进行聚类分析,分析结果更加准确;3.本发明通过计算空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法来得到数据亲和度,而不是简单的进行数据类比,其获得的结果更加准确。
[0074] 实施例6
[0075] 在上一实施例的基础上,所述数据分析单元在进行归类时,将遍历整个原始数据,同一类别中,存在多个原始数据。
[0076] 实施例7
[0077] 如图2所示,一种基于多中心云计算的数据分析方法,所述方法执行以下步骤:
[0078] 步骤1:采集原始数据;
[0079] 步骤2:对原始数据进行多空间映射,得到在每个空间下的映射值,基于得到的映射值,针对每个原始数据建立多空间映射集合;
[0080] 步骤3:建立多个并联的云计算单元,云计算单元的数量与进行多空间映射所使用的的空间数量相同,每个云计算单元针对每个原始数据,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度,在所有的云计算单元完成在其对应空间下的归一化近似度计算后,统计近似度高于设定阈值的空间映射值的数量,该数量作为该原始数据与相邻原始数据的数据亲和度;所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据;
[0081] 步骤4:将数据亲和度超过设定的阈值的两个原始数据进行归类,作为一个类别;完成归类后,针对所有类别的原始数据,计算得到聚类中心,基于计算得到的聚类中心,进行聚类分析。
[0082] 实施例8
[0083] 在上一实施例的基础上,所述计算得到聚类中心包括以下步骤:类别总数记为G,通过如下公式,计算得到聚类中心
[0084]
[0085]
[0086] 其中,G为类别总数,c为聚类数,N为样本总数,UG表示第G个维度下的隶属度矩G G阵 ,V 表示第G个维度下的聚类中心,X 表示第G个维度小的聚类样本,
表示第G个维度下的第i类的中心点,d为样本的维度数,
xj,G表示第G个维度下的第j个样本点,μij,G表示第G个维度下的第j个样本属于第i类的隶属度,m为调整系数,必须满足m<1:根据建立的聚类中心, 为聚类中心。
[0087] 具体的,多空间映射实现了将原始数据分解到各个空间中,在针对各个空间的映射值进行后续的数据处理,相较于传统的单纯地针对数据进行处理,其数据处理的结果更能反映数据本身的特征,因为将数据进行映射后,相当于对数据进行了分解,针对分解后的各个子量,即映射后的值更能从多角度反映原始数据。
[0088] 实施例9
[0089] 在上一实施例的基础上,所述基于建立的聚类中心,进行聚类分析包括以下步骤:计算每个原始数据距离聚类中心的距离;根据计算出的距离,得到该原始数据的坐标点;将得到的所有的坐标点组成一个集合,作为原始数据坐标点集合;在得到的原始数据坐标点结合上,再进行聚类分析。
[0090] 实施例10
[0091] 在上一实施例的基础上,所述云计算单元,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤:设定每个空间映射值的距离变换函数为:
[0092] 其中,d(p,q)表示每个空间映射值的欧氏距离的集合,p和q分别表示每个原始数据的横坐标和纵坐标;空间映射值Da(p)表示空间映射值的纵坐标,Db(q)表示空间映射值的横坐标,Ib表示横坐标的范围值,其取值范围为{2~10};hb位纵坐标的范围值,其取值范围为{3~12}。
[0093] 参考图3和图4,相较于现有技术,本发明利用多个云计算单元针对原始数据在多个空间下的近似度分析,得出原始数据彼此之间的数据亲和度,在此基础上,再对原始数据进行聚类分析,其数据分析的结果更加准确,数据分析效率更高。
[0094] 所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0095] 需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
[0096] 所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0097] 本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD‑ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0098] 术语“第一”、“另一部分”等是配置用于区别类似的对象,而不是配置用于描述或表示特定的顺序或先后次序。
[0099] 术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者单元/装置所固有的要素。
[0100] 至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术标记作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
[0101] 以上所述,仅为本发明的较佳实施例而已,并非配置用于限定本发明的保护范围。