数据挖掘套件
分析:实时统计、即时分析、清晰呈现。降低数据分析门槛、提高产品决策效率。
工具:稳定高效的推送工具,高性能开源。数据库使您更专注于业务,快速开发。
平台:基于云计算和SOA架构,让您轻松具备大数据处理与精准推荐能力。
· 数据探索及预处理
数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的』特殊性质,有助于选择合适的数据预处理和数据分析技术。
模型预测的质量不会超︾过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。
· 分类与回归
分类是数据挖掘中应用最多的方案。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关∴心的是精度和不确定性,通常用预测方差来度量。
· 数据探索及预处理
聚类是把数据按照相似性归纳卐成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。聚类分析类算法主要有:
K-均值算法 EM最大期望算法 DBScan密度算法 改进K-均值算法 多层次聚类
· 分类与回归
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。时序模式类算法主要有:
指数平滑 多元回归 GM灰色理论 RBF神经网络 ANFIS神经网络 SVM支持向量机