第pan style="font-family: 宋体">章常用数据挖掘方法介绍
分类已经应用于我们生活的诸多方面且是数据挖掘中最常见的方法之一。我们主要研究了基于深度学本和代谢组学等数据的特征提取和分类问题。
pan style="font-family:宋体">.1 分类问题研究基本框架
对于分类问题来说,建立分类模括学试两个过程n’。此类问题的学可以采用有监督或无监督的方法,目标是将新数据划分至一个或者多个的类别中,因为每个数据有可能属于不同的类别口’。通常情况下,分类模型的构建主括以下几个方面:
(pan style="font-family:宋体">数据预处理
一 许多数据是半结构化或非结构化的、多维度的,通过预法可以让数据具有统一和方便计算机识别的组织形式,行统一格式化的处理,便于后续的研究。
(2)数据表示
对于分类模型来说,预处理后的数据通常不能够直接作为模型的输入,也就是说原始数据不能够被直行处理,需要将其转换为适用于分类模型的数据而才能够完成模型的建立及测试口]。
(3)数据的特征提取
待分类的数据中含了许多噪声或无关的变量。通过特征提取方法能够去掉这些噪声,获得代表样本数据特征的低维数据,从而能够更加有效地完成分类。
(4)建立分类器
特征提取后的低维数据将输入至分类器,可以采用不同的分类算法判别数据所属类别。
(5)模型评价
模型评价的作用主要是对分类性能的优劣给出一个定量的评估,评价可以采用不同的方法,选择合适的方法能够给予模型更加客观、准确的评……