关于我们
书单推荐
新书推荐
|
量化投资
数据挖掘技术是量化投资的基础,大部分量化投资策略都是基于数据挖掘技术而得到的,所以本书的中心是介绍在量化投资领域常用的数据挖掘技术及如何运用这些技术去进行量化选股、量化择时等量化投资实践行为。本书将要介绍的数据挖掘技术包括数据的预处理、关联、分类、回归、聚类、预测、异常检测等具体的数据挖掘技术,在每个技术环节,都有实际的应用案例和实现程序,这样便于读者快速入手。本书最后将给出至少一个这些技术的综合应用案例,以加深这些技术在实际量化投资实践中的应用体会。
卓金武,MathWorks中国科学计算业务总监,主要职责是向中国区MATLAB正版用户提供数据挖掘和量化投资解决方案。曾2次获全国大学生数学建模竞赛一等奖 (2003, 2004),1次获全国研究生数学建模竞赛一等奖 (2007);主编三著两部:《MATLAB在数学建模中的应用》(第一版和第二版),《量化投资:数据挖掘技术与实践(MATLAB版)》。周英,中科数据首席数据科学家,曾就职于知名搜索引擎公司6年,主要从事互联网文本挖掘工作的研发工作,目前专注的领域为大数据挖掘技术的工业应用研究和工程应用,曾获美国大学生数学建模竞赛二等奖一项,全国研究生数学建模竞赛二等奖一项,著有《大数据挖掘:系统方法与实例分析》
第一篇 基础篇
第1章 绪论 2 1.1 量化投资与数据挖掘的关系 2 1.1.1 什么是量化投资 2 1.1.2 量化投资的特点 3 1.1.3 量化投资的核心――量化模型 5 1.1.4 量化模型的主要产生方法―― 数据挖掘 7 1.2 数据挖掘的概念和原理 8 1.2.1 什么是数据挖掘 8 1.2.2 数据挖掘的原理 10 1.3 数据挖掘在量化投资中的应用 11 1.3.1 宏观经济分析 11 1.3.2 估价 13 1.3.3 量化选股 14 1.3.4 量化择时 14 1.3.5 算法交易 14 1.4 本章小结 15 参考文献 16 第2章 数据挖掘的内容、过程及 工具 17 2.1 数据挖掘的内容 17 2.1.1 关联 17 2.1.2 回归 19 2.1.3 分类 20 2.1.4 聚类 21 2.1.5 预测 22 2.1.6 诊断 23 2.2 数据挖掘过程 24 2.2.1 数据挖掘过程概述 24 2.2.2 挖掘目标的定义 25 2.2.3 数据的准备 26 2.2.4 数据的探索 28 2.2.5 模型的建立 29 2.2.6 模型的评估 33 2.2.7 模型的部署 35 2.3 数据挖掘工具 36 2.3.1 MATLAB 36 2.3.2 SAS 37 2.3.3 SPSS 38 2.3.4 WEKA 39 2.3.5 R 41 2.3.6 工具的比较与选择 42 2.4 本章小结 43 参考文献 43 第3章 MATLAB快速入门 44 3.1 MATLAB快速入门 44 3.1.1 MATLAB概要 44 3.1.2 MATLAB的功能 45 3.1.3 快速入门案例 46 3.1.4 入门后的提高 55 3.2 MATLAB常用技巧 55 3.2.1 常用标点的功能 55 3.2.2 常用操作指令 56 3.2.3 指令编辑操作键 56 3.2.4 MATLAB数据类型 56 3.3 MATLAB开发模式 58 3.3.1 命令行模式 58 3.3.2 脚本模式 58 3.3.3 面向对象模式 58 3.3.4 三种模式的配合 58 3.4 小结 59 第二篇 技术篇 第4章 数据的准备 63 4.1 数据的收集 63 4.1.1 认识数据 63 4.1.2 数据挖掘的数据源 64 4.1.3 数据抽样 65 4.1.4 量化投资的数据源 67 4.1.5 从雅虎获取交易数据 69 4.1.6 从大智慧获取财务数据 71 4.1.7 从Wind中获取高质量数据 73 4.2 数据质量分析 75 4.2.1 数据质量分析的必要性 75 4.2.2 数据质量分析的目的 75 4.2.3 数据质量分析的内容 76 4.2.4 数据质量分析的方法 76 4.2.5 数据质量分析的结果及应用 82 4.3 数据预处理 82 4.3.1 为什么需要数据预处理 82 4.3.2 数据预处理的主要任务 83 4.3.3 数据清洗 84 4.3.4 数据集成 88 4.3.5 数据归约 89 4.3.6 数据变换 90 4.4 本章小结 92 参考文献 93 第5章 数据的探索 94 5.1 衍生变量 95 5.1.1 衍生变量的定义 95 5.1.2 变量衍生的原则和方法 96 5.1.3 常用的股票衍生变量 96 5.1.4 评价型衍生变量 101 5.1.5 衍生变量数据收集与集成 103 5.2 数据的统计 104 5.2.1 基本描述性统计 105 5.2.2 分布描述性统计 106 5.3 数据可视化 106 5.3.1 基本可视化方法 107 5.3.2 数据分布形状可视化 108 5.3.3 数据关联情况可视化 110 5.3.4 数据分组可视化 111 5.4 样本选择 113 5.4.1 样本选择的方法 113 5.4.2 样本选择应用实例 113 5.5 数据降维 116 5.5.1 主成分分析(PCA)基本 原理 116 5.5.2 PCA应用案例:企业综合 实力排序 118 5.5.3 相关系数降维 122 5.6 本章小结 123 参考文献 123 第6章 关联规则方法 124 6.1 关联规则概要 124 6.1.1 关联规则的提出背景 124 6.1.2 关联规则的基本概念 125 6.1.3 关联规则的分类 127 6.1.4 关联规则挖掘常用算法 128 6.2 Apriori算法 128 6.2.1 Apriori算法的基本思想 128 6.2.2 Apriori算法的步骤 129 6.2.3 Apriori算法的实例 129 6.2.4 Apriori算法的程序实现 132 6.2.5 Apriori算法的优缺点 135 6.3 FP-Growth算法 136 6.3.1 FP-Growth算法步骤 136 6.3.2 FP-Growth算法实例 137 6.3.3 FP-Growth算法的优缺点 139 6.4 应用实例:行业关联选股法 139 6.5 本章小结 141 参考文献 142 第7章 数据回归方法 143 7.1 一元回归 144 7.1.1 一元线性回归 144 7.1.2 一元非线性回归 148 7.1.3 一元多项式回归 153 7.2 多元回归 153 7.2.1 多元线性回归 153 7.2.2 多元多项式回归 157 7.3 逐步归回 160 7.3.1 逐步回归的基本思想 160 7.3.2 逐步回归步骤 161 7.3.3 逐步回归的MATLAB方法 162 7.4 Logistic回归 164 7.4.1 Logistic模型 164 7.4.2 Logistic回归实例 165 7.5 应用实例:多因子选股模型 的实现 168 7.5.1 多因子模型的基本思想 168 7.5.2 多因子模型的实现 169 7.6 本章小结 172 参考文献 172 第8章 分类方法 173 8.1 分类方法概要 173 8.1.1 分类的概念 173 8.1.2 分类的原理 174 8.1.3 常用的分类方法 175 8.2 K-近邻(KNN) 176 8.2.1 K-近邻原理 176 8.2.2 K-近邻实例 177 8.2.3 K-近邻特点 180 8.3 贝叶斯分类 181 8.3.1 贝叶斯分类原理 181 8.3.2 朴素贝叶斯分类原理 182 8.3.3 朴素贝叶斯分类实例 184 8.3.4 朴素贝叶斯特点 185 8.4 神经网络 185 8.4.1 神经网络的原理 185 8.4.2 神经网络的实例 188 8.4.3 神经网络的特点 188 8.5 逻辑斯蒂(Logistic) 189 8.5.1 逻辑斯蒂的原理 189 8.5.2 逻辑斯蒂的实例 189 8.5.3 逻辑斯蒂的特点 189 8.6 判别分析 190 8.6.1 判别分析的原理 190 8.6.2 判别分析的实例 191 8.6.3 判别分析的特点 191 8.7 支持向量机(SVM) 192 8.7.1 SVM的基本思想 192 8.7.2 理论基础 193 8.7.3 支持向量机的实例 196 8.7.4 支持向量机的特点 196 8.8 决策树 197 8.8.1 决策树的基本概念 197 8.8.2 决策树的建构的步骤 198 8.8.3 决策树的实例 201 8.8.4 决策树的特点 202 8.9 分类的评判 202 8.9.1 正确率 202 8.9.2 ROC曲线 204 8.10 应用实例:分类选股法 206 8.10.1 案例背景 206 8.10.2 实现方法 208 8.11 延伸阅读:其他分类方法 210 8.12 本章小结 211 参考文献 211 第9章 聚类方法 212 9.1 聚类方法概要 212 9.1.1 聚类的概念 212 9.1.2 类的度量方法 214 9.1.3 聚类方法的应用场景 216 9.1.4 聚类方法的分类 217 9.2 K-means方法 217 9.2.1 K-means的原理和步骤 218 9.2.2 K-means实例1:自主编程 219 9.2.3 K-means实例2:集成函数 221 9.2.4 K-means的特点 224 9.3 层次聚类 225 9.3.1 层次聚类的原理和步骤 225 9.3.2 层次聚类的实例 227 9.3.3 层次聚类的特点 229 9.4 神经网络聚类 229 9.4.1 神经网络聚类的原理和步骤 229 9.4.2 神经网络聚类的实例 229 9.4.3 神经网络聚类的特点 230 9.5 模糊C-均值(FCM)方法 230 9.5.1 FCM的原理和步骤 230 9.5.2 FCM的应用实例 232 9.5.3 FCM算法的特点 233 9.6 高斯混合聚类方法 233 9.6.1 高斯混合聚类的原理和步骤 233 9.6.2 高斯聚类的实例 236 9.6.3 高斯聚类的特点 236 9.7 类别数的确定方法 237 9.7.1 类别的原理 237 9.7.2 类别的实例 238 9.8 应用实例:股票聚类分池 240 9.8.1 聚类目标和数据描述 240 9.8.2 实现过程 240 9.8.3 结果及分析 242 9.9 延伸阅读 244 9.9.1 目前聚类分析研究的主要 内容 244 9.9.2 SOM智能聚类算法 245 9.10 本章小结 246 参考文献 246 第10章 预测方法 247 10.1 预测方法概要 247 10.1.1 预测的概念 247 10.1.2 预测的基本原理 248 10.1.3 量化投资中预测的主要 内容 249 10.1.4 预测的准确度评价及影响 因素 250 10.1.5 常用的预测方法 251 10.2 灰色预测 252 10.2.1 灰色预测原理 252 10.2.2 灰色预测的实例 254 10.3 马尔科夫预测 256 10.3.1 马尔科夫预测的原理 256 10.3.2 马尔科夫过程的特性 257 10.3.3 马尔科夫预测的实例 258 10.4 应用实例:大盘走势预测 262 10.4.1 数据的选取及模型的建立 263 10.4.2 预测过程 264 10.4.3 预测结果与分析 265 10.5 本章小结 265 参考文献 267 第11章 诊断方法 268 11.1 离群点诊断概要 268 11.1.1 离群点诊断的定义 268 11.1.2 离群点诊断的作用 269 11.1.3 离群点诊断方法分类 271 11.2 基于统计的离群点诊断 271 11.2.1 理论基础 271 11.2.2 应用实例 273 11.2.3 优点与缺点 275 11.3 基于距离的离群点诊断 275 11.3.1 理论基础 275 11.3.2 应用实例 276 11.3.3 优点与缺点 278 11.4 基于密度的离群点挖掘 278 11.4.1 理论基础 278 11.4.2 应用实例 279 11.4.3 优点与缺点 281 11.5 基于聚类的离群点挖掘 281 11.5.1 理论基础 281 11.5.2 应用实例 282 11.5.3 优点与缺点 284 11.6 应用实例:离群点诊断量化 择时 284 11.7 延伸阅读:新兴的离群点 挖掘方法 286 11.7.1 基于关联的离群点挖掘 286 11.7.2 基于粗糙集的离群点挖掘 286 11.7.3 基于人工神经网络的离群点 挖掘 287 11.8 本章小结 287 参考文献 288 第12章 时间序列方法 289 12.1 时间序列的基本概念 289 12.1.1 时间序列的定义 289 12.1.2 时间序列的组成因素 290 12.1.3 时间序列的分类 291 12.1.4 时间序列分析方法 292 12.2 平稳时间序列分析方法 292 12.2.1 移动平均法 293 12.2.2 指数平滑法 294 12.3 季节指数预测法 295 12.3.1 季节性水平模型 295 12.3.2 季节性趋势模型 296 12.4 时间序列模型 296 12.4.1 ARMA模型 296 12.4.2 ARIMA模型 297 12.4.3 ARCH模型 298 12.4.4 GARCH模型 298 12.5 应用实例:基于时间序列的 股票预测 299 12.6 本章小结 303 参考文献 303 第13章 智能优化方法 304 13.1 智能优化方法概要 305 13.1.1 智能优化方法的概念 305 13.1.2 在量化投资中的作用 305 13.1.3 常用的智能优化方法 305 13.2 遗传算法 307 13.2.1 遗传算法的原理 307 13.2.2 遗传算法的步骤 308 13.2.3 遗传算法实例 316 13.2.4 遗传算法的特点 317 13.3 模拟退火算法 318 13.3.1 模拟退火算法的原理 318 13.3.2 模拟退火算法步骤 320 13.3.3 模拟退火算法实例 323 13.3.4 模拟退火算法的特点 329 13.4 应用实例:组合投资优化 330 13.4.1 问题描述 330 13.4.2 求解过程 330 13.5 延伸阅读:其他智能方法 331 13.5.1 粒子群算法 331 13.5.2 蚁群算法 333 13.6 本章小结 334 参考文献 335 第三篇 实践篇 第14章 统计套利策略的挖掘与 优化 338 14.1 统计套利策略概述 338 14.1.1 统计套利的定义 338 14.1.2 统计套利策略的基本思想 338 14.1.3 统计套利策略挖掘的方法 339 14.2 基本策略的挖掘 340 14.2.1 准备数据 340 14.2.2 探索交易策略 340 14.2.3 验证交易策略 341 14.2.4 选择最佳的参数 342 14.2.5 参数扫描法 345 14.2.6 考虑交易费 346 14.3 高频交易策略及优化 348 14.3.1 高频交易的基本思想 348 14.3.2 高频交易的实现 350 14.4 多交易信号策略的组合及 优化 352 14.4.1 多交易信号策略 352 14.4.2 交易信号的组合优化机理 354 14.4.3 交易信号的组合优化实现 355 14.5 本章小结 358 参考文献 358 第15章 配对交易策略的挖掘与 实现 360 15.1 配对交易概述 360 15.1.1 配对交易的定义 360 15.1.2 配对交易的特点 361 15.1.3 配对选取步骤 362 15.2 协整检验的理论基础 363 15.2.1 协整关系的定义 363 15.2.2 EG两步协整检验法 363 15.2.3 Johansen协整检验法 364 15.3 配对交易的实现 365 15.3.1 协整检验的实现 365 15.3.2 配对交易函数 367 15.3.3 协整配对中的参数优化 369 15.4 延伸阅读:配对交易的 三要素 370 15.4.1 配对交易的前提 370 15.4.2 配对交易的关键 371 15.4.3 配对交易的假设 371 15.5 本章小结 371 参考文献 372 第16章 基于Wind数据的程序化 交易 373 16.1 程序化交易概述 373 16.1.1 程序化交易的定义 373 16.1.2 程序化交易的实现过程 374 16.1.3 程序化交易的分类 376 16.2 数据的处理及探索 377 16.2.1 获取股票日交易数据 377 16.2.2 计算指标 381 16.2.3 数据标准化 388 16.2.4 变量筛选 389 16.3 模型的建立及评估 391 16.3.1 股票预测的基本思想 391 16.3.2 模型的训练及评价 392 16.4 组合投资的优化 394 16.4.1 组合投资的理论基础 394 16.4.2 组合投资的实现 398 16.5 程序化交易的实施 402 16.6 本章小结 403 参考文献 404 第17章 基于Quantrader平台的 量化投资 405 17.1 量化平台概述 405 17.1.1 量化平台现状 405 17.1.2 Quantrader量化平台的构成 406 17.1.3 Quantrader的工作流程 407 17.2 基于Quantrader平台的量化 实现过程 407 17.2.1 获取交易数据 408 17.2.2 计算衍生变量 410 17.2.3 数据标准化 410 17.2.4 变量优选 410 17.2.5 训练模型 411 17.2.6 策略回测 411 17.3 延伸阅读:Quantrader平台 的拓展 412 第18章 基于数据挖掘技术的量化 交易系统 415 18.1 交易系统概述 416 18.1.1 交易系统的定义 416 18.1.2 交易系统的作用 416 18.2 DM交易系统总体设计 417 18.2.1 系统目标 417 18.2.2 相关约定 418 18.2.3 系统结构 418 18.3 短期交易子系统 419 18.3.1 子系统功能描述 419 18.3.2 数据预处理模块 419 18.3.3 量化选股模块 419 18.3.4 策略回测模块 420 18.4 中长期交易子系统 420 18.4.1 子系统功能描述 420 18.4.2 导入数据模块 421 18.4.3 投资组合优化模块 421 18.5 系统的拓展与展望 423 18.6 本章小结 423 参考文献 424
你还可能感兴趣
我要评论
|