社交网站的数据挖掘与分析(原书第3版),第21届Jolt大奖图书
定 价:119 元
- 作者:[美]马修·A.罗素(Matthew A. Russell)米哈
- 出版时间:2021/2/1
- ISBN:9787111674047
- 出 版 社:机械工业出版社
- 中图法分类:TP274
- 页码:348
- 纸张:
- 版次:
- 开本:16开
在本书的di一部分,每一章都聚焦社交网站生态的某个具体方面,囊括了各大主流社交网站,也包括了网页、博客和订阅、邮箱、GitHub以及新增加的Instagram的内容。第二部分提供了实用指南,其中包含超过20个供挖掘Twitter数据之用的简短代码。
前言1
第一部分 社交网站导引
序幕15
第1章 挖掘Twitter:探索热门话题、发现人们的谈论内容等17
1.1 概述17
1.2 Twitter风靡一时的原因18
1.3 探索Twitter API20
1.3.1 基本的Twitter术语20
1.3.2 创建一个Twitter API连接22
1.3.3 探索热门话题26
1.3.4 搜索推文30
1.4 分析140字(或更多)的推文35
1.4.1 提取推文实体37
1.4.2 使用频率分析技术分析推文和推文实体38
1.4.3 计算推文的词汇丰富性41
1.4.4 检视转推模式42
1.4.5 使用直方图将频率数据可视化45
1.5 本章小结49
1.6 推荐练习49
1.7 在线资源50
第2章 挖掘Facebook:分析粉丝页面、查看好友关系等52
2.1 概述53
2.2 探索Facebook的图谱API53
2.2.1 理解图谱API55
2.2.2 理解开放图协议59
2.3 分析社交图谱联系65
2.3.1 分析Facebook页面68
2.3.2 使用pandas操作数据78
2.4 本章小结85
2.5 推荐练习86
2.6 在线资源86
第3章 挖掘Instagram:计算机视觉、神经网络、对象识别和人脸检测88
3.1 概述89
3.2 探索Instagram API89
3.2.1 建立Instagram API请求90
3.2.2 获取你自己的Instagram订阅源92
3.2.3 通过主题标签检索媒体94
3.3 Instagram帖子的剖析94
3.4 人工神经网络速成97
3.4.1 训练神经网络“看”图片98
3.4.2 手写数字识别99
3.4.3 使用预训练的神经网络在照片中识别物体104
3.5 神经网络在Instagram帖子中的应用107
3.5.1 标记图像内容107
3.5.2 在图像中检测人脸108
3.6 本章小结110
3.7 推荐练习111
3.8 在线资源112
第4章 挖掘LinkedIn:分组职位、聚类同行等114
4.1 概述115
4.2 探索LinkedIn API115
4.2.1 发起LinkedIn API请求115
4.2.2 下载LinkedIn的联系人并保存为CSV文件119
4.3 数据聚类速成120
4.3.1 对数据进行规范化处理以便进行分析122
4.3.2 测量相似度132
4.3.3 聚类算法134
4.4 本章小结146
4.5 推荐练习147
4.6 在线资源148
第5章 挖掘文本文件:计算文档相似度、提取搭配等149
5.1 概述150
5.2 文本文件150
5.3 TF-IDF简介152
5.3.1 词频152
5.3.2 逆文档频率154
5.3.3 TF-IDF155
5.4 用TF-IDF查询人类语言数据158
5.4.1 自然语言工具包概述158
5.4.2 对人类语言使用TF-IDF161
5.4.3 查找相似文档163
5.4.4 分析人类语言中的二元文法169
5.4.5 分析人类语言数据的反思177
5.5 本章小结178
5.6 推荐练习179
5.7 在线资源179
第6章 挖掘网页:使用自然语言处理理解人类语言、总结博客内容等181
6.1 概述182
6.2 抓取、解析和爬取网页182
6.3 通过解码语法来探索语义188
6.3.1 一步步讲解自然语言处理190
6.3.2 人类语言数据中的句子检测193
6.3.3 文档摘要197
6.4 以实体为中心的分析:范式转换204
6.5 人类语言数据处理分析的质量213
6.6 本章小结215
6.7 推荐练习215
6.8 在线资源216
第7章 挖掘邮箱:分析谁和谁说什么以及说的频率等218
7.1 概述219
7.2 获取和处理邮件语料库219
7.2.1 Unix邮箱指南219
7.2.2 获得Enron数据224
7.2.3 将邮件语料转换为Unix邮箱226
7.2.4 将Unix邮箱转换为pandas DataFrame227
7.3 分析Enron语料库230
7.3.1 根据日期/时间范围查询230
7.3.2 发件人/收件人通信的分析模式234
7.3.3 根据关键词查找邮件237
7.4 分析你自己的邮件数据238
7.4.1 通过OAuth访问你的Gmail240
7.4.2 获取和解析邮件242
7.4.3 Immersion对电子邮件的可视化模式244
7.5 本章小结245
7.6 推荐练习245
7.7 在线资源246
第8章 挖掘GitHub:检查软件协同习惯、构建兴趣图谱等247
8.1 概述248
8.2 探索GitHub的API248
8.2.1 建立GitHub API连接249
8.2.2 建立GitHub API请求253
8.3 使用属性图为数据建模254
8.4 分析GitHub兴趣图谱257
8.4.1 初始化一个兴趣图谱258
8.4.2 计算图的中心度度量261
8.4.3 为用户添加“关注”边来扩展兴趣图谱263
8.4.4 以节点为中心获得更高效的查询273
8.4.5 兴趣图谱的可视化278
8.5 本章小结279
8.6 推荐练习280
8.7 在线资源281
第二部分 Twitter数据挖掘与分析实用指南
第9章 Twitter数据挖掘与分析285
9.1 访问Twitter的API(开发目的)286
9.2 使用OAuth访问Twitter的API(产品目的)288
9.3 探索流行话题290
9.4 查找推文291
9.5 构造方便的函数调用293
9.6 使用文本文件存储JSON数据294
9.7 使用MongoDB存储和访问JSON数据295
9.8 使用信息流API对Twitter数据管道抽样298
9.9 采集时序数据299
9.10 提取推文实体300
9.11 在特定的推文范围内查找最流行的推文302
9.12 在特定的推文范围内查找最流行的推文实体303
9.13 对频率分析制表304
9.14 查找转推了状态的用户305
9.15 提取转推的属性307
9.16 创建健壮的Twitter请求308
9.17 获取用户档案信息310
9.18 从任意的文本中提取推文实体312
9.19 获得用户的所有好友和关注者312
9.20 分析用户的好友和关注者314
9.21 获取用户的推文316
9.22 爬取好友关系图318
9.23 分析推文内容319
9.24 提取链接目标摘要320
9.25 分析用户收藏的推文323
9.26 本章小结325
9.27 推荐练习325
9.28 在线资源326
第三部分 附录
附录A 关于本书虚拟机体验的信息329
附录B OAuth入门330
附录C Python和Jupyter Notebook的使用技巧334