书 名 | 特征工程入门与实践 | 作 者 | [土]锡南·厄兹代米尔、迪夫娅·苏萨拉 |
---|---|---|---|
ISBN | 9787115511645 | 页 数 | 210页 |
定 价 | 59元 | 出版社 | 人民邮电出版社 |
出版时间 | 2020年3月 | 装 帧 | 平装 |
开 本 | 16开 |
第 1章 特征工程简介 1
1.1 激动人心的例子:AI驱动的聊天 1
1.2 特征工程的重要性 2
1.3 特征工程是什么 5
1.4 机器学习算法和特征工程的评估 9
1.4.1 特征工程的例子:真的有人能预测天气吗 10
1.4.2 特征工程的评估步骤 10
1.4.3 评估监督学习算法 11
1.4.4 评估无监督学习算法 11
1.5 特征理解:我的数据集里有什么 12
1.6 特征增强:清洗数据 13
1.7 特征选择:对坏属性说不 14
1.8 特征构建:能生成新特征吗 14
1.9 特征转换:数学显神通 15
1.10 特征学习:以AI促AI 16
1.11 小结 17
第 2章 特征理解:我的数据集里有什么 19
2.1 数据结构的有无 19
2.2 定量数据和定性数据 20
2.3 数据的4个等级 25
2.3.1 定类等级 26
2.3.2 定序等级 27
2.3.3 定距等级 30
2.3.4 定比等级 36
2.4 数据等级总结 38
2.5 小结 40
第3章 特征增强:清洗数据 41
3.1 识别数据中的缺失值 41
3.1.1 皮马印第安人糖尿病预测数据集 42
3.1.2 探索性数据分析 42
3.2 处理数据集中的缺失值 48
3.2.1 删除有害的行 50
3.2.2 填充缺失值 54
3.2.3 在机器学习流水线中填充值 57
3.3 标准化和归一化 61
3.3.1 z分数标准化 63
3.3.2 min-max标准化 67
3.3.3 行归一化 68
3.3.4 整合起来 69
3.4 小结 70
第4章 特征构建:我能生成新特征吗 71
4.2 填充分类特征 72
4.2.1 自定义填充器 74
4.2.2 自定义分类填充器 74
4.2.3 自定义定量填充器 76
4.3 编码分类变量 77
4.3.1 定类等级的编码 77
4.3.2 定序等级的编码 79
4.3.3 将连续特征分箱 80
4.3.4 创建流水线 82
4.4 扩展数值特征 83
4.4.1 根据胸部加速度计识别动作的数据集 83
4.4.2 多项式特征 86
4.5 针对文本的特征构建 89
4.5.1 词袋法 89
4.5.2 CountVectorizer 90
4.5.3 TF-IDF向量化器 94
4.5.4 在机器学习流水线中使用文本 95
4.6 小结 97
第5章 特征选择:对坏属性说不 98
5.1 在特征工程中实现更好的性能 99
5.2 创建基准机器学习流水线 103
5.3 特征选择的类型 106
5.3.1 基于统计的特征选择 106
5.3.2 基于模型的特征选择 117
5.4 选用正确的特征选择方法 125
5.5 小结 125
第6章 特征转换:数学显神通 127
6.1 维度缩减:特征转换、特征选择与特征构建 129
6.2 主成分分析 130
6.2.1 PCA的工作原理 131
6.2.2 鸢尾花数据集的PCA——手动处理 131
6.2.3 scikit-learn的PCA 137
6.2.4 中心化和缩放对PCA的影响 144
6.3 线性判别分析 148
6.3.1 LDA的工作原理 149
6.3.2 在scikit-learn中使用LDA 152
6.4 LDA与PCA:使用鸢尾花数据集 157
6.5 小结 160
第7章 特征学习:以AI促AI 161
7.1 数据的参数假设 161
7.1.1 非参数谬误 163
7.1.2 本章的算法 163
7.2 受限玻尔兹曼机 163
7.2.1 不一定降维 164
7.2.2 受限玻尔兹曼机的图 164
7.2.3 玻尔兹曼机的限制 166
7.2.4 数据重建 166
7.2.5 MNIST数据集 167
7.3 伯努利受限玻尔兹曼机 169
7.3.1 从MNIST中提取PCA主成分 170
7.3.2 从MNIST中提取RBM特征 177
7.4.1 对原始像素值应用线性模型 178
7.4.3 对提取的RBM特征应用线性模型 179
7.5 学习文本特征:词向量 180
7.5.1 词嵌入 180
7.5.2 两种词嵌入方法:Word2vec和GloVe 182
7.5.3 Word2vec:另一个浅层神经网络 182
7.5.4 创建Word2vec词嵌入的gensim包 183
7.5.5 词嵌入的应用:信息检索 186
7.6 小结 190
第8章 案例分析 191
8.1 案例1:面部识别 191
8.1.1 面部识别的应用 191
8.1.2 数据 192
8.1.3 数据探索 193
8.1.4 应用面部识别 195
8.2 案例2:预测酒店评论数据的主题 200
8.2.1 文本聚类的应用 200
8.2.2 酒店评论数据 200
8.2.3 数据探索 201
8.2.4 聚类模型 203
8.2.5 SVD与PCA主成分 204
8.2.6 潜在语义分析 206
8.3 小结 2102100433B
本书将带你了解特征工程的完整过程,使机器学习更加系统、高效。你会从理解数据开始学习,机器学习模型的成功正是取决于如何利用不同类型的特征,例如连续特征、分类特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你还会学习如何将问题陈述转换为有用的新特征,如何提供由商业需求和数学见解驱动的特征,以及如何在自己的机器上进行机器学习,从而自动学习数据中的特征。
还是要有相应的理论,多看看书嘛,了解到最基础的东西, 也可以上相关的网站看看,总之,多和这方面的知识接触。
屋面恒载包括屋面板自重及建筑面层重量。实际计算出来是多少就是多少。
工程审计是依据国家《审计法》等相关规定,对工程概、预算在执行中是否超支,有无隐匿资金、截留基建收和投资包干结余,以及有无以投资包干结余的名义私分基建投资的违纪行为等。审计是以基建项目为标的,以会计师、...
项目管理实践入门初探——本套体系主要从实践的角度出发来探讨项目管理,涉及到高深的项目管理理论很少(我也没有那么高的水平),主要探讨包括项目管理流程,项目管理实践,项目管理的关键控制对象,项目管理模板等内容。
分布式计算开源框架 Hadoop 入门实践 内容摘要: Hadoop 是 Apache 开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚 马逊、 Facebook 和 Yahoo 等等。 Author : 岑文初 Email: wenchu.cenwc@alibaba-inc.com msn: cenwenchu_79@hotmail.com blog: http://blog.csdn.net/cenwenchu79/ 引 What is Hadoop Why is hadoop How to Use Hadoop & Tips 环境: 部署考虑: 实施步骤: Hadoop Command Hadoop 基本流程以及简单应用的开发 基本流程: 代码范例: Hadoop 集群测试 随想 引 在 SIP项目设计的过程中,对于它庞大的日志在早先就考虑使用任务分解的 多线
《PLC与步进伺服快速入门与实践》从工程应用角度出发,首先介绍步进与伺服的基础知识,包括步进电动机和伺服系统的概念及其工作原理,然后详细介绍三菱、西门子等品牌步进电动机与伺服系统及其功能,最后通过多个实例,深入浅出地讲解步进与伺服在工程实践中的应用方法。书中的每个实例均详细地给出了设计思路、设计步骤以及程序代码。《PLC与步进伺服快速入门与实践》可作为PLC步进与伺服工程人员的自学工具书,也可作为大专院校电气工程及自动化、工业自动化、应用电子、计算机应用、机电一体化及其他相关专业的参考用书。
《PLC与变频器快速入门与实践》介绍了变频器调速及控制等基础知识,讲解了PLC功能指令、模块和变频器调速系统设计方法,结合具体工程实例讲解了PLC和变频器控制系统的设计方法。《PLC与变频器快速入门与实践》内容全面、条理清晰、实例丰富,可供读者自学PLC编程和变频器应用使用,也可作为大专院校相关专业的参考用书。《PLC与变频器快速入门与实践》有助于读者快速掌握PLC和变频器控制原理,完成高质量的控制系统设计。
《PLC、变频器入门知识与实践课堂》是一本介绍PLC、变频器的图书,主要内容有PLC简介、PLC组成与原理、PLC编程软件的使用与应用系统的开发、基本指令及应用、步进指令及应用、功能指令及应用、变频器的结构与原理、变频器的使用,以及变频器的选用、安装与维护等内容。
为了让初学者通过阅读木书就能轻松快速地掌握PLC和变频器,《PLC、变频器入门知识与实践课堂》在章节内容安排上按照循序渐进的原则,在语言表达上注重通俗易懂,在形式上采用了大量的表格和图片,另外,在书的重和关键内容上采用了粗体和阴影处理,以让读者能掌握并记住这些内容。