热搜关键词: 手机硬件物联网芯片封装C语言

pdf

数据科学入门

  • 1星
  • 2022-09-18
  • 10.43MB
  • 需要1积分
  • 0次下载
  • favicon收藏
  • rep举报
  • free评论
标签: 大数据

大数据

数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。

作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

通过阅读本书,你可以:

学到一堂Python速成课;

学习线性代数、统计和概率论的基本方法,了解它们是怎样应用在数据科学中的;

掌握如何收集、探索、清理、转换和操作数据;

深入理解机器学习的基础;

运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型;

探索推荐系统、自然语言处理、网络分析、MapReduce和数据库。

前言  xiii

第1章 导论  1

1.1 数据的威力  1

1.2 什么是数据科学  1

1.3 激励假设:DataSciencester  2

1.3.1 寻找关键联系人  3

1.3.2 你可能知道的数据科学家  5

1.3.3 工资与工作年限  8

1.3.4 付费账户  10

1.3.5 兴趣主题  11

1.4 展望  12

第2章 Python速成  13

2.1 基础内容  13

2.1.1 Python获取  13

2.1.2 Python之禅  14

2.1.3 空白形式  14

2.1.4 模块  15

2.1.5 算法  16

2.1.6 函数  16

2.1.7 字符串  17

2.1.8 异常  18

2.1.9 列表  18

2.1.10 元组  19

2.1.11 字典  20

2.1.12 集合  22

2.1.13 控制流  23

2.1.14 真和假  24

2.2 进阶内容  25

2.2.1 排序  25

2.2.2 列表解析  25

2.2.3 生成器和迭代器  26

2.2.4 随机性  27

2.2.5 正则表达式  28

2.2.6 面向对象的编程  28

2.2.7 函数式工具  29

2.2.8 枚举  31

2.2.9 压缩和参数拆分  31

2.2.10 args  和kwargs  32

2.2.11 欢迎来到DataSciencester  33

2.3 延伸学习  33

第3章 可视化数据  34

3.1 matplotlib  34

3.2 条形图  36

3.3 线图  40

3.4 散点图  41

3.5 延伸学习  44

第4章 线性代数  45

4.1 向量  45

4.2 矩阵  49

4.3 延伸学习  51

第5章 统计学  53

5.1 描述单个数据集  53

5.1.1 中心倾向  55

5.1.2 离散度  56

5.2 相关  58

5.3 辛普森悖论  60

5.4 相关系数其他注意事项  61

5.5 相关和因果  62

5.6 延伸学习  63

第6章 概率  64

6.1 不独立和独立  64

6.2 条件概率  65

6.3 贝叶斯定理  66

6.4 随机变量  68

6.5 连续分布  68

6.6 正态分布  69

6.7 中心极限定理  72

6.8 延伸学习  74

第7章 假设与推断  75

7.1 统计假设检验  75

7.2 案例:掷硬币  75

7.3 置信区间  79

7.4 P-hacking  80

7.5 案例:运行A/B测试  81

7.6 贝叶斯推断  82

7.7 延伸学习  85

第8章 梯度下降  86

8.1 梯度下降的思想  86

8.2 估算梯度  87

8.3 使用梯度  90

8.4 选择正确步长  90

8.5 综合  91

8.6 随机梯度下降法  92

8.7 延伸学习  93

第9章 获取数据  94

9.1 stdin和stdout  94

9.2 读取文件  96

9.2.1 文本文件基础  96

9.2.2 限制的文件  97

9.3 网络抓取  99

9.3.1 HTML  和解析方法  99

9.3.2 案例:关于数据的O\'Reilly图书  101

9.4 使用API  105

9.4.1 JSON(和XML)  105

9.4.2 使用无验证的API  106

9.4.3 寻找API  107

9.5 案例:使用Twitter  API  108

9.6 延伸学习  111

第10章 数据工作  112

10.1 探索你的数据  112

10.1.1 探索一维数据  112

10.1.2 二维数据  114

10.1.3 多维数据  116

10.2 清理与修改  117

10.3 数据处理  119

10.4 数据调整  122

10.5 降维  123

10.6 延伸学习  129

第11章 机器学习  130

11.1 建模  130

11.2 什么是机器学习  131

11.3 过拟合和欠拟合  131

11.4 正确性  134

11.5 偏倚-  方差权衡  136

11.6 特征提取和选择  137

11.7 延伸学习  138

第12章 k近邻法  139

12.1 模型  139

12.2 案例:最喜欢的编程语言  141

12.3 维数灾难  146

12.4 延伸学习  151

第13章 朴素贝叶斯算法  152

13.1 一个简易的垃圾邮件过滤器  152

13.2 一个复杂的垃圾邮件过滤器  153

13.3 算法的实现  154

13.4 测试模型  156

13.5 延伸学习  158

第14章 简单线性回归  159

14.1 模型  159

14.2 利用梯度下降法  162

14.3 最大似然估计  162

14.4 延伸学习  163

第15章 多重回归分析  164

15.1 模型  164

15.2 最小二乘模型的进一步假设  165

15.3 拟合模型  166

15.4 解释模型  167

15.5 拟合优度  167

15.6 题外话:Bootstrap  168

15.7 回归系数的标准误差  169

15.8 正则化  170

15.9 延伸学习  172

第16章 逻辑回归  173

16.1 问题  173

16.2 Logistic函数  176

16.3 应用模型  178

16.4 拟合优度  179

16.5 支持向量机  180

16.6 延伸学习  184

第17章 决策树  185

17.1 什么是决策树  185

17.2 熵  187

17.3 分割之熵  189

17.4 创建决策树  190

17.5 综合运用  192

17.6 随机森林  194

17.7 延伸学习  195

第18章 神经网络  196

18.1 感知器  196

18.2 前馈神经网络  198

18.3 反向传播  201

18.4 实例:战胜CAPTCHA  202

18.5 延伸学习  206

第19章 聚类分析  208

19.1 原理  208

19.2 模型  209

19.3 示例:聚会  210

19.4 选择聚类数目k  213

19.5 示例:对色彩进行聚类  214

19.6 自下而上的分层聚类  216

19.7 延伸学习  221

第20章 自然语言处理  222

20.1 词云  222

20.2 n-grams模型   224

20.3 语法  227

20.4 题外话:吉布斯采样  229

20.5 主题建模  231

20.6 延伸学习  236

第21章 网络分析  237

21.1 中介中心度  237

21.2 特征向量中心度  242

21.2.1 矩阵乘法  242

21.2.2 中心度  244

21.3 有向图与PageRank  246

21.4 延伸学习  248

第22章 推荐系统  249

22.1 手工甄筛  250

22.2 推荐流行事物  250

22.3 基于用户的协同过滤方法  251

22.4 基于物品的协同过滤算法  254

22.5 延伸学习  256

第23章 数据库与SQL  257

23.1 CREATE  TABLE与INSERT  257

23.2 UPDATE  259

23.3 DELETE  260

23.4 SELECT  260

23.5 GROUP  BY  262

23.6 ORDER  BY  264

23.7 JOIN  264

23.8 子查询  267

23.9 索引  267

23.10 查询优化  268

23.11 NoSQL  268

23.12 延伸学习  269

第24章 MapReduce  270

24.1 案例:单词计数  270

24.2 为什么是MapReduce  272

24.3 更加一般化的MapReduce  272

24.4 案例:分析状态更新  273

24.5 案例:矩阵计算  275

24.6 题外话:组合器  276

24.7 延伸学习  277

第25章 数据科学前瞻  278

25.1 IPython  278

25.2 数学  279

25.3 不从零开始  279

25.3.1 NumPy  279

25.3.2 pandas  280

25.3.3 scikit-learn  280

25.3.4 可视化  280

25.3.5 R  281

25.4 寻找数据  281

25.5 从事数据科学  281

25.5.1 Hacker  News  282

25.5.2 消防车  282

25.5.3 T  恤  282

25.5.4 你呢?  283

作者简介  284

关于封面  284

推荐帖子 最新更新时间:2022-10-01 11:18

【RPi PICO】显示开发板信息
下面代码显示了开发板的主要相关信息:   print('\nboard info:\n') import uos d = uos.uname() print('board name:', d[4]) print('micropython version:', d[2]) print('\nbuildin modules\n') help('modules')
dcexpert MicroPython开源版块
PIC单片机用定时器TIMER1做延时出现问题,循环进入死循环,请帮忙看下出现什么问题?
以下是部分相关程序: void interrupt ISR(void)    //配置没问题,为方便看省略   void TIMER1_INITIAL (void)  {     //需要在中断里重新赋初始值     T1CON = 0B00110000;     //B[5:4]=00,T2时钟分频 1:1                              //
wqm2014 单片机
【X-Nucleo深度评测】之二,消化资料,看代码,跑方块程序。
本帖最后由 damiaa 于 2014-11-24 09:18 编辑 先把这份资料放上来。这个是ACI的应用手册。                外部MCU通过一个基于SPI的应用程序控制器接口协议(ACI)与BLUENRG连接          外部MCU上的用户应用程序,可以发送ACI命令,通过SPI连接控制BlueNRG            ACI接口也支持HCI命令
damiaa stm32/stm8
【LPC54100使用】03 ADC初探
对已示波器来说,设计两部分功能,一个是采集,一个是显示。最开始想使用SPI来连接一个显示屏,但是看来有点困难,因此后续考虑使用labview通过串口采集来显示数据,难度会稍小点,毕竟不用自己处理界面。看了下例子,发现ADC和UART都使用rom api这是啥呢?其实就算驱动SPI屏,也是使用rom api的啦。如果想用LCD,这个emwin可以参考。 http://www.lpcware.com
johnrey 单片机
不仅仅是GaN!看Qorvo引领5G时代关键技术的三大优势
当我们进入5G时代,需要在更高的通信频段内满足高效率、大带宽、小尺寸、低成本,而实现这些5G目标需要技术和系统设计的不断进步。业内普遍认为GaN将取代传统的半导体材料用于5G网络应用,这项高效、宽带隙、高功率密度、可靠的功率PA技术使网络效率逐年大幅提高。如今,GaN被大量应用于BTS市场领域,并持续呈现上升势态。 3月21日,享誉业界的“功率及化合物半导体国际论坛2019”于SEMICON C
alan000345 RF/无线
STM32F769I-DISCO评测(3)上电测试
板卡出厂就已烧录好固件,上电测试前最重要的是供电,通过STM32F769I-DISCO用户手册可知,STM32F769I-DISCO提供5种供电方式,通过背面的跳冒选择,我们这里使用stlink。 STM32F769I-DISCO与ST的Nucleo开发板系列一样,同样支持ARM mbed项目,所以我们能在PC机上看到一个烧录程序的U盘,只是目前mbed官网还未给出支持,呵呵。STM32F769
dql2016 stm32/stm8

评论

登录/注册

意见反馈

求资源

回顶部
查找数据手册?

EEWorld Datasheet 技术支持

热门活动

相关视频

可能感兴趣器件

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版 版权声明

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2022 EEWORLD.com.cn, Inc. All rights reserved
×