数学之美
&
浪½之巅
吴军
Google 研究院
2008 年 12 月 30 日整理
I
目½
1.
数学之美
................................................................1
1.1.
1.2.
1.3.
1.4.
1.5.
1.6.
1.7.
1.8.
1.9.
1.10.
1.11.
1.12.
1.13.
1.14.
1.15.
1.16.
数学之美系列一
—
统计语言模型
.................................................. 1
数学之美系列二
—
谈谈中文分词
.................................................. 5
数学之美系列三
—
隐含马尔可夫模型在语言处理中的应用
.................... 9
数学之美系列四
—
怎样度量信息?...............................................
13
数学之美系列五
—
简单之美:布尔代数和搜索引擎的索引
.................. 17
数学之美系列六
—
图论和½络爬虫
(Web Crawlers) ...................... 22
数学之美系列七
—
信息论在信息处理中的应用................................
26
数学之美系列八
—
贾里尼克的故事和现代语言处理
.......................... 29
数学之美系列九
—
如½确定½页和查询的相关性
............................. 35
数学之美系列十
—
有限状态机和地址识别
..................................... 39
数学之美系列十一
— Google
阿卡
47
的制造者阿米特.辛格博士
........ 42
数学之美系列十二
—
½弦定理和新闻的分类
.................................. 45
数学之美系列十三
—
信息指纹及其应用
........................................ 49
数学之美系列十四
—
谈谈数学模型的重要性
.................................. 52
数学之美系列十五
—
繁与简 自然语言处理的几½精英
...................... 55
数学之美系列十六(上)—不要把所有的鸡蛋放在一个篮子里-谈谈最大熵模型
59
1.17.
数学之美系列十六(下)— 不要把所有的鸡蛋放在一个篮子里-最大熵模型
.. 63
1.18.
数 学 之 美 系 列 十 七
—
闪 光 的 不 一 定 是 金 子
--
谈 谈 搜 索 引 擎 ½ 弊 问 题
(Search Engine Anti-SPAM) ............................................................ 67
1.19.
数学之美系列十八
—
矩阵运算和文本处理中的分类问题.....................
70
1.20.
数学之美系列十九
—
马尔可夫链的扩展 贝叶斯½络
(Bayesian Networks)
74
1.21.
数学之美系列二十
—
自然语言处理的教父
--
马库斯........................
76
1.22.
数学之美系列二十一
—
布隆过滤器(Bloom
Filter) ....................... 79
1.23.
数学之美系列二十二
—
由电视剧《暗算》所想到的-谈谈密码学的数学原理
82
1.24.
数学之美系列二十三
—
输入一个汉字需要敲多少个键-谈谈香农第一定律
87
1.25.
数学之美系列二十四
—
从全球导航到输入法-谈谈动态规划.................
91
2.
浪½之巅
.............................................................. 97
2.1.
2.2.
浪½之巅第一章
—
帝½的½辉(AT&T)(一)
............................... 97
浪½之巅第一章
—
帝½的½辉(AT&T)(二)
..............................102
I
目½
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
2.10.
2.11.
2.12.
2.13.
2.14.
2.15.
2.16.
2.17.
2.18.
2.19.
2.20.
2.21.
2.22.
2.23.
2.24.
2.25.
2.26.
2.27.
2.28.
2.29.
2.30.
2.31.
2.32.
2.33.
2.34.
2.35.
2.36.
2.37.
2.38.
2.39.
2.40.
2.41.
2.42.
2.43.
2.44.
2.45.
2.46.
浪½之巅第一章
浪½之巅第一章
浪½之巅第二章
浪½之巅第二章
浪½之巅第二章
浪½之巅第二章
浪½之巅第二章
浪½之巅第二章
浪½之巅第三章
浪½之巅第三章
浪½之巅第三章
浪½之巅第三章
浪½之巅第四章
浪½之巅第四章
浪½之巅第四章
浪½之巅第五章
浪½之巅第五章
浪½之巅第五章
浪½之巅第五章
浪½之巅第五章
浪½之巅第六章
浪½之巅第六章
浪½之巅第六章
浪½之巅第六章
浪½之巅第七章
浪½之巅第七章
浪½之巅第七章
浪½之巅第七章
浪½之巅第七章
浪½之巅第八章
浪½之巅第八章
浪½之巅第八章
浪½之巅第八章
浪½之巅第八章
浪½之巅第八章
浪½之巅第九章
浪½之巅第九章
浪½之巅第九章
浪½之巅第九章
浪½之巅第九章
浪½之巅第十章
浪½之巅第十章
浪½之巅第十章
浪½之巅第十章
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
—
帝½的½辉(AT&T)
(三)
..............................106
帝½的½辉(AT&T)
(四)
..............................111
蓝色巨人(IBM)
(一)
...................................114
蓝色巨人(IBM)
(二)
...................................119
蓝色巨人(IBM)
(三)
...................................124
蓝色巨人(IBM)
(四)
...................................130
蓝色巨人(IBM)
(五)
...................................134
蓝色巨人(IBM)
(六)
...................................137
“水果”公司的复兴 (乔布斯和苹果公司)
(一)
...141
“水果”公司的复兴 (乔布斯和苹果公司)
(二)
...147
“水果”公司的复兴 (乔布斯和苹果公司)
(三)
...150
"水果"公司的复兴
(乔布斯和苹果公司)
(四).......154
计算机工业的生态链(一)...............................158
计算机工业的生态链(二)...............................163
计算机工业的生态链(三)...............................167
奔腾的芯(英特尔—Intel)
(一)
.......................172
奔腾的芯(英特尔—Intel)
(二)
.......................177
奔腾的芯(英特尔—Intel)
(三)
.......................181
奔腾的芯(英特尔—Intel)
(四)
.......................186
奔腾的芯(英特尔—Intel)
(五)
.......................189
互联½的金门大桥(思科)
(一)........................193
互联½的金门大桥(思科)
(二)........................196
互联½的金门大桥(思科)
(三)........................199
互联½的金门大桥(思科)
(四)........................203
硅谷的见证人(惠普公司)
(一)........................212
硅谷的见证人—惠普公司(二)
.........................217
硅谷的见证人—惠普公司(三)
.........................221
硅谷的见证人—惠普公司(四)
.........................225
硅谷的见证人—惠普公司(五)
.........................228
没½的贵族—摩托½拉(一)
............................233
没½的贵族—摩托½拉(二)
............................236
没½的贵族—摩托½拉(三)
............................240
没½的贵族—摩托½拉(四)
............................245
没½的贵族—摩托½拉(五)
............................249
没½的贵族—摩托½拉(六)
............................253
硅谷的另一面(一)
.......................................258
硅谷的另一面(二)
.......................................265
硅谷的另一面(三)
.......................................269
硅谷的另一面(四)
.......................................276
硅谷的另一面(五)
.......................................280
短暂的春秋——与机会失之交臂的公司(一).........289
短暂的春秋——与机会失之交臂的公司(二).........296
短暂的春秋——与机会失之交臂的公司(三).........303
短暂的春秋——与机会失之交臂的公司(四).........308
II
目½
2.47.
2.48.
2.49.
2.50.
2.51.
2.52.
2.53.
2.54.
2.55.
2.56.
2.57.
浪½之巅第十章
—
短暂的春秋——与机会失之交臂的公司(五).........317
浪½之巅第十章
—
短暂的春秋——与机会失之交臂的公司(六).........326
浪½之巅第十一章
—
幕后的英雄—风险投资(Venture
Capital).......333
浪½之巅第十一章
—
幕后的英雄—风险投资(Venture
Capital).......338
浪½之巅第十一章
—
幕后的英雄—风险投资(Venture
Capital).......344
浪½之巅第十一章
—
幕后的英雄—风险投资(Venture
Capital).......352
浪½之巅第十一章
—
幕后的英雄—风险投资(Venture
Capital).......360
浪½之巅第十一章
—
幕后的英雄—风险投资(Venture
Capital).......367
浪½之巅第十二章
—
信息产业的规律性
(一) ................................376
浪½之巅第十二章
—
信息产业的规律性
(二) ................................388
浪½之巅第十二章
—
信息产业的规律性
(三) ................................397
III
数学之美
1.
数学之美
吴军, Google 研究员
1.1.
数学之美系列一 — 统计语言模型
2006 年 4 月 3 日 上午 08:15:00
从本周开始,我们将定期刊登 Google 科学家吴军写的《数
学之美》系列文章,介绍数学在信息检索和自然语言处理中的主
导½用和奇妙应用。
发表者: 吴军, Google 研究员
前言
也许大家不相信,数学是解决信息检索和自然语言处理的最
½工具。
它½非常清晰地描述这些领域的实际问题并且给出漂亮
的解决办法。每½人们应用数学工具解决一个语言问题时,总会
感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介
绍一些数学工具,以及我们是如½利用这些工具来开发 Google
产品的。
系列一: 统计语言模型 (Statistical Language Models)
Google 的½½是整合全球的信息,
所以我们一直致力于研究
如½让机器对信息、语言做最½的理解和处理。长期以来,人类
一直梦想着½让机器代替人来翻译语言、
识别语音、
认识文字
(不
1
评论