1、文字和语音vs数学和信息

翻译之所以达成是因为不同的文字系统在记录信息上的能力是等价的

2、自然语音处理-从规则到统计

基于统计的自然语音处理方法,在数学模型上和通信是相通的,甚至是相同的。

3、统计语言模型

统计语言模型最初是为了语音识别服务的。 原理基本就是分析一下几个语料按这个句子顺序出现的概率。因为一个句子是否合理,就看它的可能性如何。

4、中文分词

语言模型是建立在词的基础上的,词是表达语义的最小单位。而中文没有明确的分解符,需要分词。 中文分词以统计语言模型为基础。 方法是,首先去查字典,也就是说去逐字遍历,能组成一个词,就做一个划分,但这样还是会有歧义,于是有语言模型,也就是说,计算每种分词可能的概率,然后取最大概率的分词组合。

5、隐含马尔可夫模型 它解决了语音识别、机器翻译等问题。机器翻译是一个解码的过程。

隐含马尔可夫模型是马尔可夫链的一个扩展:任一时刻t的状态St是不可见的。 就是说输入的马尔可夫链s1s2s3…在每个时刻t独立产生了输入信号o1o2o3…. 通过o链求s链就是机器翻译的过程,解开马尔可夫模型就解决了机器翻译的问题。

马尔可夫模型有三个基本问题:

1、给定一个模型,如何计算某个特定的输出序列的概率
2、给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列。
(维比特算法即解码算法)
3、给定足够量的观测数据,如何估计隐含马尔可夫模型的参数。
(鲍姆-韦尔奇算法即训练算法)

6、信息的度量和作用

信息熵是对信息的量化度量,是信息论的基础。

7、贾里尼克和现代语言处理

8、简单之美——布尔代数和搜索引擎的索引

9、图论和网络爬虫

10、PageRank——Google的民主表决式网页排名技术

如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。 先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后根据第一次迭代排名算出第二次的。

11、如何确定网页和查询的相关性

搜索关键词权重的科学度量TF-IDF,即关键词算加权。

12、地图和本地搜索——有限状态机和动态规划

有限状态机是一个特殊的有向图,它包括一些状态节点和连接这些状态的有向弧。 用有限状态机分析一个地址的输入,用这个地址逐字匹配有限状态机的状态,匹配的话进入下一个状体,观察是否能走到终点。要求地址的精确度,不准确或者错别字就会束手无策。

全球导航的关键算法是计算机科学图论中的动态规划算法。 算法的原理是找最短路径时分治,先假定一个必须经过的点,然后一分为二,去找这两段分别最短的路径,然后递归。相当于逆向思维解决问题。

13、Google AK-47的设计者——阿米特.辛格博士

14、余弦定理和新闻的分类

新闻通过分析词汇,转化成向量。通过两篇文章文字的向量夹角度数来确定相关性。而这个度数的度量可以用这个角的余弦值来比较。

15、矩阵运算和文本处理中的两个分类问题

奇异值分解:把大矩阵分解成三个小矩阵相乘的方式,然后小矩阵先进行计算或者继续分解。

16、信息指纹及其应用

信息指纹可以理解为将一段信息随机地映射到一个多维二进制空间中的一个点(一个二进制数字)。只要这个随机函数做得好,那么不同信息对应的这些点不会重合。

17、密码学的数学原理

18、搜索引擎的反作弊问题

通信中解决噪音干扰问题的基本思路:

1、从信息源出发,加强通信(编码)自身的抗干扰能力。
2、从传输来看,过滤掉噪音,还原信息。

搜索引擎作弊等同于排序的信息加入噪音。

19、数学模型的重要性

作者总结的几个结论:

1、一个正确的数学模型应当在形式上是简单的。
2、一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来得准确,但是,如果我们认定的大方向是对的,就应该坚持下去。
3、大量准确的数据对研发很重要
4、正确的模型也可能受噪音干扰,显得不准确,要找到噪音的根源。

20、最大熵模型

最大熵模型指出,需要对一个随机事件的概率进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要做任何主观假设。这种情况下,概率最均匀,预测的风险最小。这时概率分布的信息熵最大。

21、拼音输入法的数学原理

拼音转汉字的算法和在导航中寻找最短路径的算法相同,都是动态规划。

22、自然语音处理的教父马库斯

23、布隆过滤器

原理示例:用8个随机数产生器对一个邮件地址产生8个信息指纹,然后将这个8个指纹对应到布隆过滤器的8个二进制,如果这个邮件地址在黑名单中,则对应的这8个二进制一定是1。

24、马尔可夫链的扩展——贝叶斯网络

贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。它克服了马尔可夫链那种机械的线性约束,可以把任何有关联的事件统一到它的框架下面。

25、条件分析场和句法分析

26、维比特算法

它是一种动态规划算法,针对特殊的图——篱笆网络的有向图的最短路径问题。

27、文本自动分类问题——期望最大化算法

28、逻辑回归和搜素广告

逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。

29、各个击破算法和Google云计算基础

分治算法。将一个大任务拆成小的子任务,并且完成子任务的计算,将中间结果合并成最终结果。


数学之美这本书久仰了很久才借到,跟想象中的不太一样(其实根本也没想过是讲啥的),跟计算机方面的应用结合的很多,语义分析,机器翻译,搜索引擎,加密算法等等。算法讲得算浅显易懂,不过还是有难度。虽然其实大学时高等数学,离散数学都学过吧……

唉,还是赶紧复习数学基础去吧!不要只在这里抄目录,要里理解算法啊少年!

记于2013年12月31日 EOF