概率论 Cheat Sheet 3:多维随机变量及其分布(2)

2. 边缘分布   二维随机变量 $(X, Y)$ 作为一个整体,具有分布函数 $F(x, y)$。而 $X$ 和 $Y$ 都是随机变量,各自也有分布函数。将它们分别记为 $F_X(x)$,$F_Y(y)$,依次称为二维随机变量 $(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布函数。边缘分布函数可以由 $(X, Y)$ 的分布函数 $F(x, y)$ 所确定,事实上, \begin{eq…
Read more

概率论 Cheat Sheet 3:多维随机变量及其分布(1)

1. 二维随机变量   一般,设 $E$ 是一个随机试验,它的样本空间是 $S = {e}$,设 $X = X(e)$ 和 $Y = Y(e)$ 是定义在 $S$ 上的随机变量,由它们构成的一个向量 $(X, Y)$,叫做二维随机向量或二维随机变量。   二维随机变量 $(X, Y)$ 的性质不仅与 $X$ 及 $Y$ 有关,而且还依赖于这两个随机变量的相互关系。因此,逐个地来研究 $X$ 或 $…
Read more

概率论 Cheat Sheet 2:随机变量及其分布

1. 随机变量   定义 设随机试验的样本空间为 $S = \{e\}$,$X = X(e)$ 是定义在样本空间 $S$ 上的实值单值函数。称 $X = X(e)$ 为随机变量。 2. 离散型随机变量及其分布律   有些随机变量,它全部可能取到的值是有限个或为可列无限多个,这种随机变量称为离散型随机变量。   设离散随机变量 $X$ 所有可能取的值为 $x_k(k = 1,2,\c…
Read more

概率论 Cheat Sheet 1:基本概念

  本系列整理自《概率论与数理统计(第四版)》(盛骤 等,高等教育出版社)一书,包含关键概念和推导,便于随查随用。 1. 随机试验   随机试验具有以下特点: 可以在相同的条件下重复进行。 每次试验的可能结果不只有一个,并且能事先明确试验的所有可能结果。 进行一次试验之前不能确定哪一个结果会出现。 2. 样本空间、随机事件 2.1. 样本空间   将随机试验 $E$ 的所有可能结果组成的集合称为 …
Read more

Deep Learning Note: 5-13 语音识别

1. 语音识别   在语音识别问题中,输入是一段语音的音频,输出是语音的文本。就像人类的耳朵不能直接处理声波,而是通过检测声音中不同频率的强度来拾取语音,语音识别的一个常见的预处理步骤是生成原始音频数据的频谱,如图 1 所示,将频谱数据交给算法进行处理。图 1 中下图所示的频谱中,横轴是时间,纵轴是频谱,颜色表示声音在该频率上的能量。   语音识别系统层一度使用音素(Phoneme)这一人工设计的…
Read more

Deep Learning Note: 5-12 Attention 模型

  前面介绍的机器翻译算法都使用了编码器-译码器的结构,通过编码器得到输入文本的一个编码,再通过译码器生成对应的翻译文本。这种结构对于较短的句子可以取得很高的 Bleu 分数,而在比较长的句子(如长度有三四十个单词的句子)上的性能则会下降,如图 1 所示,因为网络很难记忆这种很长的句子。   Neural Machine Translation by Jointly Learning to Ali…
Read more

Deep Learning Note: 5-11 Bleu 分数

  机器翻译与之前介绍的图像识别等任务的一个不同之处是,正确答案不是唯一的。例如对于如下的法语句子: Le chat est sur le tapis. 人类可以给出多种不同的参考英文翻译,这些翻译的质量都很好,如: 参考 1:The cat is on the mat. 参考 2:There is a cat on the mat. 答案不唯一为衡量算法的准确度带来了挑战。对于此种情况,通常使用…
Read more