數學/統計相關筆記

A
13 min readApr 12, 2021

--

分享一下機器學習與深度學習中會用到的數學筆記,歡迎直接 comment 改正!

https://www.notion.so/676c76fa40a34617a2f65482d3ec72d7

原來Medium對數學公式這麼不友善…晚點修正!

線性代數

  1. 標量:單一數字 $n\in R$
  2. 向量:一維 $x\in R^n$
  3. 矩陣:二維 $x\in R^{m\times n}$
  4. 張量:超過二維

微積分

泰勒展開式:用一多項式f(x)去近似目標函數g(x), 並藉由f(0)=g(0) & f’(0)=g’(0) … 來計算出f(x)的參數值

1. 微分

  • 梯度
  • 為所有偏導數之n維向量
  • 其值代表空間中的最大變化率、最大下降方向的值
  • 即為最大方向導數
  • 符號
  • ’ prime ⇒ 對 f(x, y) 的全微分 ⇒ $f’ = \frac{d}{dx}f + \frac{d}{dy}f$ 念作 d … over dx
  • 全微分、全導數物理意義:所有變數偏微分組成的向量
  • 又稱微分
  • 對所有變數的線性近似 ⇒ 對所有變數偏微分以後其各自微分的線性組合
  • d ⇒ (全)微分
  • $\partial$ ⇒ 偏微分 ⇒ f(x, y) 對 x or y 偏微分的表示:$\frac{\partial f}{\partial x}\ or\ \frac{\partial f}{\partial y}$
  • 多變量函數 f 對特定變量的微分
  • 偏微分物理意義:對指定方向的微分 ⇒ 求特定方向的斜率
  • 方向導數:多元微積分中偏微分對任意向量微分的延伸
  • 偏導數:對於特定變量的微分,通常變量都指 x, y, … 軸
  1. 乘法律:f, g是x的函數 ⇒ $y = fg$ ⇒ $y’ = \frac{dy}{dx}=f’g+fg’$
  2. 除法律:f, g是x的函數 ⇒ $y = \frac fg$ ⇒ $y’ = \frac{dy}{dx}=\frac{f’g-fg’}{g²}$
  3. 連鎖律:g是x的函數 ⇒ $y = f(g(x))$ ⇒ $y’ = \frac{dy}{dx}=\frac{dy}{df}\frac{df}{dg}\frac{dg}{dx}$
  • 例子
  • $g(x) = x²$
  • $f(x)=e^x$
  • $y=f(g(x))=e^{g(x)}=e^{x²}$
  • $\frac{df}{dg}=\frac{de^g}{dg}=e^g=e^{x²}$
  • $\frac{dg}{dx}=\frac{dx²}{dx}=2x$
  • $y’=\frac{dy}{dx}=\frac{dy}{df}\frac{df}{dg}\frac{dg}{dx} =1*e^{x²}*2x =2xe^{x²}$
  1. 對數的微分
  • $y=\log_a{x}$ ⇒ $y’ = \frac{dy}{dx} = \log_a e^{\frac1x} = \frac1x\log_ae=\frac1x\frac{1}{\ln a}$
  • $y=\ln x$ ⇒ $y’ = \frac{dy}{dx} = \frac{1}{x}\frac{1}{\ln e}=\frac1x$

統計

統計 vs 概率

  • 概率:有模型、參數 ⇒ 估計數據(的樣子,例如:均值、中位數、變異數…)
  • 統計:有數據 ⇒ 估計(描述數據的)模型、參數(例如:分佈)

機率

  • 機率 = 先驗機率 ⇒ $P(A)=\frac{numb~of~event(A)}{numb~of~event(world)}$
  • 聯合機率 $P(A,B)=P(A\cap B)$
  • 貝氏定理:要考慮先驗機率的影響
  • 條件機率公式
  • $\displaystyle P(A|B)=\frac{P(A\cap B)}{P(B)}\Rightarrow P(A\cap B)=P(A|B)P(B)$
  • 思考的盲區:今天發生了一件事A,不代表純粹就只有A的因素P(A),可能發生的情況是P(A & B),其實還有先驗機率 P(B) 影響了A
  • 條件機率 P(A|B) 包含似然機率、後驗機率
  • 若 x 已知 a 未知 ⇒ 關於 x 的 先驗機率 P(x) 已知
  • P(x|a) 似然機率:先驗機率 a 未知,只有數據 x 的發生情況確定P(x & a)
  • P(a|x) 後驗機率:先驗機率 x 已知,聯合機率已知
  • 觀察的數據 $x_0$ 已知
  • $x_0=(x_1,x_2…)$ 代表第一、二 … 次事件

MLE maximun likelihood estimation

  • 頻率學派
  • 核心思想:觀察到的數據即代表世界
  • 如果觀察到的數據太少很可能會太偏頗、不具代表性
  • 找出模型參數 $\theta$ 使得似然機率最大
  • $L(\theta)=P(x_0|\theta)$
  • $\theta^* =max_\theta~P(x_0|\theta) =max_\theta~P(x_1,x_2,…,x_n|\theta) =max_\theta~P(x_1|\theta)P(x_2|\theta)…$
  • $P(x_0|\theta)$ 即為似然概率
  • 似然(likelihood)函數:數據 x 確定,模型參數 $\theta$ 不確定
  • 概率(probability)函數:數據 x 不確定,模型參數 $\theta$ 確定
  • 因為 $L(\theta)$ 與 $\log(L(\theta))$ 會在同一處獲得極值
  • $\theta^* =max_\theta~P(x_1|\theta)P(x_2|\theta)… =max_\theta~\sum_{i=1}^n\log (P(x_i|\theta))$
  • 求解
  • 要求最大值:對 $\theta$ 求導並設為零求解 $\theta$

MAE maximun a posteriori estimation

  • 貝式學派
  • 不想全部相信觀察到的數據,怕是偏的 ⇒ 在似然機率中引入先驗機率的概念
  • 核心思想:對真實世界先有一個假設
  • 對參數有一個假設 $P(\theta)$
  • 如果假設錯誤則模型會差很多
  • 找出模型參數使得後驗機率最大
  • $\theta^*=max_\theta~P(\theta|x_0) =max_\theta~\frac{P(x_0|\theta)P(\theta)}{P(x_0)} =max_\theta~P(x_0|\theta)P(\theta) =max_\theta~L(\theta)P(\theta)$
  • 因為觀察到的數據 $x_0$ 是確定的,與 $\theta$ 無關 ⇒ $P(x_0)$ 等於常數所以可以去除
  • $P(\theta|x_0)$ 即為後驗概率
  • 先驗概率$P(x_0)$已知
  • 相當於規則化的最大
  • 把觀察到的數據之似然概率用先驗假設的機率去矯正
  • 不全然相信觀察到的數據,所以除了數據出現之似然機率可能要大之外,先驗機率機率也必需大,有點懲罰項的概念
  • 當 $P(\theta)$ 是均勻分布,為常數的時候 ⇒ 最大似然 = 最大後驗
  • 樸素貝葉斯就是一種

1. 期望值

f(x)關於某分布P(x)的期望值:

  • 意義:當x由分佈P產生,f作用於x時,f(x)的期望值
  • 離散型變量通過求和得到 $\mathbb E_{x\sim P[f(x)]} = \sum P(x)f(x)$
  • 連續型變量通過幾分得到 $\mathbb E_{x\sim p[f(x)]} = \int P(x)f(x)$
  • 概率论中的一些重要结果对于离散值成立但对于连续值只能是 ‘‘几 乎处处’’ 成立。
  • 高等數學:測度論、零測度
  • 期望值是線性的 $\mathbb E_x[\alpha f(x)+\beta g(x)]=\alpha \mathbb E_x[f(x)]+\beta \mathbb E_x[g(x)]$

2. 方差

当我们对 x 依据它的概率分布进行采样时,随机变 量 x 的函数值会呈现多大的差异(分散程度)

  • 公式: $Var(f(x))=\mathbb E[(f(x)-\mathbb E[f(x)])²]$

3. 協方差

两个变量线性相关性的强度以及这些变量的尺度

  • 公式:$Cov(f(x), g(x))=\mathbb E[(f(x)-\mathbb E[f(x)])*(g(x)-\mathbb E[g(x)])]$
  • 性質
  1. 協方差的絕對值如果很大,代表 (1) 變量值變化很大 (2) 兩個變量同時距離均值很遠
  2. 協方差如果是正的,代表兩個變量都傾向於同時獲得較大的值

4. 相關係數

將協方差歸一化到-1~1,不會受到量值影響,只考慮相關性

  • 公式(皮爾森):$\mathbb p(X,Y)=\frac{Cov(X,Y)}{\sigma(X)\sigma(Y)}$
  • 性質
  1. 當x, y 畫成二維圖變成一條線的時候,則相關係數絕對值為1
  2. 此時斜率若為正,則相關係數為1,否則-1
  3. 分散程度也會影響相關係數

5. 白努利分佈 Bernoulli Distribution

n=1的兩項式分佈:1次獨立的是/非試驗

數值

  • $Pr(X=1)=p$
  • $Pr(X=0)=1-p$
  • $E(x)=p$,母體期望值
  • 證明:試驗有兩個可能的結果,0 or 1,則
  • $\mathbb E_{x\sim P[f(x)]} = \sum P(x)f(x)=1p+0(1-p)=p$
  • $Var(x)=p(1-p)$,母體變異數
  • 證明:試驗有兩個可能的結果,0 or 1,則
  • $Var(f(x))=\mathbb E[(f(x)-\mathbb E[f(x)])²]=\sum P(x)(f(x)-\mathbb E[f(x)])²\\=p*(1-p)²+(1-p)*(0-p)²=p(1-p)$

6. 兩項式分佈 Binomial Distribution

n個獨立的是/非試驗中成功的次數的離散機率分布

  • n次試驗
  • 每次獨立
  • 結果是:是/非,成功/失敗

數值

  • n 總試驗數
  • p 結果為成功的機率
  • n次試驗k次成功的機率,由機率質量函數給出
  • $f(k,n,p)=Pr(X=k)=\tbinom{n}{k}p^k(1-p)^{n-k}$
  • 其中的組合數代表n次裡面取k次為成功,不在乎成功的順序
  • $E(x)=np$,母體期望值
  • $Var(x)=np(1-p)$,母體變異數
  • 證明:一般的二項式分布是n次獨立的伯努利試驗的和
  • $E(x)=\mu_n=\sum\mu=\sum p=np$
  • $Var(x)=\sigma_n²=\sum\sigma²=\sum p(1-p)=np(1-p)$

與其他分佈的關係

  • 兩項式分佈的和
  • 如果X ~ B(n, p)和Y ~ B(m, p),且X, Y獨立,那麼X+Y也是兩項式分佈而且
  • X+Y~B(n+m, p)
  • 常態近似
  • 如果n比較大,那麼分佈的偏度就比較小,此時經過適當的連續性校正,可以用常態分配近似
  • B(n, p)近似於N(np, np(1-p))
  • n越大(至少30),近似越好,當p不接近0或1時更好
  • 一個規則是np和n(1 − p)都必須大於5
  • 卜瓦松近似
  • 當試驗的次數趨於無窮大,而乘積np固定時,二項式分布收斂於卜瓦松分布。因此母數為λ = np的卜瓦松分布可以作為二項式分布B(n, p)的近似,如果n足夠大,而p足夠小。

7. 多項式分佈 Multinomial Distribution

把二項式分佈的兩變量拓展到多變量

  • 現在還是做n次獨立試驗
  • 每次试验的结果數 2 ⇒ m 个
  • 且m个结果发生的概率互斥且和为1
  • 发生其中一个结果X次的概率就是多项式分布。

二項分佈原型

  • n次試驗k次成功
  • X1代表成功的試驗數有x1次(即k)
  • X0代表失敗的試驗數有x0次(即n-k)
  • p1代表X1發生的機率即成功的機率(即p)
  • p0代表X0發生的機率即失敗的機率(即1-p)
  • 機率質量函數 $f=Pr(X_0=x_0, X_1=x_1)=\tbinom{n}{x_0\quad x_1}\ p_0^{x_0}\ p_1^{x_1}\ ,\quad if\ x_0+x_1=n$

公式

  • 機率質量函數:$f=Pr(X_0=x_0, X_1=x_1, …,X_n=x_n)=\tbinom{n}{x_0\quad x_1\quad …\quad x_n}\ p_0^{x_0}\ p_1^{x_1}\ …\ p_n^{x_n}\ ,\quad if\ x_0+x_1+…+x_n=n$
  • 舉例1:丟骰子6次(骰子結果會出現1~6且一次只會出現一種結果)
  • X1=x1代表出現數字1的試驗數有x1次,X6=x6代表出現6…有x6次
  • 其中x1+…+x6共有n=6次試驗
  • p1代表出現數字1的機率(不一定等於1/6),p6代表出現數字6的機率
  • 則出現六次數字6的機率為$\\Pr(X_1=0,X_2=0…,X_6=6)=\tbinom{6}{0\quad 0\quad …\quad 6}\ p_1^{0}\ p_1^{0}\ …\ p_6^{6}$
  • 舉例2:10人測血型(血型結果有A,B,O,AB且一次只會出現一種結果)
  • XA=x1代表出現A型的試驗數有x1次,XAB=x4代表出現AB型…有x4次
  • 其中x1+…+x4共有n=10次試驗
  • pA代表出現A型的機率,pAB代表出現AB型的機率
  • 則出現1個A型2個B型3個O型4個AB型的機率為$\\Pr(X_A=1,X_B=2…,X_{AB}=4)=\tbinom{10}{1\quad 2\quad 3\quad 4}\ p_A¹\ p_B²\ …\ p_{AB}⁴$

8. 常態分佈

$X\sim N(\mu, \sigma)$

  • 機率密度函數公式:$f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu²)}{2\sigma²}}$
  • 由來
  1. 二項分佈n很大、p為0.5時的近似函數就是常態分佈
  2. 用最小平方法獲得嚴格證明

9. 中央極限定理

大量統計獨立的隨機變數的平均值的分布趨於常態分布。

重要意義在於,根據這一定理的結論,其他機率分布可以用常態分布作為近似。

只要採樣就會近似常態分佈

信息論

  • 想法
  • 一个不太可能的事件居然发生了,要比一个非常可能的事 件发生,能提供更多的信息。
  • 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件 应该没有信息量。
  • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量应该是投掷一次硬币正面朝上的信息量的两倍。

1. 自信息

  • 公式:$I(x)=-logP(x)$
  1. log通常指以e為底的自然對數,於是I(x)單位是奈特(nats),一奈特是以 1/e 的概率观测到一个事件时获得的信息量。
  2. 使用底数为 2 的对数,单位是 比特(bit)或者 香农(shannons);通过比特度 量的信息只是通过奈特度量信息的常数倍。

2. 香農熵 Shannon Entropy

自信息只处理单个的输出。我们可以用 香农熵(Shannon entropy)来对整个概 率分布中的不确定性总量进行量化。

  • 定義:一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。
  • 性質
  • 接近确定性的分布 (输出几 乎可以确定) 具有较低的熵
  • 接近均匀分布(隨機性較高)的概率分布具有较高的熵
  • 当 x 是连续的,香农熵被称为 微分熵(differential entropy)
  • 公式:$H(x)=H(P)=\mathbb E_{x\sim P}[I(x)]=-E_{x\sim P}[logP(x)]$

3. KL散度 Kullback-Leibler Divergence

對一個隨機變量x有兩個單獨的機率分佈P(x), Q(x),則可以用KL散度來衡量這兩個分佈的近似程度

  • 意義:当我们使用一种被设计成能够使 得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号 的消息时,所需要的额外信息量
  • 性質:
  • 非負
  • 當離散變量P, Q是相同分佈或是當連續變量P, Q是“幾乎處處”相同
  • 非距離D(P||Q)≠D(Q||P)
  • 所以要用Q(x)去近似P(X)時,要使得D(P||Q)最小還是D(Q||P)最小,會給出不同的Q(X)
  • 公式:$D_{KL}(P||Q)=\mathbb E_{x\sim P}[log\frac{P(x)}{Q(x)}]=E_{x\sim P}[logP(x)-logQ(x)]$

4. 交叉熵 Cross Entropy

  • 公式:$H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E_{x\sim P}[logQ(x)]$
  • 針對Q(x)最小化H(P,Q)相當於最小化D(P||Q),因為H(P)與Q不相關(等於常數)可以省去。
  • 0log0 = 0

--

--

A
0 Followers

重度自學成癮者。國樂團指揮/笙樂手/機器學習/深度學習