import matplotlib.pyplot as plt
import torch
import torch.distributions as dist
from random import random

n = 10
p = 0.25
d = dist.Binomial(n, p)
outcomes = torch.arange(0,10+1)
probs = d.log_prob(outcomes).exp() # computes probability mass function
plt.bar(outcomes, probs)
plt.xlabel("Outcomes")
plt.ylabel("Probability")
plt.show()

def sample_binomial(n,p):
    n_success = 0
    for _ in range(n):
        success = random() < p
        n_success += success
    return n_success

sample = torch.tensor([sample_binomial(n,p) for _ in range(10000)])
est_probs = [(sample == k).float().mean() for k in outcomes]
plt.bar(outcomes, probs)
plt.bar(outcomes + 0.2, est_probs, alpha=0.75)
plt.xlabel("Outcomes")
plt.ylabel("Probability")
plt.show()

p = 0.2
d = dist.Geometric(p)
outcomes = torch.arange(0,25)
probs = d.log_prob(outcomes).exp()
plt.bar(outcomes, probs)
plt.xlabel("Outcomes")
plt.ylabel("Probability")
plt.show()

def sample_geometric(p):
    n_fails = 0
    while True:
        success = random() < p
        if success == 0:
            n_fails += 1
        else:
            break
    return n_fails


sample = torch.tensor([sample_geometric(p) for _ in range(10000)])
est_probs = [(sample == k).float().mean() for k in outcomes]
plt.bar(outcomes, probs)
plt.bar(outcomes + 0.2, est_probs, alpha=0.75)
plt.xlabel("Outcomes")
plt.ylabel("Probability")
plt.show()

# Compute probability that number of failures is greater than or equal to 2 and less than or equal to 5
p = 0.2
d = dist.Geometric(p)

outcomes = torch.arange(0,25)
probs = d.log_prob(outcomes).exp()
plt.bar(outcomes, probs, alpha=0.1)
plt.xlabel("Outcomes")
plt.ylabel("Probability")

a = 2
b = 5
selected_outcomes = torch.arange(a,b+1)
plt.bar(selected_outcomes, d.log_prob(selected_outcomes).exp(), color="tab:blue")
plt.show()

d.log_prob(selected_outcomes).exp().sum()

tensor(0.3779)

# the probability of taking any possible outcome is of course 1.
n = 10
p = 0.25
d = dist.Binomial(n, p)
outcomes = torch.arange(0,10+1)
d.log_prob(outcomes).exp().sum()

tensor(1.0000)

mu = 1
sigma = 0.5
d = dist.Normal(mu, sigma)
outcomes = torch.linspace(-5,5,200)
probs = d.log_prob(outcomes).exp() # computes probability density function
plt.plot(outcomes, probs)
plt.xlabel("X")
plt.ylabel("Probability")
plt.show()

alpha = 5
beta = 2
d = dist.Beta(alpha,beta)
outcomes = torch.linspace(0,1,200)
probs = d.log_prob(outcomes).exp() # computes probability density function
plt.plot(outcomes, probs)
plt.xlabel("X")
plt.ylabel("Probability")
plt.show()

a = 0.6
b = 0.9

outcomes = torch.linspace(0,1,500)
probs = d.log_prob(outcomes).exp()
plt.plot(outcomes, probs)

interval = torch.linspace(a,b,500)
interval_probs = d.log_prob(interval).exp()
plt.fill_between(interval, interval_probs)

plt.xlabel("X")
plt.ylabel("Probability")
plt.show()

# numerical integration
print("probability of interval:", torch.trapz(interval_probs, interval).item())

probability of interval: 0.6524544358253479

# integral over whole outcome space is one
torch.trapz(probs, outcomes)

tensor(1.0000)

a = 4
b = 2
d = dist.Beta(a,b)
ps = torch.linspace(0,1,500)
density = d.log_prob(ps).exp()
plt.plot(ps, density)
plt.vlines(d.mode, 0., d.log_prob(d.mode).exp(), label="mode", color="tab:green")
plt.vlines(d.mean, 0., d.log_prob(d.mean).exp(), label="mean", color="tab:orange")
m_minus_s = d.mean - torch.sqrt(d.variance)
m_plus_s = d.mean + torch.sqrt(d.variance)
plt.vlines([m_minus_s, m_plus_s], 0., [d.log_prob(m_minus_s).exp(), d.log_prob(m_plus_s).exp()], label="mean +/- sqrt(variance)", color="tab:red")
plt.legend()
plt.show()

d.mean, torch.trapz(ps * density, ps)

(tensor(0.6667), tensor(0.6667))

d.variance, torch.trapz((ps - d.mean)**2 * density, ps)

(tensor(0.0317), tensor(0.0317))

d.mode, ps[density.argmax()]

(tensor(0.7500), tensor(0.7495))

N = 100000

a = 4
b = 2
d = dist.Beta(a,b)
ps = torch.linspace(0,1,100)

sample = d.sample((N,))
plt.hist(sample, density=True, bins=ps)
plt.plot(ps, d.log_prob(ps).exp())
plt.show()

sample.mean(), d.mean

(tensor(0.6667), tensor(0.6667))

experiment_1 = dist.Bernoulli(0.3)
experiment_1_outcomes = [0.,1.]
experiment_2 = dist.Bernoulli(0.8)
experiment_2_outcomes = [0.,1.]

joint = torch.zeros((len(experiment_1_outcomes), len(experiment_2_outcomes)))
for i, o1 in enumerate(torch.tensor(experiment_1_outcomes)):
    for j, o2 in enumerate(torch.tensor(experiment_2_outcomes)):
        joint[i,j] = experiment_1.log_prob(o1).exp() * experiment_2.log_prob(o2).exp()
        
plt.yticks(experiment_1_outcomes, experiment_1_outcomes)
plt.xticks(experiment_2_outcomes, experiment_2_outcomes)
for i in range(joint.shape[0]):
    for j in range(joint.shape[1]):
        color = "white" if joint[i,j] < 0.5 else "black"
        plt.text(j,i, f"{joint[i,j].item():.2f}", ha="center", va="center", color=color)

plt.ylabel("Experiment 1")
plt.xlabel("Experiment 2")
plt.imshow(joint)
plt.show()

# the joint sums to 1
joint.sum()

tensor(1.)

urn = dist.Categorical(torch.tensor([0.2,0.2,0.2,0.2,0.2]))
n_urns = 5
red_balls = [0,2,4,6,8]
total_balls = 10
n_draws = 5
urn_joint = torch.zeros((n_draws+1,n_urns))
for i in range(n_draws+1): # i ... number of red balls drawn
    for j in range(n_urns): # j ... chosen urn
        category = torch.tensor(j)
        p = red_balls[j] / total_balls
        ball_draws = dist.Binomial(n_draws,p)
        n_red_balls = torch.tensor(i)
        urn_joint[i,j] = urn.log_prob(category).exp() * ball_draws.log_prob(n_red_balls).exp()

        
for i in range(urn_joint.shape[0]):
    for j in range(urn_joint.shape[1]):
        color = "white" if urn_joint[i,j] < 0.1 else "black"
        plt.text(j,i, f"{urn_joint[i,j].item():.2f}", ha="center", va="center", color=color)
        
plt.xlabel("Chosen urn")
plt.ylabel("Number of red balls drawn")

plt.imshow(urn_joint)
plt.show()

mu_1 = 1.
sigma_1 = 2.
mu_2 = 0.
sigma_2 = 1.

dist_x = dist.Normal(mu_1, sigma_1)
dist_y = dist.Normal(mu_2, sigma_2)

xs = torch.linspace(-4,6,200)
ys = torch.linspace(-5,5,200)

joint = torch.zeros((len(ys), len(xs)))

for j, x in enumerate(xs):
    for i, y in enumerate(ys):
        joint[j,i] = dist_x.log_prob(x).exp() * dist_y.log_prob(y).exp()      
        
from matplotlib import cm

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
X, Y = torch.meshgrid(xs, ys, indexing="ij")
ax.plot_surface(X, Y, joint, cmap=cm.coolwarm)
ax.set_title("Joint of two Normals")
ax.set_xlabel("X")
ax.set_ylabel("Y")
plt.show()

mu_1 = 1.
sigma_1 = 2.
mu_2 = 0.
sigma_2 = 1.

xs = torch.linspace(-4,6,200)
ys = torch.linspace(-5,5,200)

joint = torch.zeros((len(ys), len(xs)))

joint_mv = torch.zeros((len(ys), len(xs)))
mv_dist = dist.MultivariateNormal(torch.tensor([mu_1,mu_2]), torch.tensor([[sigma_1**2, 1.], [1., sigma_2**2]]))

for j, x in enumerate(xs):
    for i, y in enumerate(ys):
        mu_cond = mu_2 + (x - mu_1) / sigma_1**2
        sigma_cond = torch.sqrt(torch.tensor(sigma_2**2 - 1/sigma_1**2))
        dist_x = dist.Normal(mu_1, sigma_1)
        dist_y = dist.Normal(mu_cond, sigma_cond)
        joint[j,i] = dist_x.log_prob(x).exp() * dist_y.log_prob(y).exp()
        
        joint_mv[j,i] = mv_dist.log_prob(torch.tensor([x,y])).exp()

        
from matplotlib import cm

fig, ax = plt.subplots(1,2,subplot_kw={"projection": "3d"})
X, Y = torch.meshgrid(xs, ys, indexing="ij")
ax[0].plot_surface(X, Y, joint, cmap=cm.coolwarm)
ax[0].set_title("Joint of two Normals")
ax[0].set_xlabel("X")
ax[0].set_ylabel("Y")
ax[1].plot_surface(X, Y, joint_mv, cmap=cm.coolwarm)
ax[1].set_title("Multi-variate Normal")
ax[1].set_xlabel("X")
ax[1].set_ylabel("Y")
plt.show()
(joint_mv - joint).abs().max()

tensor(2.9802e-08)

# For the urn model, the marignal probability of choosing an urn just tells us that we picked the urn at random
# It equals the column sum
for j in range(urn_joint.shape[1]):
    print(f"Prob. of picking urn {j}:", urn_joint[:,j].sum()) # sum out drawing balls

Prob. of picking urn 0: tensor(0.2000)
Prob. of picking urn 1: tensor(0.2000)
Prob. of picking urn 2: tensor(0.2000)
Prob. of picking urn 3: tensor(0.2000)
Prob. of picking urn 4: tensor(0.2000)

# More interestingly, we can compute the probability of drawing red balls
# without reference to the chosen urn
# It equals the row sum
for i in range(urn_joint.shape[0]):
    print(f"Prob. of drawing {i} red balls:", urn_joint[i,:].sum()) # sum out choosing urn

Prob. of drawing 0 red balls: tensor(0.2832)
Prob. of drawing 1 red balls: tensor(0.1504)
Prob. of drawing 2 red balls: tensor(0.1664)
Prob. of drawing 3 red balls: tensor(0.1664)
Prob. of drawing 4 red balls: tensor(0.1504)
Prob. of drawing 5 red balls: tensor(0.0832)

n_red_balls_drawn = 3

urn_joint_filtered = urn_joint[n_red_balls_drawn,:] # p(x=n_red_balls_drawn, y)
normalizer = urn_joint_filtered.sum() # P(x=n_red_balls_drawn)
urn_conditional = urn_joint_filtered / normalizer

for i in range(len(urn_conditional)):
    print(f"Prob. of having picked urn {i} given {n_red_balls_drawn} red balls drawn: {urn_conditional[i]:.2f}")

Prob. of having picked urn 0 given 3 red balls drawn: 0.00
Prob. of having picked urn 1 given 3 red balls drawn: 0.06
Prob. of having picked urn 2 given 3 red balls drawn: 0.28
Prob. of having picked urn 3 given 3 red balls drawn: 0.42
Prob. of having picked urn 4 given 3 red balls drawn: 0.25

urn_conditional = urn_joint.T / urn_joint.T.sum(dim=0)
   
for i in range(urn_conditional.shape[0]):
    for j in range(urn_conditional.shape[1]):
        color = "white" if urn_conditional[i,j] < 0.1 else "black"
        plt.text(j,i, f"{urn_conditional[i,j].item():.2f}", ha="center", va="center", color=color)
        
plt.xlabel("Number of red balls drawn")
plt.ylabel("Chosen urn given number red balls drawn")

plt.imshow(urn_conditional)
plt.show()

alpha = 5
beta = 2
d = dist.Beta(alpha,beta)

a = 0.6
b = 0.9

outcomes = torch.linspace(0,1,500)
probs = d.log_prob(outcomes).exp()


# numerical integration
interval = torch.linspace(a,b,500)
interval_probs = d.log_prob(interval).exp()
normalizer =  torch.trapz(interval_probs, interval)

fig, axs = plt.subplots(1,2, figsize=(8,4))

axs[0].plot(outcomes, probs)
axs[0].fill_between(interval, interval_probs)
axs[0].set_xlabel("x")
axs[0].set_ylabel("f(x)")
axs[0].set_ylim((0,4))
axs[0].set_title("Original")

conditional_probs = probs.clone()
conditional_probs[(outcomes < a) | (outcomes > b)] = 0
conditional_probs /= normalizer

axs[1].plot(outcomes, conditional_probs)
axs[1].set_xlabel("x")
axs[1].set_ylabel("f(x)")
axs[1].set_ylim((0,4))
axs[1].set_title("Conditional")
                        
plt.show()

def test_given_disease(positive: bool, disease: bool):
    if disease:
        return 0.8 if positive else 0.2
    else:
        return 0.1 if positive else 0.9

def patient_has_disease(disease: bool):
    return 0.1 if disease else 0.9

def disease_given_test(disease: bool, positive: bool):
    joint = test_given_disease(positive, disease) * patient_has_disease(disease)
    # marginalise out `disease`
    py = (test_given_disease(positive, True) * patient_has_disease(True) +
          test_given_disease(positive, False) * patient_has_disease(False))
    return joint / py

disease_given_test(disease=True, positive=True), disease_given_test(disease=False, positive=True)

(0.47058823529411764, 0.5294117647058822)

disease_given_test(disease=True, positive=False), disease_given_test(disease=False, positive=False)

(0.024096385542168676, 0.9759036144578314)

# more compactly

P_test_given_disease = torch.tensor([
    [0.8, 0.1],
    [0.2, 0.9]
]) # CPT

P_patient_has_disease = torch.tensor([
    [0.1,0.9]
])

joint = P_test_given_disease * P_patient_has_disease
py = joint.sum(dim=1)
joint.T / py

#         positive, negative
# disease
# healthy

tensor([[0.4706, 0.0241],
        [0.5294, 0.9759]])

ps = torch.linspace(0,1,200)
fig, axs = plt.subplots(1,2,figsize=(8,4))
axs[0].plot(ps, dist.Beta(1,1).log_prob(ps).exp())
axs[0].set_xlabel("p")
axs[0].set_title("Uninformative Prior")
axs[1].plot(ps, dist.Beta(5,5).log_prob(ps).exp())
axs[1].set_xlabel("p")
axs[1].set_title("Informative Prior")
plt.show()

X = torch.tensor([0,1,1,0,1,1,1,0,1,1])

# we use an analytical solution to the problem
fig, axs = plt.subplots(2,12,figsize=(24,4))
for i in range(11):
    for j, prior in enumerate([1,5]):
        a = prior + X[:i].sum()
        b = prior + (1-X[:i]).sum()
        for k in range(i,11):
            axs[j,k].plot(ps, dist.Beta(a, b).log_prob(ps).exp(), color="gray", alpha=(11-(k-i))*0.02 + 0.05)
            
        axs[j,i].plot(ps, dist.Beta(a, b).log_prob(ps).exp())
        axs[j,i].set_ylim((0,4))
        axs[j,i].yaxis.set_tick_params(labelleft=False)
        m = a/(a+b)
        axs[j,i].set_xticks([0,m,1], ["0.0", f"{m:.2f}", "1.0"])
    if i == 0:
        axs[0,i].set_title("Prior")
    else:
        axs[0,i].set_title(f"flip_{i} = {X[i-1].item()}")
        

for j, prior in enumerate([1,5]):
    a = prior + 70
    b = prior + 30
    axs[j,11].plot(ps, dist.Beta(a, b).log_prob(ps).exp())
    axs[j,11].set_ylim((0,10))
    axs[j,11].yaxis.set_tick_params(labelleft=False)
    m = a/(a+b)
    axs[j,11].set_xticks([0,m,1], ["0.0", f"{m:.2f}", "1.0"])
    axs[0,11].set_title("After 70 heads")
    

plt.show()

x = torch.tensor([0.0, 0.5, 1.0, 1.5, 2.0]) - 1
y = torch.tensor([-1.2, -1.5, -0.0, -0.8, 1.5])
plt.scatter(x, y)
plt.show()

slope_prior = dist.Normal(0,3)
intercept_prior = dist.Normal(0,3)

#slope_prior = dist.Uniform(-3,0, validate_args=False)
#intercept_prior = dist.Normal(0,3)

fig, axs = plt.subplots(2,2, figsize=(8,8))
x_linspace = torch.linspace(x.min(),x.max(),10)
n_lines = 250

s = torch.linspace(-4,4,500)
i = torch.linspace(-4,4,500)
S, I = torch.meshgrid(s,i, indexing="ij")
S_flat = S.reshape(-1)
I_flat = I.reshape(-1)

prior = (slope_prior.log_prob(S) + intercept_prior.log_prob(I)).exp()

W = (prior / prior.sum()).reshape(-1)
d = dist.Categorical(W)
ix = d.sample((n_lines,))
ys = S_flat[ix].reshape(-1,1) * x_linspace.reshape(1,-1) + I_flat[ix].reshape(-1,1)
for i in range(n_lines):
    axs[0,0].plot(x_linspace, ys[i,:], color="gray", alpha=0.1)
axs[0,0].scatter(x, y)

axs[1,0].pcolormesh(S,I,prior)
axs[1,0].set_xlabel("slope")
axs[1,0].set_ylabel("intercept")
axs[0,0].set_title("prior")

Y = S.reshape(*S.shape, 1) * x.reshape(1,1,-1) + I.reshape(*S.shape, 1)
unnormalised_posterior = (dist.Normal(Y, 1.).log_prob(y.reshape(1,1,-1)).sum(dim=2) + slope_prior.log_prob(S) + intercept_prior.log_prob(I)).exp()

W = (unnormalised_posterior / unnormalised_posterior.sum()).reshape(-1)
d = dist.Categorical(W)
ix = d.sample((n_lines,))
ys = S_flat[ix].reshape(-1,1) * x_linspace.reshape(1,-1) + I_flat[ix].reshape(-1,1)
for i in range(n_lines):
    axs[0,1].plot(x_linspace, ys[i,:], color="gray", alpha=0.1)
axs[0,1].scatter(x, y)

axs[1,1].pcolormesh(S,I,unnormalised_posterior)
axs[1,1].set_xlabel("slope")
axs[1,1].set_ylabel("intercept")
axs[0,1].set_title("posterior")

plt.show()

Introduction to Probability Theory¶

Random Variables¶

Discrete Random Variables¶

Example 1:¶

Example 2:¶

Example 3:¶

Probability Mass Function¶

Continuous Random Variables¶

Example 1:¶

Example 2:¶

Probability Density Function¶

Expected Value, Variance, and Mode¶

Monte Carlo Method¶

Joint Probability Distribution¶

Example 1:¶

Example 2:¶

Example 3:¶

Marginal Distribution¶

Example¶

Conditional Probability¶

Example 1¶

Example 2¶

Bayes Theorem¶

Example¶

Bayesian Inference¶

Example 1¶

Example 2:¶

Real World Examples:¶

Further Reading:¶