矩阵求特征值-七点爱学

一个矩阵乘以一个向量，结果通常是一个方向和长度都改变了的新向量。但是，对于任何一个特定的矩阵，总存在一些特殊的向量，当被这个矩阵乘过之后，方向保持不变（或者刚好反向），仅仅是长度被拉伸或压缩了一定的比例。这种特殊的向量就叫“特征向量”，而那个拉伸或压缩的比例，就是对应的“特征值”。

这个关系可以用一个非常简洁的公式来表示：Ax = λx。

在这个公式里，A 是一个方阵（比如 2×2 或 3×3 的矩阵），x 是一个非零向量，也就是特征向量，而 λ 是一个标量（就是一个数字），也就是特征值。这个公式的几何意义是，矩阵 A 对向量 x 所做的变换，效果等同于用一个数字 λ 去缩放向量 x。

搞清楚特征值有什么用很重要。它们揭示了矩阵最核心的特性。比如在物理学中，特征值可以描述一个系统的振动频率。在机器学习的主成分分析（PCA）中，特征值可以帮你找到数据中最重要的特征方向，从而实现数据降维和去噪。简单说，特征值和特征向量指明了矩阵变换作用下的主要方向和强度。

计算特征值的过程，本质上就是解一个方程。下面是具体的操作步骤，我会用一个 2×2 的矩阵作为例子来解释。

第一步：把公式变形

我们从核心公式 Ax = λx 开始。

为了求解，我们需要把所有未知数都移到等式的一边。但是，我们不能直接用 A 减去 λ，因为一个是矩阵，一个是标量，没法直接相减。所以，我们需要借助单位矩阵 I。单位矩阵是一个对角线上全是 1，其他位置全是 0 的矩阵。任何向量乘以单位矩阵，都等于它本身，就像任何数乘以 1 一样。

所以，我们可以把公式右边写成 λIx。这样，公式就变成了：

Ax = λIx

然后移项：

Ax – λIx = 0

提取公因式 x：

(A – λI)x = 0

这个方程叫做特征方程。我们的目标是找到满足这个方程的 λ 和 x。

第二步：理解为什么行列式必须为零

我们想找的特征向量 x 必须是非零向量。如果 x 是零向量，那么 (A – λI) 乘以它永远等于零，这对任何 λ 都成立，就没什么意义了。

现在来看 (A – λI) 这个新矩阵。我们把它记作矩阵 B，那么方程就是 Bx = 0。这是一个齐次线性方程组。

我们知道，如果矩阵 B 是可逆的（也就是说它的行列式不等于零），那么这个方程有唯一的解，就是 x = 0。但这恰恰是我们不想要的。我们想要的是非零解。

一个齐次线性方程组要有非零解，唯一的可能性就是它的系数矩阵的行列式等于零。也就是说，矩阵 (A – λI) 必须是奇异的、不可逆的。

所以，关键的一步来了：我们必须让 (A – λI) 的行列式为零。

det(A – λI) = 0

这个方程被称为“特征多项式”。只要解出这个关于 λ 的方程，得到的解就是矩阵 A 的所有特征值。

第三步：动手计算一个例子

我们来实际算一下。假设有矩阵 A：

A =

[ 2 1 ]

[ 1 2 ]

首先，构建 (A – λI)：

A – λI =

[ 2 1 ] – λ [ 1 0 ]

[ 1 2 ] [ 0 1 ]

[ 2 1 ] – [ λ 0 ]

[ 1 2 ] [ 0 λ ]

[ 2-λ 1 ]

[ 1 2-λ ]

接下来，计算这个新矩阵的行列式，并让它等于零：

det(A – λI) = (2-λ)(2-λ) – (1)(1) = 0

展开这个方程：

4 – 4λ + λ² – 1 = 0

λ² – 4λ + 3 = 0

这是一个简单的一元二次方程。我们可以用因式分解来解它：

(λ – 3)(λ – 1) = 0

这样，我们就得到了两个解：

λ₁ = 3

λ₂ = 1

这两个数字，3 和 1，就是矩阵 A 的特征值。

对于更大的矩阵

如果是一个 3×3 的矩阵，计算过程是完全一样的，只是计算行列式会麻烦一点。最终你会得到一个关于 λ 的三次方程，解这个方程就能得到三个特征值。对于 n 阶方阵，你就会得到一个 n 次多项式，理论上它有 n 个根（可能包含重根或复数根）。

验证你的结果

计算完成后，有两个小技巧可以快速验证结果是否可能正确。

1. 矩阵的迹（Trace）：矩阵主对角线上所有元素的和，等于它所有特征值的和。在上面的例子中，矩阵 A 的迹是 2 + 2 = 4。我们算出的特征值是 3 和 1，它们的和也是 3 + 1 = 4。对上了。

2. 矩阵的行列式（Determinant）：矩阵的行列式等于它所有特征值的乘积。矩阵 A 的行列式是 (2)(2) – (1)(1) = 3。我们算出的特征值的乘积是 3 1 = 3。也对上了。

这两个性质是检查计算错误的有效方法。

找到特征值之后呢？

找到了特征值 λ，就可以把它代回到方程 (A – λI)x = 0 中，去求解对应的特征向量 x。对于每一个特征值，你都会解出一个（或一组）对应的特征向量。

例如，对于 λ₁ = 3：

(A – 3I)x = 0

[ 2-3 1 ] [x₁] =

[ 1 2-3 ] [x₂]

[ -1 1 ] [x₁] =

[ 1 -1 ] [x₂]

这会得到方程 -x₁ + x₂ = 0，也就是 x₁ = x₂。满足这个条件的任何非零向量都是对应于特征值 3 的特征向量。比如，我们可以取 x =ᵀ。

同样地，对于 λ₂ = 1：

(A – 1I)x = 0

[ 2-1 1 ] [x₁] =

[ 1 2-1 ] [x₂]

[ 1 1 ] [x₁] =

[ 1 1 ] [x₂]

这会得到方程 x₁ + x₂ = 0，也就是 x₁ = -x₂。我们可以取对应的特征向量 x = [1, -1]ᵀ。

所以，矩阵 A 有两个特征值 3 和 1，它们分别对应着特征向量的方向ᵀ 和 [1, -1]ᵀ。这意味着，当你用矩阵 A 去乘以任何在ᵀ 方向上的向量时，结果会把这个向量的长度拉伸为原来的 3 倍；而当你用 A 乘以任何在 [1, -1]ᵀ 方向上的向量时，结果的长度不变，方向也不变。

矩阵求特征值

相关推荐

评论抢沙发

评论前必须登录！

猜你喜欢

最新

相关推荐

评论 抢沙发

评论前必须登录！

猜你喜欢

最新

评论抢沙发