14007 words

70 minutes

Linear Algebra Learning Notes: Specialized for Japanese Graduate Entrance Exams

2026-04-01

ノート / Notes

院試 / Grad Prep

/

数学 / Math

Linear Algebra Learning Notes: Specialized for Japanese Graduate Entrance Exams#

1. 核心概念复习：列空间 (Column Space) 与零空间 (Nullspace)#

1.1 零空间 $N(A)$ 的本质#

数学定义：满足 $Ax = 0$ 的所有解 $x$ 的集合。
几何本质：矩阵列向量的线性组合等于零向量。例如，若 $x = [1, 1, 1]^T$ 在 $N(A)$ 中，则表示 $1 \cdot c_1 + 1 \cdot c_2 + 1 \cdot c_3 = 0$ ，即列向量线性相关。
子空间性质：零空间对数乘 and 加法封闭，是一个真正的向量子空间。

1.2 列空间 $C(A)$ 与秩 (Rank)#

数学定义：矩阵所有列向量的线性组合构成的空间。
秩 $r$ ：主元 (pivots) 的个数，代表列空间中独立向量的数量。
几何形状：
- $r=1$ ：穿过原点的直线。
- $r=2$ ：穿过原点的平面。
- $r=n$ ：充满整个 $n$ 维空间。

2. 黄金法则：秩-零化度定理 (Rank-Nullity Theorem)#

对于一个 $m \times n$ 的矩阵 $A$ ： $\text{矩阵总列数 } n = \text{列空间维度 } r + \text{零空间维度 } (n-r)$

物理意义：输入信息被分流，维度为 $r$ 的信息转化为非零输出，维度为 $n-r$ 的信息被“抹除”进入零空间。

3. 实战练习与证明破局#

3.1 基础训练：列向量关系判定#

题目：若 $x = [1, 1, 1]^T$ 在 3x3 矩阵 $A$ 的零空间 $N(A)$ 中，列向量 $c_1, c_2, c_3$ 有何关系？

解析：由 $Ax=0$ 可知， $1 \cdot c_1 + 1 \cdot c_2 + 1 \cdot c_3 = 0$ 。这说明列向量线性相关，矩阵为奇异矩阵。

3.2 难点攻克：含参矩阵分析#

题目：给定 $A = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 4 \\ 1 & 3 & a \end{bmatrix}$ ，求 $a$ 为何值时 $N(A)$ 存在非零向量？

关键点：高斯消元后，若要存在非零解（即存在自由变量），必须出现全零行。计算得出 $a=7$ 。
结论：当 $a=7$ 时，零空间向量为 $x = [1, -2, 1]^T$ ，对应列空间 $C(A)$ 是一个由前两列张成的 2D 平面。

3.3 抽象矩阵证明思路#

题目：证明若 $A^2 = 0$ ，则 $C(A) \subseteq N(A)$ 。

翻译机制：
1. 若 $y \in C(A)$ ，则存在 $x$ 使得 $y = Ax$ 。
2. 要证 $y \in N(A)$ ，只需证 $Ay = 0$ 。
3. 带入得 $A(Ax) = A^2x = 0x = 0$ 。
结论延伸：由于 $C(A) \subseteq N(A)$ ，则维度满足 $r \le n-r$ ，即 $r \le n/2$ 。

4. 终极版： $Ax = b$ 的完整解结构#

4.1 通解公式#

$x = x_p + x_n$

$x_p$ (Particular Solution)：特解，将解平移到正确位置。令所有自由变量为 0 即可快速求得。
$x_n$ (Nullspace Solution)：零空间通解，代表解的延展方向。

4.2 案例演示：Gauss-Jordan 消元实操#

针对以下方程组： $\begin{bmatrix} 1 & 2 & 1 \\ 2 & 4 & 0 \\ 3 & 6 & 1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = \begin{bmatrix} 2 \\ 2 \\ 4 \end{bmatrix}$

通过初等行变换化为 最简行阶梯形 (RREF)： $\begin{bmatrix} 1 & 2 & 0 & | & 1 \\ 0 & 0 & 1 & | & 1 \\ 0 & 0 & 0 & | & 0 \end{bmatrix}$

完整解： $x = \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix} + c \begin{bmatrix} -2 \\ 1 \\ 0 \end{bmatrix}$

手写过程参考#

手写解题过程

5. 解的结构预言：四种命运#

通过 $r$ (秩)、 $m$ (行/方程数)、 $n$ (列/未知数) 的关系直接断定解的性质：

形态	关系	几何/解的特征	解的数量
满秩方阵	$r = m = n$	最完美形态，存在逆矩阵	唯一解
满列秩	$r = n < m$	瘦高型，无自由变量	0 或 1 个解
满行秩	$r = m < n$	矮胖型，无全零行，必有解	无数个解
秩亏缺	$r < m$ 且 $r < n$	残缺型，行列都不满	0 或无数个解

备考技巧：在考试中看到 $3 \times 5$ 矩阵，由于 $r \le 3 < 5$ ，立刻可知存在自由变量，该方程组绝对不可能有“唯一解”。

线性代数进阶复习笔记：从谱理论到 SVD#

核心哲学： 所有的矩阵分解，本质上都是在寻找一套最能简化物理规律的“尺子（基底）”。

👑 一、核心矩阵结构及其谱性质 (Spectral Properties)#

这部分是线性代数的“面相学”。通过矩阵的形状，直接判定其最深刻的代数与物理基因。

矩阵类型	定义 / 判定条件	特征值 ( $\lambda$ ) 性质	特征向量 ( $x$ ) 性质	物理/几何意义
对称矩阵 (Symmetric)	$A = A^T$	必为实数 ( $\lambda \in \mathbb{R}$ )	不同特征值的特征向量必正交	完美的坐标轴拉伸，无旋转
正定矩阵 (Positive Definite)	$x^T Ax > 0$ (对 $\forall x \neq 0$ )	全部大于 0 ( $\lambda > 0$ )	构成 $\mathbb{R}^n$ 的正交基	能量永远为正，存在全局唯一极小值 (碗底)
正交矩阵 (Orthogonal)	$Q^T Q = I$	模长绝对为 1 ( $\lambda = \pm 1$ )	——	保长变换 (纯旋转或翻转)， $Q^{-1}=Q^T$
反对称矩阵 (Skew-Symmetric)	$A^T = -A$	纯虚数或 0 ( $\lambda = i\omega$ )	属于正规矩阵族，特征向量正交	能量守恒，系统做无衰减的纯周期震荡
三角矩阵 (Triangular)	左下/右上全为 0	主对角线上的元素	——	连乘路线被阻断，方程直接降维解耦

🌟 谱定理 (Spectral Theorem)： > 任何实对称矩阵 $A$ 都可以被正交对角化为 $A = Q \Lambda Q^T$ 。

🪜 二、矩阵分解的阶梯 (Hierarchy of Matrix Factorizations)#

1. 对角化 (Diagonalization)#

公式： $A = S \Lambda S^{-1}$
前提： 必须拥有 $n$ 个线性无关的特征向量。
本质： 在特征基底视角下，错综复杂的空间变换被完美解耦为 $n$ 个独立方向的纯缩放。

2. 若尔当标准型 (Jordan Form)#

公式： $A = M J M^{-1}$
适用： 所有的方阵（包括特征向量缺失的残疾/退化矩阵）。
结构： $J$ 是由若尔当块组成的准对角阵。
终极判决： 一个若尔当块，不论尺寸多大，永远只能提供 1 个特征向量。若尔当块的数量 = 系统中真实独立特征向量的数量。

3. 奇异值分解 (Singular Value Decomposition, SVD)#

公式： $A = U \Sigma V^T$
适用： 任意 $m \times n$ 矩阵，线性代数最普适的终极解药。
代数构造：
- $V$ 是 $A^T A$ 的标准化特征向量矩阵（属于原空间的完美正交基）。
- $U$ 是 $AA^T$ 的标准化特征向量矩阵（属于目标空间的完美正交基）。
- $\Sigma$ 的对角线元素 $\sigma_i = \sqrt{\lambda_i(A^T A)}$ ，代表拉伸的绝对倍数。
几何意义： 任何复杂的变形 $A$ ，都等价于：旋转 ( $V^T$ ) $\to$ 独立拉伸 ( $\Sigma$ ) $\to$ 再旋转 ( $U$ )。

📐 三、心算秒杀捷径 (Cheat Codes)#

在考场上，这些法则是绕过复杂一元高次方程的利器。

生死的绑定：迹与行列式
- 迹 (Trace) = 主对角线之和 = $\sum \lambda_i$
- 行列式 (Det) = $\prod \lambda_i$
常量对角对称矩阵 $\begin{bmatrix} a & b \\ b & a \end{bmatrix}$
- 特征值直接秒杀： $\lambda_1 = a+b, \quad \lambda_2 = a-b$
- 特征向量永恒锁定： $\begin{bmatrix} 1 \\ 1 \end{bmatrix}$ 和 $\begin{bmatrix} -1 \\ 1 \end{bmatrix}$
秩为 1 的矩阵 (Rank = 1)
- 所有行/列成比例。
- 特征值：有且仅有 1 个非零特征值（刚好等于 Trace），其余全部为 0。

🌐 四、线性变换与物理时空观#

1. 线性变换的判别#

真正的线性变换必须满足叠加原理： $T(cv + dw) = cT(v) + dT(w)$

致命法则： $T(0)$ 必须等于 $0$ 。原点偏移（如平移 $T(v) = v + v_0$ ）绝不是线性变换。

2. 基底锁定全宇宙#

如果想知道一个线性变换对全宇宙任意点 $v$ 的效果，不需要全场追踪。
只需要追踪基底的落点（例如 $T(v_1), T(v_2) \dots$ ）。
矩阵 $A$ 就是这本记录册！ 矩阵的每一列，就是空间基础网格（基向量）被变换后落下的坐标。

3. 预测未来：常微分方程组#

系统方程： $\frac{du}{dt} = Au$
时间演化公式： $u(t) = e^{At}u(0)$
特征值解耦降维打击： $e^{At} = S e^{\Lambda t} S^{-1}$
通过特征值看透系统宿命：
- 实部 $< 0$ ：能量衰减，系统归于死寂。
- 实部 $> 0$ ：能量爆炸，系统发散崩溃。
- 纯虚数 ( $a=0, b \neq 0$ )：能量守恒，永无止境的周期性震荡。

典型例题：基于谱信息（特征值与特征向量）的矩阵属性判定#

【题目描述】 已知某 $3 \times 3$ 矩阵 $A$ 的特征值分别为： $\lambda_1 = 0, \quad \lambda_2 = c, \quad \lambda_3 = 2$

其对应的特征向量分别为： $x_1 = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}, \quad x_2 = \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix}, \quad x_3 = \begin{bmatrix} 1 \\ 1 \\ -2 \end{bmatrix}$

请根据以上信息，回答下列问题并给出严格的代数理由：

(a) 矩阵 $A$ 是否可对角化 (Diagonalizable)？变量 $c$ 需要满足什么条件？
(b) 矩阵 $A$ 是否为对称矩阵 (Symmetric)？变量 $c$ 需要满足什么条件？
(c) 矩阵 $A$ 是否为正定矩阵 (Positive definite)？
(d) 矩阵 $A$ 是否为马尔可夫矩阵 (Markov matrix)？
(e) 令 $P = \frac{1}{2}A$ ，矩阵 $P$ 是否为投影矩阵 (Projection matrix)？变量 $c$ 需要满足什么条件？

【思路剖析（隐藏的阵眼）】 在动笔做题前，观察给定的三个特征向量，计算它们的内积（点积）：

$x_1^T x_2 = 1\times1 + 1\times(-1) + 1\times0 = 0$
$x_1^T x_3 = 1\times1 + 1\times1 + 1\times(-2) = 0$
$x_2^T x_3 = 1\times1 + (-1)\times1 + 0\times(-2) = 0$

结论：三个特征向量两两正交。 这是一个极其强大的隐藏条件，也是解答后续问题的核心依据。

【详细解答】

(a) 矩阵 $A$ 是否可对角化？

结论： 是。对任意实数或复数 $c$ 均成立。
理由： 矩阵 $A$ 的三个特征向量 $x_1, x_2, x_3$ 互相正交，因此它们必定线性无关。一个 $3 \times 3$ 矩阵只要拥有 3 个线性无关的特征向量，即可构成可逆的特征向量矩阵 $S$ ，从而满足 $A = S\Lambda S^{-1}$ ，故必然可对角化。即便 $c=0$ 或 $c=2$ 导致特征值存在重根，正交性依然保证了特征向量的线性无关性。

(b) 矩阵 $A$ 是否为对称矩阵？

结论： 是。要求 $c$ 必须为实数 ( $c \in \mathbb{R}$ )。
理由： 根据谱定理 (Spectral Theorem)，一个矩阵是对称矩阵当且仅当它拥有完备的正交特征向量组，且所有特征值均为实数。已知特征向量已经正交，因此只要未知特征值 $c$ 是实数，矩阵 $A$ 就必定是对称矩阵。

(c) 矩阵 $A$ 是否为正定矩阵？

结论： 否 (No)。
理由： 正定矩阵的定义要求系统能量绝对为正，在特征值上的反映是所有的特征值必须严格大于 0 ( $\lambda_i > 0$ )。已知第一特征值 $\lambda_1 = 0$ ，不满足严格大于 0 的条件。（注：若限制 $c \ge 0$ ，该矩阵可被称为“半正定矩阵” Positive Semi-Definite）。

(d) 矩阵 $A$ 是否为马尔可夫矩阵？

结论： 否 (No)。
理由： 马尔可夫矩阵描述的是概率转移，系统的总概率保持不变，因此其最大特征值必须严格等于 1。已知该矩阵存在特征值 $\lambda_3 = 2 > 1$ ，这意味着系统状态的模长会随时间呈指数级爆炸，因此绝对不可能是马尔可夫矩阵。

(e) $P = \frac{1}{2}A$ 是否为投影矩阵？

结论： 是。要求 $c = 0$ 或 $c = 2$ 。
理由： 投影矩阵的几何性质决定了“投影两次等于投影一次”，即必须满足 $P^2 = P$ 。代入特征值方程可知 $\lambda^2 = \lambda$ ，解得投影矩阵的特征值只能是 $0$ 或 $1$ 。由于 $P = \frac{1}{2}A$ ，根据线性代数法则，矩阵 $P$ 的特征值为矩阵 $A$ 特征值的一半，即： $\lambda_{P1} = 0, \quad \lambda_{P2} = \frac{c}{2}, \quad \lambda_{P3} = 1$ 为了使 $P$ 满足投影矩阵的条件，未知的特征值 $\frac{c}{2}$ 必须等于 $0$ 或 $1$ 。解得： $c = 0$ 或 $c = 2$ 。

【考点总结】

对角化的充要条件： 拥有 $n$ 个线性无关的特征向量（与特征值是否重复/有无重根无关）。
谱定理逆用： 正交特征向量组 + 纯实数特征值 $\iff$ 对称矩阵。
正定性判定： 全体特征值 $\lambda > 0$ （有一票否决制）。
投影矩阵特征： 特征值被死死锁定在集合 $\{0, 1\}$ 中。

SVD分解过程#

我们选这个稍微有点不对称的矩阵： $A = \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix}$

目标是求出： $A = U \Sigma V^T$ 。

第一步：找原空间的基底与拉伸量（求 $V$ 和 $\Sigma$ ）#

因为直接处理 $A$ 很难，我们构造对称矩阵 $A^T A$ 。

1. 算 $A^T A$ $A^T A = \begin{bmatrix} 3 & 4 \\ 0 & 5 \end{bmatrix} \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix} = \begin{bmatrix} 3\times3+4\times4 & 3\times0+4\times5 \\ 0\times3+5\times4 & 0\times0+5\times5 \end{bmatrix} = \begin{bmatrix} 25 & 20 \\ 20 & 25 \end{bmatrix}$

2. 找特征值（决定 $\Sigma$ ） 出现了一个对角线数字相同的常量对称矩阵！立刻触发我们的**“心算秒杀法则”**：

第一特征值： $\lambda_1 = a + b = 25 + 20 = 45$
第二特征值： $\lambda_2 = a - b = 25 - 20 = 5$

因为奇异值是特征值的平方根（ $\sigma_i = \sqrt{\lambda_i}$ ），所以：

$\sigma_1 = \sqrt{45} = 3\sqrt{5}$
$\sigma_2 = \sqrt{5}$

直接写出奇异值矩阵（从大到小排）： $\Sigma = \begin{bmatrix} 3\sqrt{5} & 0 \\ 0 & \sqrt{5} \end{bmatrix}$

3. 找特征向量（决定 $V$ ） 继续触发秒杀法则！这种矩阵的特征向量永远死死绑定在 $45^\circ$ 和 $135^\circ$ 方向。

我们面对的矩阵是 $M = \begin{bmatrix} 25 & 20 \\ 20 & 25 \end{bmatrix}$ 。我们已经算出了两个特征值： $\lambda_1 = 45, \lambda_2 = 5$ 。现在我们要通过求解特征方程 $(M - \lambda I)x = 0$ ，找出它们对应的标准化特征向量 $v_1$ 和 $v_2$ 。

第一轮求解：代入 $\lambda_1 = 45$ #

1. 构造 $(M - \lambda I)$ 矩阵： 把主对角线上的数字减去 $45$ ： $M - 45I = \begin{bmatrix} 25 - 45 & 20 \\ 20 & 25 - 45 \end{bmatrix} = \begin{bmatrix} -20 & 20 \\ 20 & -20 \end{bmatrix}$

2. 解齐次线性方程组 $(M - 45I)x = 0$ ： $\begin{bmatrix} -20 & 20 \\ 20 & -20 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$ 展开得到两个方程：

$-20x_1 + 20x_2 = 0$
$20x_1 - 20x_2 = 0$

可以看出，这两行表达的是同一个意思（这就是特征值使矩阵退化的必然结果）。化简后得到： $x_1 = x_2$ 为了取最简单的整数解，我们令 $x_1 = 1, x_2 = 1$ 。得到基础特征向量： $v_{base1} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$

3. 标准化（极其关键！SVD 要求向量长度必须为 1）：

算长度： $\|v_{base1}\| = \sqrt{1^2 + 1^2} = \sqrt{2}$
缩放向量：将原向量除以长度。 $v_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$

第二轮求解：代入 $\lambda_2 = 5$ #

1. 构造 $(M - \lambda I)$ 矩阵： 把主对角线上的数字减去 $5$ ： $M - 5I = \begin{bmatrix} 25 - 5 & 20 \\ 20 & 25 - 5 \end{bmatrix} = \begin{bmatrix} 20 & 20 \\ 20 & 20 \end{bmatrix}$

2. 解方程组 $(M - 5I)x = 0$ ： $\begin{bmatrix} 20 & 20 \\ 20 & 20 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$ 两行完全一样： $20x_1 + 20x_2 = 0$ 。化简后得到： $x_1 = -x_2$ 取最简单的一组整数解，令 $x_1 = -1, x_2 = 1$ 。（当然你选 $1$ 和 $-1$ 也完全可以）。得到基础特征向量： $v_{base2} = \begin{bmatrix} -1 \\ 1 \end{bmatrix}$

3. 标准化：

算长度： $\|v_{base2}\| = \sqrt{(-1)^2 + 1^2} = \sqrt{2}$
缩放向量： $v_2 = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$

拼装矩阵 $V^T$ #

最后，把算出来的 $v_1$ 和 $v_2$ 按照列拼成正交矩阵 $V = \begin{bmatrix} \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}$ 。

因为 SVD 公式 $A=U\Sigma V^T$ 里需要的是转置矩阵 $V^T$ ，我们把它的行和列对调一下： $V^T = \begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}$

为了满足正交矩阵长度为 $1$ 的要求，我们直接写出标准化后的特征向量：

对应 $\lambda_1 = 45$ 的向量： $v_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$
对应 $\lambda_2 = 5$ 的向量： $v_2 = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$

把它们拼成右奇异矩阵 $V$ 。在公式中我们需要的是 $V^T$ （按行排布）： $V^T = \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix}$

第二步：找目标空间的基底（求 $U$ ）#

千万记住 Strang 教授在黑板上极其用力的 “Instead” 法则！ 绝对不要去算 $A A^T$ 的特征向量，那样容易出现正负号断裂！我们要用 SVD 的灵魂公式直接强推： $u_i = \frac{A v_i}{\sigma_i}$ 。

1. 求 $u_1$ ： $u_1 = \frac{1}{3\sqrt{5}} \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix} \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$ 先算矩阵乘法： $= \frac{1}{3\sqrt{5}} \begin{bmatrix} \frac{3}{\sqrt{2}} \\ \frac{9}{\sqrt{2}} \end{bmatrix}$ 把外面的分母乘进去（注意 $3\sqrt{5} \times \sqrt{2} = 3\sqrt{10}$ ）： $u_1 = \begin{bmatrix} \frac{3}{3\sqrt{10}} \\ \frac{9}{3\sqrt{10}} \end{bmatrix} = \mathbf{\begin{bmatrix} 1/\sqrt{10} \\ 3/\sqrt{10} \end{bmatrix}}$

2. 求 $u_2$ ： $u_2 = \frac{1}{\sqrt{5}} \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix} \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$ 先算矩阵乘法： $= \frac{1}{\sqrt{5}} \begin{bmatrix} -\frac{3}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix}$ 把外面的分母乘进去（ $\sqrt{5} \times \sqrt{2} = \sqrt{10}$ ）： $u_2 = \mathbf{\begin{bmatrix} -3/\sqrt{10} \\ 1/\sqrt{10} \end{bmatrix}}$

将 $u_1$ 和 $u_2$ 拼起来，这就是绝对安全的左奇异矩阵 $U$ ： $U = \begin{bmatrix} \frac{1}{\sqrt{10}} & -\frac{3}{\sqrt{10}} \\ \frac{3}{\sqrt{10}} & \frac{1}{\sqrt{10}} \end{bmatrix}$

(口算验证： $U$ 的两列点积是不是 $0$ ？ $\frac{1\times(-3)}{10} + \frac{3\times1}{10} = 0$ 。长度是不是 $1$ ？ $\frac{1^2+3^2}{10} = \frac{10}{10} = 1$ 。完美正交！)

第三步：大满贯拼装#

现在，我们将三个矩阵组合在一起，见证代数的极致对称美：

$A = \underbrace{\begin{bmatrix} \frac{1}{\sqrt{10}} & -\frac{3}{\sqrt{10}} \\ \frac{3}{\sqrt{10}} & \frac{1}{\sqrt{10}} \end{bmatrix}}_{U} \underbrace{\begin{bmatrix} 3\sqrt{5} & 0 \\ 0 & \sqrt{5} \end{bmatrix}}_{\Sigma} \underbrace{\begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}}_{V^T}$

東京大学新領域創成科学研究科メディカル情報生命専攻 2025年8月実施問題7#

Author#

KardeniaPoyu

Description#

行列 $A = \begin{pmatrix} 1 & 1 \\ 1 & 0 \end{pmatrix}$ について、以下の問いに答えよ。

(1) $A$ の固有値、固有ベクトルを求めよ。
(2) $\lim_{n \to \infty} A^n \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}$ を満たす、非ゼロの $\begin{pmatrix} x \\ y \end{pmatrix}$ を求めよ。

$m \times n$ 実行列 $A$ 、 $l \times n$ 実行列 $B$ に対して、 $A \boldsymbol{x} = \boldsymbol{0}$ を満たすベクトル $\boldsymbol{x}$ は必ず $B \boldsymbol{x} = \boldsymbol{0}$ を満たすとき、以下の二つを示せ。

(3) $\text{rank } A \ge \text{rank } B$
(4) $B = CA$ を満たす $l \times m$ 実行列 $C$ が存在する。

Kai#

(1)#

行列 $A$ の固有値を $\lambda$ とすると、特性方程式は次のように表される。

\begin{aligned} \det(A - \lambda I) &= \begin{vmatrix} 1 - \lambda & 1 \\ 1 & -\lambda \end{vmatrix} \\ &= -\lambda(1 - \lambda) - 1 \\ &= \lambda^2 - \lambda - 1 = 0 \end{aligned}

これを解くと、固有値は $\lambda = \frac{1 \pm \sqrt{5}}{2}$ となる。

次に、それぞれの固有値に対する固有ベクトルを求める。 $\lambda_1 = \frac{1 + \sqrt{5}}{2}, \lambda_2 = \frac{1 - \sqrt{5}}{2}$ とおく。

$\lambda_1 = \frac{1 + \sqrt{5}}{2}$ のとき $(A - \lambda_1 I)\boldsymbol{v} = \boldsymbol{0}$ より、

\begin{pmatrix} 1 - \frac{1 + \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 + \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}

\begin{pmatrix} \frac{1 - \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 + \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}

よって、 $v_1 - \frac{1 + \sqrt{5}}{2} v_2 = 0$ が得られる。したがって、対応する固有ベクトルは $c_1 \begin{pmatrix} \frac{1 + \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_1 \neq 0)$ となる。

$\lambda_2 = \frac{1 - \sqrt{5}}{2}$ のとき $(A - \lambda_2 I)\boldsymbol{v} = \boldsymbol{0}$ より、

\begin{pmatrix} 1 - \frac{1 - \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 - \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}

\begin{pmatrix} \frac{1 + \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 - \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}

よって、 $v_1 - \frac{1 - \sqrt{5}}{2} v_2 = 0$ が得られる。したがって、対応する固有ベクトルは $c_2 \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_2 \neq 0)$ となる。

以上より、固有値と固有ベクトルは以下の通りである。

固有値 $\frac{1 + \sqrt{5}}{2}$ に対する固有ベクトル: $c_1 \begin{pmatrix} \frac{1 + \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_1 \neq 0)$
固有値 $\frac{1 - \sqrt{5}}{2}$ に対する固有ベクトル: $c_2 \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_2 \neq 0)$

(2)#

(1) で求めた固有ベクトル $\boldsymbol{v}_1 = \begin{pmatrix} \frac{1 + \sqrt{5}}{2} \\ 1 \end{pmatrix}, \boldsymbol{v}_2 = \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix}$ は一次独立であるため、これらを基底として $\begin{pmatrix} x \\ y \end{pmatrix}$ を表すことができる。実数 $\alpha, \beta$ を用いて、

\begin{pmatrix} x \\ y \end{pmatrix} = \alpha \boldsymbol{v}_1 + \beta \boldsymbol{v}_2

と表すとする。このとき、 $A^n \begin{pmatrix} x \\ y \end{pmatrix}$ は次のように計算できる。

\begin{aligned} A^n \begin{pmatrix} x \\ y \end{pmatrix} &= A^n (\alpha \boldsymbol{v}_1 + \beta \boldsymbol{v}_2) \\ &= \alpha A^n \boldsymbol{v}_1 + \beta A^n \boldsymbol{v}_2 \\ &= \alpha \lambda_1^n \boldsymbol{v}_1 + \beta \lambda_2^n \boldsymbol{v}_2 \end{aligned}

ここで、 $n \to \infty$ の極限を考える。 $\lambda_1 = \frac{1 + \sqrt{5}}{2} \approx 1.618 > 1$ であるため、 $\lambda_1^n$ は発散する。一方、 $\lambda_2 = \frac{1 - \sqrt{5}}{2} \approx -0.618$ であり、 $|\lambda_2| < 1$ であるため、 $\lambda_2^n \to 0 \quad (n \to \infty)$ となる。

したがって、 $\lim_{n \to \infty} A^n \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}$ が成り立つためには、発散する項の係数 $\alpha$ が $0$ でなければならない。

$\alpha = 0$ のとき、

\begin{pmatrix} x \\ y \end{pmatrix} = \beta \boldsymbol{v}_2 = \beta \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix}

となる。 $\begin{pmatrix} x \\ y \end{pmatrix}$ は非ゼロであるため、 $\beta \neq 0$ である。よって、求める非ゼロのベクトル $\begin{pmatrix} x \\ y \end{pmatrix}$ は、

c \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c \neq 0)

である。

(3)#

$A$ を $m \times n$ 行列、 $B$ を $l \times n$ 行列とする。仮定より、 $A\boldsymbol{x} = \boldsymbol{0}$ を満たすベクトル $\boldsymbol{x}$ は必ず $B\boldsymbol{x} = \boldsymbol{0}$ を満たす。すなわち、行列 $A$ の核 (Null space) を $\ker(A)$ 、行列 $B$ の核を $\ker(B)$ とすると、

\ker(A) \subseteq \ker(B)

が成り立つ。これより、それぞれの核の次元 (Nullity) について以下の不等式が成り立つ。

\dim(\ker(A)) \le \dim(\ker(B))

ここで、次元定理 (Rank-Nullity Theorem) より、任意の $k \times n$ 行列 $M$ について、

\text{rank}(M) + \dim(\ker(M)) = n

が成り立つ。行列 $A$ と $B$ はともに $n$ 列の行列であるため、

\text{rank}(A) + \dim(\ker(A)) = n

\text{rank}(B) + \dim(\ker(B)) = n

となる。これらを変形して不等式に代入すると、

n - \text{rank}(A) \le n - \text{rank}(B) \implies \text{rank}(A) \ge \text{rank}(B)

が示された。

English:

Let $A$ be an $m \times n$ matrix and $B$ be an $l \times n$ matrix. By assumption, any vector $\boldsymbol{x}$ satisfying $A\boldsymbol{x} = \boldsymbol{0}$ also satisfies $B\boldsymbol{x} = \boldsymbol{0}$ . That is, if we denote the null space (kernel) of $A$ and $B$ as $\ker(A)$ and $\ker(B)$ respectively, then:

$\ker(A) \subseteq \ker(B)$

This implies the following inequality for the dimensions of the kernels (nullities):

$\dim(\ker(A)) \le \dim(\ker(B))$

From the Rank-Nullity Theorem, for any $k \times n$ matrix $M$ :

$\text{rank}(M) + \dim(\ker(M)) = n$ Since matrices $A$ and $B$ both have $n$ columns, we have:
$\begin{aligned} \text{rank}(A) + \dim(\ker(A)) &= n \\ \text{rank}(B) + \dim(\ker(B)) &= n \end{aligned}$
Substituting these into the inequality:

$n - \text{rank}(A) \le n - \text{rank}(B) \implies \text{rank}(A) \ge \text{rank}(B)$

This completes the proof.

(4)#

仮定より $\ker(A) \subseteq \ker(B)$ である。任意の部分空間 $V$ について、その直交補空間を $V^\perp$ と表す。包含関係の直交補空間をとると、包含関係が逆転するため、

\ker(B)^\perp \subseteq \ker(A)^\perp

が成り立つ。任意の行列について、その核の直交補空間は行空間 (Row space) と一致する。すなわち、行列 $M$ の行空間を $R(M)$ とすると、 $\ker(M)^\perp = R(M)$ である。これを用いると、上の包含関係は次のように表せる。

R(B) \subseteq R(A)

これは、行列 $B$ のすべての行ベクトルが、行列 $A$ の行ベクトルの線形結合として表せることを意味する。行列 $A$ の $j$ 番目の行ベクトルを $\boldsymbol{a}_j^T \quad (j=1, \dots, m)$ とし、行列 $B$ の $i$ 番目の行ベクトルを $\boldsymbol{b}_i^T \quad (i=1, \dots, l)$ とすると、任意の $i$ について、あるスカラー $c_{ij}$ が存在して、

\boldsymbol{b}_i^T = \sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T

と表せる。ここで、 $c_{ij}$ を $(i, j)$ 成分に持つ $l \times m$ 行列を $C$ と定義する。このとき、行列の積 $CA$ の第 $i$ 行は $\sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T$ となり、これは $\boldsymbol{b}_i^T$ に等しい。よって、 $B = CA$ が成り立つ。以上より、 $B = CA$ を満たす $l \times m$ 実行列 $C$ が存在することが示された。

English:

For any subspace $V$ , let $V^\perp$ denote its orthogonal complement. Taking the orthogonal complement of both sides reverses the inclusion relation:

$\ker(B)^\perp \subseteq \ker(A)^\perp$

For any matrix, the orthogonal complement of its null space is its row space. That is, if $R(M)$ is the row space of matrix $M$ , then $\ker(M)^\perp = R(M)$ . Thus, the inclusion can be rewritten as:

$R(B) \subseteq R(A)$

This means every row vector of matrix $B$ can be expressed as a linear combination of the row vectors of matrix $A$ . Let $\boldsymbol{a}_j^T \quad (j=1, \dots, m)$ be the $j$ -th row vector of $A$ , and $\boldsymbol{b}_i^T \quad (i=1, \dots, l)$ be the $i$ -th row vector of $B$ .

$\boldsymbol{b}_i^T = \sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T$

Define an $l \times m$ matrix $C$ where the $(i, j)$ -th entry is $c_{ij}$ . Then, the $i$ -th row of the product $CA$ is $\sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T$ , which equals $\boldsymbol{b}_i^T$ . Therefore, $B = CA$ holds.

This proves that there exists an $l \times m$ real matrix $C$ satisfying $B = CA$ .

Summary#

次元定理 (Rank-Nullity Theorem): $\text{rank}(A) + \dim(\ker A) = n$ （即： $\text{秩} + \text{零空间维度} = \text{总列数}$ ）。
题目条件翻译成数学语言。

最小二乘法#

Question#

Find the least squares solution $\hat{\boldsymbol{x}}$ for the system $A\boldsymbol{x} = \boldsymbol{b}$ , where: $A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}, \quad \boldsymbol{b} = \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix}$

Solution#

面对 $Ax = b$ 无解的绝境，线性代数给出的终极拯救方案就是正规方程 (Normal Equations)：在等式两边同时左乘矩阵的转置 $A^T$ ，强行把方程变成有解的形态：

$A^T A \hat{x} = A^T b$

我们把这道题的数据代进去，一步一步把它算穿：

第一步：准备好弹药 ( $A$ , $A^T$ , $b$ )#

已知我们的原矩阵 $A$ 和目标向量 $b$ ： $A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}, \quad b = \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix}$

首先，写出 $A$ 的转置 $A^T$ （把列变成行）： $A^T = \begin{bmatrix} 1 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix}$

第二步：组装对称正定方阵 ( $A^T A$ )#

这是最神奇的一步！无论 $A$ 原本有多么高瘦不规则，乘以自己的转置后，必定会生出一个完美的、可逆的对称方阵。 $A^T A = \begin{bmatrix} 1 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}$

第一行乘第一列： $1\times1 + 1\times1 + 1\times1 = \mathbf{3}$
第一行乘第二列： $1\times0 + 1\times1 + 1\times2 = \mathbf{3}$
第二行乘第一列： $0\times1 + 1\times1 + 2\times1 = \mathbf{3}$
第二行乘第二列： $0\times0 + 1\times1 + 2\times2 = \mathbf{5}$

所以， $A^T A = \begin{bmatrix} 3 & 3 \\ 3 & 5 \end{bmatrix}$ (看到了吗？主对角线两侧都是 3，完美的对称矩阵！)

第三步：转化目标向量 ( $A^T b$ )#

对目标 $b$ 进行同样的降维打击： $A^T b = \begin{bmatrix} 1 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix} \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix}$

第一行乘 $b$ ： $1\times3 + 1\times4 + 1\times1 = \mathbf{8}$
第二行乘 $b$ ： $0\times3 + 1\times4 + 2\times1 = \mathbf{6}$

所以， $A^T b = \begin{bmatrix} 8 \\ 6 \end{bmatrix}$

第四步：解救 $\hat{x}$ (求解正规方程)#

现在，原本那个无解的 $3 \times 2$ 绝境，被我们完美转化成了一个极其标准的 $2 \times 2$ 线性方程组： $\begin{bmatrix} 3 & 3 \\ 3 & 5 \end{bmatrix} \begin{bmatrix} \hat{C} \\ \hat{D} \end{bmatrix} = \begin{bmatrix} 8 \\ 6 \end{bmatrix}$

解这个方程简直易如反掌。我们求 $A^T A$ 的逆矩阵： $2 \times 2$ 矩阵的行列式： $3 \times 5 - 3 \times 3 = 15 - 9 = \mathbf{6}$ 。利用口诀“主对角互换，副对角变号，除以行列式”： $(A^T A)^{-1} = \frac{1}{6} \begin{bmatrix} 5 & -3 \\ -3 & 3 \end{bmatrix}$

把逆矩阵乘到右边去，彻底解放 $\hat{x}$ ： $\hat{x} = \frac{1}{6} \begin{bmatrix} 5 & -3 \\ -3 & 3 \end{bmatrix} \begin{bmatrix} 8 \\ 6 \end{bmatrix}$

$= \frac{1}{6} \begin{bmatrix} 5\times8 + (-3)\times6 \\ (-3)\times8 + 3\times6 \end{bmatrix} = \frac{1}{6} \begin{bmatrix} 40 - 18 \\ -24 + 18 \end{bmatrix} = \frac{1}{6} \begin{bmatrix} 22 \\ -6 \end{bmatrix}$

化简这个分数： $\hat{x} = \begin{bmatrix} 22/6 \\ -6/6 \end{bmatrix} = \begin{bmatrix} 11/3 \\ -1 \end{bmatrix}$

💡 灵魂拷问：为什么要左乘 $A^T$ ？#

这个看似流氓的“两边同乘 $A^T$ ”操作，绝不仅仅是为了凑出一个方阵，它的背后有着极其严密的几何物理意义。

我们复习一下刚刚讲的投影：

投影的本质是寻找列空间里离 $b$ 最近的点 $p$ 。
既然最近，那么产生的误差向量 $e = b - p$ 必须绝对垂直于列空间 $C(A)$ 。
垂直于列空间的向量，归谁管？归四个基本子空间里的**“左零空间 $N(A^T)$ ”**管！

这意味着，误差 $e$ 掉进了 $A^T$ 的零空间，所以： $A^T e = 0$

把 $e = b - A\hat{x}$ 代进去： $A^T (b - A\hat{x}) = 0$ 把括号拆开，移项： $A^T A \hat{x} = A^T b$

既然已经算出了最优解 $\hat{x} = \begin{bmatrix} 11/3 \\ -1 \end{bmatrix}$ ，求投影 $p$ 的过程，本质上就是把这个“配方”带回到原始矩阵 $A$ 的仓库里去“抓药”。

1. 核心公式：投影就是列的线性组合#

在最小二乘法中，投影向量 $p$ 的定义极其简单： $p = A\hat{x}$

这个公式的物理意义是：由于目标 $b$ 不在列空间里，我们退而求其次，寻找列空间中离 $b$ 最近的点。而 $\hat{x}$ 恰恰告诉了我们：“你应该用多少份的第一列和多少份的第二列，才能拼凑出这个最近的点。”

2. 具体的代数推导#

我们将矩阵 $A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}$ 和算出的 $\hat{x} = \begin{bmatrix} 11/3 \\ -1 \end{bmatrix}$ 代入：

$p = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} 11/3 \\ -1 \end{bmatrix}$

按照矩阵乘法（或者更直观的“列组合”视角）展开： $p = \frac{11}{3} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} + (-1) \begin{bmatrix} 0 \\ 1 \\ 2 \end{bmatrix}$

逐行计算：

第一行： $1 \times \frac{11}{3} + 0 \times (-1) = \mathbf{11/3}$
第二行： $1 \times \frac{11}{3} + 1 \times (-1) = \frac{11}{3} - \frac{3}{3} = \mathbf{8/3}$
第三行： $1 \times \frac{11}{3} + 2 \times (-1) = \frac{11}{3} - \frac{6}{3} = \mathbf{5/3}$

所以，投影向量为： $p = \begin{bmatrix} 11/3 \\ 8/3 \\ 5/3 \end{bmatrix}$

3. 为什么这个 $p$ 很重要？#

这个 $p$ 就是你在统计学里寻找的那条“最佳拟合直线”在数据点上的预估值。

当 $t=0$ 时，直线预测值是 $11/3$ 。
当 $t=1$ 时，直线预测值是 $8/3$ 。
当 $t=2$ 时，直线预测值是 $5/3$ 。

如果你把这些预测值跟原始的观测值 $b = \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix}$ 做对比，你会发现它们之间存在垂直的误差。

总结#

求投影 $p$ 的第一步是解出 $\hat{x}$ ，第二步就是简单的乘法 $p = A\hat{x}$ 。这个 $p$ 是列空间中对 $b$ 的最佳近似。如果你想进一步验证，可以计算 $e = b - p$ ，你会发现 $e$ 与 $A$ 的每一列都正交，这说明你的投影找得严丝合缝。

東京大学新領域創成科学研究科メディカル情報生命専攻 2026年1月実施問題7#

Description#

以下の問いに答えよ。

(1) 行列 $A = \begin{pmatrix} 2 & -1 & -1 \\ -1 & 2 & -1 \\ -1 & -1 & 2 \end{pmatrix}$ の固有値を求めよ。

(2) 行列 $A$ の固有空間の基底を求めよ。

(3) $P^T AP$ が対角行列になるような直交行列 $P$ を求めよ。

(4) $\boldsymbol{x} = (x_1, x_2, x_3)^T$ を三次元実ベクトルとする。 $f(\boldsymbol{x}) = \boldsymbol{x}^T A \boldsymbol{x}$ の最小値を与える最適解的集合は、三次元空間における直線になっている。この直線を表す方程式を示せ。

(5) 実数の成分からなる対称正方行列に対して、すべての固有値が異なるならば、すべての固有ベクトルは相互に直交することを証明せよ。

Kai#

(1) 固有値の算出#

行列 $A$ の固有方程式 $|\lambda I - A| = 0$ を解く。

$|\lambda I - A| = \begin{vmatrix} \lambda - 2 & 1 & 1 \\ 1 & \lambda - 2 & 1 \\ 1 & 1 & \lambda - 2 \end{vmatrix}$ 各列を第1列に加えると、

\begin{aligned} |\lambda I - A| &= \begin{vmatrix} \lambda & 1 & 1 \\ \lambda & \lambda - 2 & 1 \\ \lambda & 1 & \lambda - 2 \end{vmatrix} \\ &= \lambda \begin{vmatrix} 1 & 1 & 1 \\ 1 & \lambda - 2 & 1 \\ 1 & 1 & \lambda - 2 \end{vmatrix} \end{aligned}

第2行および第3行から第1行を引くと、

\begin{aligned} &= \lambda \begin{vmatrix} 1 & 1 & 1 \\ 0 & \lambda - 3 & 0 \\ 0 & 0 & \lambda - 3 \end{vmatrix} \\ &= \lambda (\lambda - 3)^2 = 0 \end{aligned}

ゆえに、行列 $A$ の固有値は $\lambda = 0, 3$ （ $3$ は2重根） である。

（別解：サラスの公式による展開）

\begin{aligned} |\lambda I - A| &= \begin{vmatrix} \lambda - 2 & 1 & 1 \\ 1 & \lambda - 2 & 1 \\ 1 & 1 & \lambda - 2 \end{vmatrix} \\ &= (\lambda - 2)^3 + (1 \cdot 1 \cdot 1) + (1 \cdot 1 \cdot 1) - (\lambda - 2) \cdot 1 \cdot 1 - 1 \cdot 1 \cdot (\lambda - 2) - 1 \cdot (\lambda - 2) \cdot 1 \\ &= (\lambda^3 - 6\lambda^2 + 12\lambda - 8) + 2 - 3(\lambda - 2) \\ &= \lambda^3 - 6\lambda^2 + 12\lambda - 6 - 3\lambda + 6 \\ &= \lambda^3 - 6\lambda^2 + 9\lambda \\ &= \lambda(\lambda^2 - 6\lambda + 9) \\ &= \lambda(\lambda - 3)^2 \end{aligned}

(2) 固有空間の基底#

固有値 $\lambda$ に属する固有空間 $W(\lambda)$ は、方程式 $(\lambda I - A)\boldsymbol{x} = \boldsymbol{0}$ の解空間である。

① $\lambda = 0$ のとき

\begin{aligned} (\lambda I - A)\boldsymbol{x} = \begin{pmatrix} -2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \end{aligned}

行基本変形により $x_1 - x_2 = 0$ かつ $x_2 - x_3 = 0$ を得る。すなわち $x_1 = x_2 = x_3$ 。したがって、 $W(0)$ の基底は以下の通りとなる。

\begin{aligned} \left\{ \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix} \right\} \end{aligned}

② $\lambda = 3$ のとき

\begin{aligned} (3I - A)\boldsymbol{x} = \begin{pmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \end{aligned}

これは $x_1 + x_2 + x_3 = 0$ と同値である。 $x_2 = s, x_3 = t$ とおくと $x_1 = -s - t$ となる。したがって、 $W(3)$ の基底は以下の通りとなる。

\begin{aligned} \left\{ \begin{pmatrix} -1 \\ 1 \\ 0 \end{pmatrix}, \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} \right\} \end{aligned}

(3) 直交行列による対角化#

実対称行列は直交行列によって対角化可能である。各固有空間における正規直交基底を構成する。

$W(0)$ の正規直交基底: $\boldsymbol{v}_1 = (1, 1, 1)^T$ を正規化すると、
$\boldsymbol{u}_1 = \frac{1}{\sqrt{3}} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}$
となる。
$W(3)$ の正規直交基底: $\boldsymbol{v}_2 = (-1, 1, 0)^T, \boldsymbol{v}_3 = (-1, 0, 1)^T$ とし、グラム・シュミットの直交化法を用いる。まず $\boldsymbol{v}_2$ を正規化すると、
$\boldsymbol{u}_2 = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 1 \\ 0 \end{pmatrix}$
となる。次に $\boldsymbol{v}_3$ の $\boldsymbol{u}_2$ に対する直交成分 $\boldsymbol{v}_3'$ を求めると、
$\begin{aligned} \boldsymbol{v}_3' &= \boldsymbol{v}_3 - (\boldsymbol{v}_3 \cdot \boldsymbol{u}_2)\boldsymbol{u}_2 \\ &= \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} - \frac{1}{2}\begin{pmatrix} -1 \\ 1 \\ 0 \end{pmatrix} = \begin{pmatrix} -1/2 \\ -1/2 \\ 1 \end{pmatrix} \end{aligned}$
これを正規化すると、
$\boldsymbol{u}_3 = \frac{1}{\sqrt{6}} \begin{pmatrix} -1 \\ -1 \\ 2 \end{pmatrix}$
を得る。

以上より、求める直交行列 $P$ は以下の通りである。

P = (\boldsymbol{u}_1 \quad \boldsymbol{u}_2 \quad \boldsymbol{u}_3) = \begin{pmatrix} \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & 0 & \frac{2}{\sqrt{6}} \end{pmatrix}

(4) 二次形式の最小値と直線の方程式#

直交行列 $P$ を用いて $\boldsymbol{x} = P\boldsymbol{y}$ （ $\boldsymbol{y} = (y_1, y_2, y_3)^T$ ）と変数変換を行うと、二次形式 $f(\boldsymbol{x})$ は以下のように対角化される。

\begin{aligned} f(\boldsymbol{x}) &= \boldsymbol{y}^T (P^T A P) \boldsymbol{y} \\ &= 0y_1^2 + 3y_2^2 + 3y_3^2 \end{aligned}

$y_1, y_2, y_3$ は実数であるため、 $f(\boldsymbol{x}) = 3y_2^2 + 3y_3^2 \geq 0$ が成り立つ。したがって、 $f(\boldsymbol{x})$ の最小値は $0$ であり、条件は $y_2 = y_3 = 0$ である。このとき、

\boldsymbol{x} = P \begin{pmatrix} y_1 \\ 0 \\ 0 \end{pmatrix} = y_1 \boldsymbol{u}_1 = \frac{y_1}{\sqrt{3}} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}

これは固有空間 $W(0)$ に属する任意のベクトルを表す。よって、最適解の集合がなす直線の方程式は $x_1 = x_2 = x_3$ である。

English:

By applying the orthogonal transformation $\boldsymbol{x} = P\boldsymbol{y}$ using the matrix $P$ from (3), the quadratic form $f(\boldsymbol{x})$ is diagonalized as:

\begin{aligned} f(\boldsymbol{x}) &= \boldsymbol{y}^T (P^T A P) \boldsymbol{y} \\ &= 0y_1^2 + 3y_2^2 + 3y_3^2 \end{aligned}

Since $y_i \in \mathbb{R}$ , $f(\boldsymbol{x}) \geq 0$ holds. The minimum value $0$ is achieved when $y_2 = y_3 = 0$ , which implies $\boldsymbol{x}$ is any multiple of the eigenvector $\boldsymbol{u}_1$ :

\boldsymbol{x} = P \begin{pmatrix} y_1 \\ 0 \\ 0 \end{pmatrix} = y_1 \boldsymbol{u}_1 = \frac{y_1}{\sqrt{3}} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}

Thus, the set of optimal solutions is the line $x_1 = x_2 = x_3$ .

(5) 【証明】相異なる固有値に属する固有ベクトルの直交性#

実対称行列 $A$ ( $A^T = A$ ) の相異なる固有値を $\lambda_1, \lambda_2$ 、対応する固有ベクトルを $\boldsymbol{x}_1, \boldsymbol{x}_2$ とする。

\begin{aligned} A \boldsymbol{x}_1 &= \lambda_1 \boldsymbol{x}_1 \quad \dots (i) \\ A \boldsymbol{x}_2 &= \lambda_2 \boldsymbol{x}_2 \quad \dots (ii) \end{aligned}

式 $(i)$ の両辺を転置すると、 $\boldsymbol{x}_1^T A^T = \lambda_1 \boldsymbol{x}_1^T$ となる。 $A^T = A$ より、

\begin{aligned} \boldsymbol{x}_1^T A = \lambda_1 \boldsymbol{x}_1^T \end{aligned}

この両辺に右から $\boldsymbol{x}_2$ を掛けると、

\begin{aligned} \boldsymbol{x}_1^T A \boldsymbol{x}_2 = \lambda_1 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iii) \end{aligned}

一方、式 $(iii)$ の左辺に式 $(ii)$ を代入すると、

\begin{aligned} \boldsymbol{x}_1^T (A \boldsymbol{x}_2) = \boldsymbol{x}_1^T (\lambda_2 \boldsymbol{x}_2) = \lambda_2 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iv) \end{aligned}

式 $(iii)$ と $(iv)$ より、

\begin{aligned} (\lambda_1 - \lambda_2) \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

$\lambda_1 \neq \lambda_2$ より $\lambda_1 - \lambda_2 \neq 0$ であるから、

\begin{aligned} \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

が成り立つ。これは $\boldsymbol{x}_1$ と $\boldsymbol{x}_2$ が直交することを意味する。（証明終）

English:

Let $\lambda_1, \lambda_2$ be distinct eigenvalues of a real symmetric matrix $A$ , with eigenvectors $\boldsymbol{x}_1, \boldsymbol{x}_2$ .

\begin{aligned} A\boldsymbol{x}_1 &= \lambda_1 \boldsymbol{x}_1 \quad \dots (i) \\ A\boldsymbol{x}_2 &= \lambda_2 \boldsymbol{x}_2 \quad \dots (ii) \end{aligned}

Taking the transpose of (i) and using $A^T = A$ , we have $\boldsymbol{x}_1^T A = \lambda_1 \boldsymbol{x}_1^T$ . Multiplying by $\boldsymbol{x}_2$ from the right yields:

\begin{aligned} \boldsymbol{x}_1^T A \boldsymbol{x}_2 = \lambda_1 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iii) \end{aligned}

Simultaneously, from (ii), we have:

\begin{aligned} \boldsymbol{x}_1^T A \boldsymbol{x}_2 = \lambda_2 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iv) \end{aligned}

From (iii) and (iv), it follows that:

\begin{aligned} (\lambda_1 - \lambda_2) \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

Since $\lambda_1 \neq \lambda_2$ , we must have:

\begin{aligned} \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

proving orthogonality. (Q.E.D.)

東京大学新領域創成科学研究科メディカル情報生命専攻 2025年1月実施問題7#

Description#

長さ $1$ の $3$ 次元実縦ベクトル $\boldsymbol{u} \in \mathbb{R}^3$ ( $\|\boldsymbol{u}\| = \sqrt{\boldsymbol{u}^T \boldsymbol{u}} = 1$ ) に対し、 $3 \times 3$ 実行列 $R_u \in \mathbb{R}^{3 \times 3}$ を $R_u = I - 2\boldsymbol{u}\boldsymbol{u}^T$ と定義する。ここで、 $I \in \mathbb{R}^{3 \times 3}$ は $3 \times 3$ 単位行列、 $\boldsymbol{u}^T$ は $\boldsymbol{u}$ の転置を表す。以下の問に数学的導出も含め答えよ。

(1) 任意のベクトル $\boldsymbol{x} \in \mathbb{R}^3$ に対し、 $\boldsymbol{y} = R_u \boldsymbol{x}$ と置くとき、ベクトル $\boldsymbol{x} - \boldsymbol{y}$ はある実数 $a \in \mathbb{R}$ を用いて $\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}$ と書けることを示せ。

(2) $\boldsymbol{y}$ と $\boldsymbol{x}$ の長さは等しい ( $\|\boldsymbol{y}\| = \|\boldsymbol{x}\|$ ) ことを示せ。

(3) ベクトル $\boldsymbol{x} = (x_1, x_2, x_3)^T \in \mathbb{R}^3$ が $1$ つ与えられているとする。 $\boldsymbol{y} = R_u \boldsymbol{x}$ がある実数 $b \in \mathbb{R}$ を用いて $\boldsymbol{y} = (b, 0, 0)^T$ の形になるような $\boldsymbol{u}$ を全て求めよ。

(4) ベクトル $\boldsymbol{x} = (x_1, x_2, x_3)^T \in \mathbb{R}^3$ が $1$ つ与えられているとする。 $\boldsymbol{y} = R_u \boldsymbol{x}$ がある実数 $c \in \mathbb{R}$ を用いて $\boldsymbol{y} = (x_1, c, 0)^T$ の形になるような $\boldsymbol{u}$ を全て求めよ。

(5) $A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 1 \end{pmatrix} \in \mathbb{R}^{3 \times 3}$ とする。 $B = R_u R_v A$ がある実数 $d, e, f, g, h, i \in \mathbb{R}$ を用いて $B = \begin{pmatrix} d & e & f \\ 0 & g & h \\ 0 & 0 & i \end{pmatrix}$ の形になるような、長さ $1$ のベクトルの組 $(\boldsymbol{u}, \boldsymbol{v})$ を $1$ つ求めよ。またこのときの $B$ を答えよ。

Kai#

(1)#

定義より、 $\boldsymbol{y} = R_u\boldsymbol{x} = (I - 2\boldsymbol{u}\boldsymbol{u}^T)\boldsymbol{x} = \boldsymbol{x} - 2\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{x})$ である。これを移項すると、

\boldsymbol{x} - \boldsymbol{y} = 2(\boldsymbol{u}^T\boldsymbol{x})\boldsymbol{u}

となる。ここで、 $\boldsymbol{u}^T\boldsymbol{x}$ はベクトルの内積であり、実数のスカラー値である。したがって、 $a = 2\boldsymbol{u}^T\boldsymbol{x} \in \mathbb{R}$ とおけば、

\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}

と書けることが示された。

English:

By definition, $\boldsymbol{y} = R_u\boldsymbol{x} = (I - 2\boldsymbol{u}\boldsymbol{u}^T)\boldsymbol{x} = \boldsymbol{x} - 2\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{x})$ . Rearranging this equation yields:

\boldsymbol{x} - \boldsymbol{y} = 2(\boldsymbol{u}^T\boldsymbol{x})\boldsymbol{u}

Here, $\boldsymbol{u}^T\boldsymbol{x}$ is the inner product of two vectors, which evaluates to a real scalar. Therefore, by letting $a = 2\boldsymbol{u}^T\boldsymbol{x} \in \mathbb{R}$ , we can express this as:

\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}

This completes the proof.

(2)#

$\|\boldsymbol{y}\|^2 = \boldsymbol{y}^T \boldsymbol{y} = (R_u \boldsymbol{x})^T (R_u \boldsymbol{x}) = \boldsymbol{x}^T R_u^T R_u \boldsymbol{x}$ を計算する。まず、 $R_u$ の転置は $R_u^T = (I - 2\boldsymbol{u}\boldsymbol{u}^T)^T = I - 2\boldsymbol{u}\boldsymbol{u}^T = R_u$ であり、 $R_u$ は対称行列である。次に、 $R_u^T R_u = R_u^2$ を計算すると、

\begin{aligned} R_u^2 &= (I - 2\boldsymbol{u}\boldsymbol{u}^T)(I - 2\boldsymbol{u}\boldsymbol{u}^T) \\ &= I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{u})\boldsymbol{u}^T \end{aligned}

仮定より $\|\boldsymbol{u}\| = 1$ 、すなわち $\boldsymbol{u}^T\boldsymbol{u} = 1$ であるため、

R_u^2 = I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(1)\boldsymbol{u}^T = I

となり、 $R_u$ は直交行列であることがわかる。ゆえに、 $\|\boldsymbol{y}\|^2 = \boldsymbol{x}^T I \boldsymbol{x} = \boldsymbol{x}^T \boldsymbol{x} = \|\boldsymbol{x}\|^2$ となる。ノルムは非負であるため、 $\|\boldsymbol{y}\| = \|\boldsymbol{x}\|$ が示された。

English:

Calculate $\|\boldsymbol{y}\|^2 = \boldsymbol{y}^T \boldsymbol{y} = (R_u \boldsymbol{x})^T (R_u \boldsymbol{x}) = \boldsymbol{x}^T R_u^T R_u \boldsymbol{x}$ . First, note that $R_u^T = (I - 2\boldsymbol{u}\boldsymbol{u}^T)^T = I - 2\boldsymbol{u}\boldsymbol{u}^T = R_u$ , meaning $R_u$ is a symmetric matrix. Next, we calculate $R_u^T R_u = R_u^2$ :

\begin{aligned} R_u^2 &= (I - 2\boldsymbol{u}\boldsymbol{u}^T)(I - 2\boldsymbol{u}\boldsymbol{u}^T) \\ &= I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{u})\boldsymbol{u}^T \end{aligned}

By assumption, $\|\boldsymbol{u}\| = 1$ , which means $\boldsymbol{u}^T\boldsymbol{u} = 1$ . Thus:

R_u^2 = I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(1)\boldsymbol{u}^T = I

This shows $R_u$ is an orthogonal matrix. Therefore, $\|\boldsymbol{y}\|^2 = \boldsymbol{x}^T I \boldsymbol{x} = \boldsymbol{x}^T \boldsymbol{x} = \|\boldsymbol{x}\|^2$ . Since norms are non-negative, it follows that $\|\boldsymbol{y}\| = \|\boldsymbol{x}\|$ .

(3)#

(2) より $\|\boldsymbol{y}\| = \|\boldsymbol{x}\|$ であるため、 $\boldsymbol{y} = (b, 0, 0)^T$ ならば $b^2 = \|\boldsymbol{x}\|^2$ 、すなわち $b = \pm \|\boldsymbol{x}\|$ である。 (1) より $\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}$ であり、 $\boldsymbol{u}$ は長さ 1 のベクトルであるため、 $\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}$ のとき、 $\boldsymbol{u}$ は $\boldsymbol{x} - \boldsymbol{y}$ と平行な単位ベクトルとなる。すなわち、 $\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|}$ である。以下の3つの場合に分けて求める。

(i) $\boldsymbol{x} \neq \pm \|\boldsymbol{x}\| (1, 0, 0)^T$ の場合： $\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}$ となるため、公式に代入して、

\boldsymbol{u} = \pm \frac{\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T}{\|\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T\|} \quad (\text{複号任意})

(ii) $\boldsymbol{x} = k (1, 0, 0)^T \ (k \neq 0)$ の場合：

$b = k$ のとき、 $\boldsymbol{y} = \boldsymbol{x}$ となる。このとき $R_u \boldsymbol{x} = \boldsymbol{x} \implies 2\boldsymbol{u}(\boldsymbol{u}^T \boldsymbol{x}) = \boldsymbol{0} \implies \boldsymbol{u}^T \boldsymbol{x} = 0$ 。ゆえに $u_1 = 0$ を満たす任意の単位ベクトル $\boldsymbol{u} = (0, u_2, u_3)^T$ （ただし $u_2^2 + u_3^2 = 1$ ）。
$b = -k$ のとき、 $\boldsymbol{x} - \boldsymbol{y} = 2k (1, 0, 0)^T \neq \boldsymbol{0}$ となるため、 $\boldsymbol{u} = \pm (1, 0, 0)^T$ 。

(iii) $\boldsymbol{x} = \boldsymbol{0}$ の場合： $b = 0$ となり、 $\boldsymbol{y} = \boldsymbol{0}$ 。 $R_u \boldsymbol{0} = \boldsymbol{0}$ は常に成り立つため、任意の単位ベクトル $\boldsymbol{u}$ が解となる。

English:

From (2), $\|\boldsymbol{y}\| = \|\boldsymbol{x}\|$ . If $\boldsymbol{y} = (b, 0, 0)^T$ , then $b^2 = \|\boldsymbol{x}\|^2$ , which implies $b = \pm \|\boldsymbol{x}\|$ . From (1), $\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}$ . Since $\boldsymbol{u}$ is a unit vector, when $\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}$ , $\boldsymbol{u}$ must be a unit vector parallel to $\boldsymbol{x} - \boldsymbol{y}$ . Thus, $\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|}$ . We find all solutions by considering three cases:

(i) If $\boldsymbol{x} \neq \pm \|\boldsymbol{x}\| (1, 0, 0)^T$ : Here, $\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}$ . Substituting $\boldsymbol{y}$ , we get:

\boldsymbol{u} = \pm \frac{\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T}{\|\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T\|} \quad (\text{signs are independent})

(ii) If $\boldsymbol{x} = k (1, 0, 0)^T$ for $k \neq 0$ :

For $b = k$ , we have $\boldsymbol{y} = \boldsymbol{x}$ . This gives $R_u \boldsymbol{x} = \boldsymbol{x} \implies 2\boldsymbol{u}(\boldsymbol{u}^T \boldsymbol{x}) = \boldsymbol{0} \implies \boldsymbol{u}^T \boldsymbol{x} = 0$ . Hence, any unit vector with $u_1 = 0$ is a solution: $\boldsymbol{u} = (0, u_2, u_3)^T$ (where $u_2^2 + u_3^2 = 1$ ).
For $b = -k$ , we have $\boldsymbol{x} - \boldsymbol{y} = 2k (1, 0, 0)^T \neq \boldsymbol{0}$ . Hence, $\boldsymbol{u} = \pm (1, 0, 0)^T$ .

(iii) If $\boldsymbol{x} = \boldsymbol{0}$ : Here $b = 0$ and $\boldsymbol{y} = \boldsymbol{0}$ . Since $R_u \boldsymbol{0} = \boldsymbol{0}$ holds trivially, any unit vector $\boldsymbol{u}$ is a solution.

(4)#

$\boldsymbol{y} = (x_1, c, 0)^T$ とする。(1) より、

\boldsymbol{x} - \boldsymbol{y} = \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix} = a\boldsymbol{u}

である。これにより、 $\boldsymbol{u}$ の第1成分は $u_1 = 0$ でなければならない。また $\|\boldsymbol{y}\| = \|\boldsymbol{x}\|$ より、 $x_1^2 + c^2 = x_1^2 + x_2^2 + x_3^2$ となるため、 $c = \pm \sqrt{x_2^2 + x_3^2}$ である。

(i) $\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}$ の場合（すなわち $c \neq x_2$ または $x_3 \neq 0$ ）： $\boldsymbol{u}$ は $\boldsymbol{x} - \boldsymbol{y}$ を正規化したものになるため、

\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|} = \pm \frac{1}{\sqrt{(x_2 - c)^2 + x_3^2}} \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix}

（ただし $c = \pm \sqrt{x_2^2 + x_3^2}$ ）。

(ii) $\boldsymbol{x} - \boldsymbol{y} = \boldsymbol{0}$ の場合（すなわち $x_3 = 0$ かつ $c = x_2$ ）： $\boldsymbol{x} = \boldsymbol{y} = (x_1, x_2, 0)^T$ となる。(3) と同様に $R_u \boldsymbol{x} = \boldsymbol{x} \implies \boldsymbol{u}^T\boldsymbol{x} = 0 \implies x_1 u_1 + x_2 u_2 = 0$ 。これと $\|\boldsymbol{u}\| = 1$ を満たす任意の単位ベクトル $\boldsymbol{u}$ が解となる。

English:

Let $\boldsymbol{y} = (x_1, c, 0)^T$ . From (1), we have:

\boldsymbol{x} - \boldsymbol{y} = \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix} = a\boldsymbol{u}

This implies that the first component of $\boldsymbol{u}$ must be $u_1 = 0$ . Additionally, from $\|\boldsymbol{y}\| = \|\boldsymbol{x}\|$ , we get $x_1^2 + c^2 = x_1^2 + x_2^2 + x_3^2$ , which gives $c = \pm \sqrt{x_2^2 + x_3^2}$ .

(i) If $\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}$ (i.e., $c \neq x_2$ or $x_3 \neq 0$ ): $\boldsymbol{u}$ is obtained by normalizing $\boldsymbol{x} - \boldsymbol{y}$ :

\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|} = \pm \frac{1}{\sqrt{(x_2 - c)^2 + x_3^2}} \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix}

(where $c = \pm \sqrt{x_2^2 + x_3^2}$ ).

(ii) If $\boldsymbol{x} - \boldsymbol{y} = \boldsymbol{0}$ (i.e., $x_3 = 0$ and $c = x_2$ ): Here $\boldsymbol{x} = \boldsymbol{y} = (x_1, x_2, 0)^T$ . Similar to (3), $R_u \boldsymbol{x} = \boldsymbol{x} \implies \boldsymbol{u}^T\boldsymbol{x} = 0 \implies x_1 u_1 + x_2 u_2 = 0$ . Any unit vector $\boldsymbol{u}$ satisfying this equation and $\|\boldsymbol{u}\| = 1$ is a solution.

(5)#

この問題は、ハウスホルダー変換を用いて行列 $A$ の QR分解を行うプロセスに相当する。

ステップ1：行列 $A$ の第1列目を変換する $\boldsymbol{v}$ を求める $A$ の第1列 $\boldsymbol{a}_1 = (0, 0, 1)^T$ を、(3) の結果を利用して $(d, 0, 0)^T$ の形に変換する。 $\|\boldsymbol{a}_1\| = 1$ より $d = 1$ と選ぶと、 $\boldsymbol{y}_1 = (1, 0, 0)^T$ となる。公式より、

\boldsymbol{v} = \frac{\boldsymbol{a}_1 - \boldsymbol{y}_1}{\|\boldsymbol{a}_1 - \boldsymbol{y}_1\|} = \frac{1}{\sqrt{(-1)^2 + 0^2 + 1^2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}

このとき、 $R_v$ を計算すると以下のようになる（これは1行目と3行目を入れ替える置換行列となる）。

R_v = I - 2\boldsymbol{v}\boldsymbol{v}^T = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix}

R_v A = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

ステップ2： $R_v A$ の第2列目を変換する $\boldsymbol{u}$ を求める $R_v A$ の第2列 $\boldsymbol{a}_2^{(1)} = (0, 0, 1)^T$ を、第1成分を変えずに $(0, g, 0)^T$ の形に変換する。これは (4) に対応する。 $\boldsymbol{x} = (0, 0, 1)^T$ とし、 $g = 1$ と選ぶと $\boldsymbol{y}_2 = (0, 1, 0)^T$ となる。公式より、

\boldsymbol{u} = \frac{\boldsymbol{x} - \boldsymbol{y}_2}{\|\boldsymbol{x} - \boldsymbol{y}_2\|} = \frac{1}{\sqrt{0^2 + (-1)^2 + 1^2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}

このとき、 $R_u$ を計算すると以下のようになる（これは2行目と3行目を入れ替える置換行列となる）。

R_u = I - 2\boldsymbol{u}\boldsymbol{u}^T = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

最後に $B = R_u (R_v A)$ を計算する。

B = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

これは指定された上三角行列の形を満たしている。

解答：

$\boldsymbol{v} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}$
$\boldsymbol{u} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}$
$B = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}$

English:

This problem corresponds to the process of QR decomposition of matrix $A$ using Householder transformations.

Step 1: Find $\boldsymbol{v}$ to transform the first column of $A$ We transform the first column of $A$ , $\boldsymbol{a}_1 = (0, 0, 1)^T$ , into the form $(d, 0, 0)^T$ using the method from (3). Since $\|\boldsymbol{a}_1\| = 1$ , we can choose $d = 1$ , giving $\boldsymbol{y}_1 = (1, 0, 0)^T$ . Using the formula:

\boldsymbol{v} = \frac{\boldsymbol{a}_1 - \boldsymbol{y}_1}{\|\boldsymbol{a}_1 - \boldsymbol{y}_1\|} = \frac{1}{\sqrt{(-1)^2 + 0^2 + 1^2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}

Calculating $R_v$ , we get a permutation matrix that swaps the 1st and 3rd rows:

R_v = I - 2\boldsymbol{v}\boldsymbol{v}^T = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix}

R_v A = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

Step 2: Find $\boldsymbol{u}$ to transform the second column of $R_v A$ Next, we transform the second column of $R_v A$ , which is $\boldsymbol{a}_2^{(1)} = (0, 0, 1)^T$ , into $(0, g, 0)^T$ without changing the first component, using the method from (4). Here $\boldsymbol{x} = (0, 0, 1)^T$ . Choosing $g = 1$ gives $\boldsymbol{y}_2 = (0, 1, 0)^T$ . Using the formula:

\boldsymbol{u} = \frac{\boldsymbol{x} - \boldsymbol{y}_2}{\|\boldsymbol{x} - \boldsymbol{y}_2\|} = \frac{1}{\sqrt{0^2 + (-1)^2 + 1^2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}

Calculating $R_u$ , we get another permutation matrix that swaps the 2nd and 3rd rows:

R_u = I - 2\boldsymbol{u}\boldsymbol{u}^T = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

Finally, we calculate $B = R_u (R_v A)$ :

B = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

This is exactly in the desired upper triangular form.

Final Answer:

$\boldsymbol{v} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}$
$\boldsymbol{u} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}$
$B = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}$

東京大学新領域創成科学研究科メディカル情報生命専攻 2024年8月実施問題7#

Description#

以下で $\mathbb{R}^{n \times m}$ は $n$ 行 $m$ 列实数値行列の集合を表すものとする。正則行列 $A \in \mathbb{R}^{n \times n}$ の特異値分解は以下で与えられる ( $n \ge 2$ )。

A = U \Sigma V^T

ここで、 $U \in \mathbb{R}^{n \times n}, V \in \mathbb{R}^{n \times n}$ は $U^T U = I_n, V^T V = I_n$ をみたし、 $\Sigma = \text{diag}(\sigma_1, \dots, \sigma_n) \in \mathbb{R}^{n \times n}$ は対角行列でその対角成分は $\sigma_1 \ge \dots \ge \sigma_n > 0$ を満たす。ただし、 $M^T$ は行列 $M$ の転置を表し、 $I_m \in \mathbb{R}^{m \times m}$ は単位行列である。

$A$ のランク $r$ 近似 $\hat{A}$ を以下で定義する ( $1 \le r < n$ )。

\hat{A} = \hat{U} \hat{\Sigma} \hat{V}^T

ここで、 $\hat{U} \in \mathbb{R}^{n \times r}, \hat{V} \in \mathbb{R}^{n \times r}$ は $U, V$ の最初の $r$ 列からなる行列であり、 $\hat{\Sigma} = \text{diag}(\sigma_1, \dots, \sigma_r) \in \mathbb{R}^{r \times r}$ である。 $\hat{A}$ は以下の最適化问题の一つの解 $X$ を与えることが知られている。

\min_{X} \|A - X\|^2 \quad \text{subject to } X \in \mathbb{R}^{n \times n}, \text{rank}(X) = r

ただし、 $\|M\|^2 = \text{trace}(M^T M) = \sum_{i,j} (M_{ij})^2$ である。以下の問いに導出も含めて答えよ。

(1) $\hat{A}^T \hat{A}, \hat{A} \hat{A}^T$ の特異値分解を求めよ。

(2) $\hat{A}^+ = \hat{V} \hat{\Sigma}^{-1} \hat{U}^T$ とするとき、 $A \hat{A}^+ A = \hat{A}$ を示せ。

(3) 次の最適化問題の解を求めよ。

\min_{X} \|A - XX^T A\|^2 \quad \text{subject to } X \in \mathbb{R}^{n \times r}, X^T X = I_r

(4) 次の最適化問題の解を求めよ。

\max_{X} \text{trace}(X^T A A^T X) \quad \text{subject to } X \in \mathbb{R}^{n \times r}, X^T X = I_r

(5) $B \in \mathbb{R}^{n \times n}, C \in \mathbb{R}^{n \times n}$ を用いて $A = BC$ と書けるとする。次の最適化問題の解を求めよ。

\min_{X} \|BC - BXC\|^2 \quad \text{subject to } X \in \mathbb{R}^{n \times n}, \text{rank}(X) = r

Kai#

(1)#

定義より、 $\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T$ であり、 $\hat{U}^T\hat{U} = I_r$ 、 $\hat{V}^T\hat{V} = I_r$ を満たす。

まず、 $\hat{A}^T\hat{A}$ について計算する。

\hat{A}^T\hat{A} = (\hat{U}\hat{\Sigma}\hat{V}^T)^T (\hat{U}\hat{\Sigma}\hat{V}^T) = \hat{V}\hat{\Sigma}^T\hat{U}^T \hat{U}\hat{\Sigma}\hat{V}^T

$\hat{\Sigma}$ は対角行列であるため $\hat{\Sigma}^T = \hat{\Sigma}$ であり、 $\hat{U}^T\hat{U} = I_r$ より、

\hat{A}^T\hat{A} = \hat{V}\hat{\Sigma} I_r \hat{\Sigma}\hat{V}^T = \hat{V}\hat{\Sigma}^2\hat{V}^T

これが $\hat{A}^T\hat{A}$ のコンパクト特異値分解（あるいは固有値分解）の形である。 $n \times n$ 行列としての完全な特異値分解で表すと、直交行列 $V$ を用いて以下のようになる。

\hat{A}^T\hat{A} = V \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} V^T

同様に、 $\hat{A}\hat{A}^T$ について計算する。

\hat{A}\hat{A}^T = (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{U}\hat{\Sigma}\hat{V}^T)^T = \hat{U}\hat{\Sigma}\hat{V}^T \hat{V}\hat{\Sigma}\hat{U}^T

$\hat{V}^T\hat{V} = I_r$ より、

\hat{A}\hat{A}^T = \hat{U}\hat{\Sigma} I_r \hat{\Sigma}\hat{U}^T = \hat{U}\hat{\Sigma}^2\hat{U}^T

完全な特異値分解で表すと、直交行列 $U$ を用いて以下のようになる。

\hat{A}\hat{A}^T = U \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} U^T

English: By definition, $\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T$ , satisfying $\hat{U}^T\hat{U} = I_r$ and $\hat{V}^T\hat{V} = I_r$ .

First, we calculate $\hat{A}^T\hat{A}$ :

\hat{A}^T\hat{A} = (\hat{U}\hat{\Sigma}\hat{V}^T)^T (\hat{U}\hat{\Sigma}\hat{V}^T) = \hat{V}\hat{\Sigma}^T\hat{U}^T \hat{U}\hat{\Sigma}\hat{V}^T

Since $\hat{\Sigma}$ is a diagonal matrix, $\hat{\Sigma}^T = \hat{\Sigma}$ . Using $\hat{U}^T\hat{U} = I_r$ , we have:

\hat{A}^T\hat{A} = \hat{V}\hat{\Sigma} I_r \hat{\Sigma}\hat{V}^T = \hat{V}\hat{\Sigma}^2\hat{V}^T

This is the compact SVD (or eigenvalue decomposition) of $\hat{A}^T\hat{A}$ . As a full SVD for an $n \times n$ matrix using the orthogonal matrix $V$ , it is written as:

\hat{A}^T\hat{A} = V \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} V^T

Similarly, calculating $\hat{A}\hat{A}^T$ :

\hat{A}\hat{A}^T = (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{U}\hat{\Sigma}\hat{V}^T)^T = \hat{U}\hat{\Sigma}\hat{V}^T \hat{V}\hat{\Sigma}\hat{U}^T

Using $\hat{V}^T\hat{V} = I_r$ , we have:

\hat{A}\hat{A}^T = \hat{U}\hat{\Sigma} I_r \hat{\Sigma}\hat{U}^T = \hat{U}\hat{\Sigma}^2\hat{U}^T

As a full SVD using the orthogonal matrix $U$ , it is written as:

\hat{A}\hat{A}^T = U \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} U^T

(2)#

$\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T$ および $\hat{A}^+ = \hat{V}\hat{\Sigma}^{-1}\hat{U}^T$ を左辺に代入して計算する。

\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{V}\hat{\Sigma}^{-1}\hat{U}^T) (\hat{U}\hat{\Sigma}\hat{V}^T) \\ &= \hat{U}\hat{\Sigma} (\hat{V}^T\hat{V}) \hat{\Sigma}^{-1} (\hat{U}^T\hat{U}) \hat{\Sigma}\hat{V}^T \end{aligned}

$\hat{V}^T\hat{V} = I_r$ および $\hat{U}^T\hat{U} = I_r$ であるため、

\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= \hat{U}\hat{\Sigma} I_r \hat{\Sigma}^{-1} I_r \hat{\Sigma}\hat{V}^T \\ &= \hat{U} (\hat{\Sigma}\hat{\Sigma}^{-1}\hat{\Sigma}) \hat{V}^T \\ &= \hat{U}\hat{\Sigma}\hat{V}^T \\ &= \hat{A} \end{aligned}

以上より、 $\hat{A}\hat{A}^+\hat{A} = \hat{A}$ が示された。

English: Substitute $\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T$ and $\hat{A}^+ = \hat{V}\hat{\Sigma}^{-1}\hat{U}^T$ into the left side:

\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{V}\hat{\Sigma}^{-1}\hat{U}^T) (\hat{U}\hat{\Sigma}\hat{V}^T) \\ &= \hat{U}\hat{\Sigma} (\hat{V}^T\hat{V}) \hat{\Sigma}^{-1} (\hat{U}^T\hat{U}) \hat{\Sigma}\hat{V}^T \end{aligned}

Since $\hat{V}^T\hat{V} = I_r$ and $\hat{U}^T\hat{U} = I_r$ :

\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= \hat{U}\hat{\Sigma} I_r \hat{\Sigma}^{-1} I_r \hat{\Sigma}\hat{V}^T \\ &= \hat{U} (\hat{\Sigma}\hat{\Sigma}^{-1}\hat{\Sigma}) \hat{V}^T \\ &= \hat{U}\hat{\Sigma}\hat{V}^T \\ &= \hat{A} \end{aligned}

Thus, $\hat{A}\hat{A}^+\hat{A} = \hat{A}$ is proven.

(3)#

$P = XX^T$ とおくと、 $X^TX = I_r$ であるため $P$ は階数 $r$ の直交射影行列である。目標は $\|A - PA\|^2$ を最小化することである。 $PA$ は行列 $A$ の列空間を $X$ が張る $r$ 次元部分空間に射影したものであり、 $\text{rank}(PA) \le r$ である。

エッカート・ヤング・ミルスキーの定理（Eckart-Young-Mirsky Theorem）より、 $\text{rank}(Y) \le r$ を満たす行列 $Y$ の中で $\|A - Y\|^2$ を最小化するものは $Y = \hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T$ である。したがって、 $XX^TA = \hat{A}$ を満たす $X$ を見つければよい。

行列 $A = U\Sigma V^T$ に対して $\hat{U}\hat{U}^T A$ を計算すると、

\hat{U}\hat{U}^T A = \hat{U}\hat{U}^T (\hat{U}\hat{\Sigma}\hat{V}^T + \tilde{U}\tilde{\Sigma}\tilde{V}^T) = \hat{U}\hat{\Sigma}\hat{V}^T = \hat{A}

となる（ $\tilde{U}$ は $U$ の $r+1$ から $n$ 列目）。よって、 $X$ の列ベクトルが $\hat{U}$ の列ベクトルと同じ空間を張ればよい。解は、任意の直交行列 $Q \in \mathbb{R}^{r \times r}$ （ $Q^TQ = I_r$ ）を用いて以下のように表される。解: $X = \hat{U}Q$ （最も基本的な解は $X = \hat{U}$ ）

English: Let $P = XX^T$ . Since $X^TX = I_r$ , $P$ is an orthogonal projection matrix of rank $r$ . The objective is to minimize $\|A - PA\|^2$ . $PA$ is the projection of the column space of $A$ onto the $r$ -dimensional subspace spanned by $X$ , ensuring $\text{rank}(PA) \le r$ .

By the Eckart-Young-Mirsky Theorem, the matrix $Y$ that minimizes $\|A - Y\|^2$ subject to $\text{rank}(Y) \le r$ is $Y = \hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T$ . Thus, we need to find $X$ such that $XX^TA = \hat{A}$ .

Calculating $\hat{U}\hat{U}^T A$ for $A = U\Sigma V^T$ , we get:

\hat{U}\hat{U}^T A = \hat{U}\hat{U}^T (\hat{U}\hat{\Sigma}\hat{V}^T + \tilde{U}\tilde{\Sigma}\tilde{V}^T) = \hat{U}\hat{\Sigma}\hat{V}^T = \hat{A}

(where $\tilde{U}$ represents columns $r+1$ to $n$ of $U$ ). Therefore, the column space of $X$ must span the same space as the columns of $\hat{U}$ . The solution, using any orthogonal matrix $Q \in \mathbb{R}^{r \times r}$ ( $Q^TQ = I_r$ ), is expressed as: Solution: $X = \hat{U}Q$ (The most basic solution is $X = \hat{U}$ )

(4)#

$AA^T = (U\Sigma V^T)(V\Sigma U^T) = U\Sigma^2 U^T$ であり、これは固有値 $\sigma_1^2 \ge \sigma_2^2 \ge \dots \ge \sigma_n^2$ を持つ対称行列である。最適化問題は $\max_X \text{trace}(X^T AA^T X)$ subject to $X^TX = I_r$ となる。

Ky Fanの定理（またはRayleigh-Ritzの定理の拡張）より、正規直交系を列に持つ行列 $X$ に対する $\text{trace}(X^T M X)$ の最大値は、対称行列 $M$ の上位 $r$ 個の固有値の和（この場合は $\sum_{i=1}^r \sigma_i^2$ ）に等しい。この最大値は、 $X$ の列ベクトルが $M$ の上位 $r$ 個の固有値に対応する固有空間（主部分空間）を張るときに達成される。

$AA^T$ の上位 $r$ 個の固有値に対応する固有ベクトルは、行列 $U$ の最初の $r$ 列、すなわち $\hat{U}$ である。したがって、 $X$ は $\hat{U}$ と同じ空間を張る正規直交行列であればよい。解: $X = \hat{U}Q$ （ $Q \in \mathbb{R}^{r \times r}$ は任意の直交行列）

English: $AA^T = (U\Sigma V^T)(V\Sigma U^T) = U\Sigma^2 U^T$ , which is a symmetric matrix with eigenvalues $\sigma_1^2 \ge \sigma_2^2 \ge \dots \ge \sigma_n^2$ . The optimization problem is $\max_X \text{trace}(X^T AA^T X)$ subject to $X^TX = I_r$ .

By Ky Fan’s Theorem (or the extended Rayleigh-Ritz theorem), the maximum of $\text{trace}(X^T M X)$ for an orthonormal matrix $X$ is the sum of the $r$ largest eigenvalues of the symmetric matrix $M$ (in this case, $\sum_{i=1}^r \sigma_i^2$ ). This maximum is achieved when the column vectors of $X$ span the eigenspace (principal subspace) corresponding to the $r$ largest eigenvalues of $M$ .

The eigenvectors corresponding to the $r$ largest eigenvalues of $AA^T$ are the first $r$ columns of $U$ , which is $\hat{U}$ . Therefore, $X$ must be an orthonormal matrix spanning the same space as $\hat{U}$ . Solution: $X = \hat{U}Q$ (where $Q \in \mathbb{R}^{r \times r}$ is an arbitrary orthogonal matrix)

(5)#

正則行列 $A$ が $A = BC$ と表されるため、 $B \in \mathbb{R}^{n \times n}$ および $C \in \mathbb{R}^{n \times n}$ も正則行列（逆行列を持つ）である。最適化する目的関数は $\|A - BXC\|^2$ である。

$Y = BXC$ と定義する。 $B, C$ が正則であるため、任意の行列 $X$ に対して $\text{rank}(Y) = \text{rank}(X)$ が成り立つ。したがって、条件 $\text{rank}(X) = r$ は $\text{rank}(Y) = r$ と同値になる。問題は以下のように書き換えられる。

\min_Y \|A - Y\|^2 \quad \text{subject to} \quad \text{rank}(Y) = r

エッカート・ヤング・ミルスキーの定理より、この最適化問題の解は $Y = \hat{A}$ である。元の変数 $X$ に戻すと、 $BXC = \hat{A}$ を満たす $X$ が求める解となる。 $B, C$ は正則であるため、両辺に左から $B^{-1}$ 、右から $C^{-1}$ を掛ける。解: $X = B^{-1}\hat{A}C^{-1}$

English: Since the regular (invertible) matrix $A$ is written as $A = BC$ , the matrices $B \in \mathbb{R}^{n \times n}$ and $C \in \mathbb{R}^{n \times n}$ must also be regular (invertible). The objective function to be optimized is $\|A - BXC\|^2$ .

Let $Y = BXC$ . Because $B$ and $C$ are invertible, $\text{rank}(Y) = \text{rank}(X)$ holds for any matrix $X$ . Therefore, the condition $\text{rank}(X) = r$ is completely equivalent to $\text{rank}(Y) = r$ . The problem can be rewritten as:

\min_Y \|A - Y\|^2 \quad \text{subject to} \quad \text{rank}(Y) = r

By the Eckart-Young-Mirsky Theorem, the solution to this optimization problem is $Y = \hat{A}$ . Reverting to the original variable $X$ , the desired solution satisfies $BXC = \hat{A}$ . Since $B$ and $C$ are invertible, we multiply by $B^{-1}$ on the left and $C^{-1}$ on the right. Solution: $X = B^{-1}\hat{A}C^{-1}$