14007 words
70 minutes
Linear Algebra Learning Notes: Specialized for Japanese Graduate Entrance Exams

Linear Algebra Learning Notes: Specialized for Japanese Graduate Entrance Exams#

1. 核心概念复习:列空间 (Column Space) 与 零空间 (Nullspace)#

1.1 零空间 N(A)N(A) 的本质#

  • 数学定义:满足 Ax=0Ax = 0 的所有解 xx 的集合。
  • 几何本质:矩阵列向量的线性组合等于零向量。例如,若 x=[1,1,1]Tx = [1, 1, 1]^TN(A)N(A) 中,则表示 1c1+1c2+1c3=01 \cdot c_1 + 1 \cdot c_2 + 1 \cdot c_3 = 0,即列向量线性相关。
  • 子空间性质:零空间对数乘 and 加法封闭,是一个真正的向量子空间。

1.2 列空间 C(A)C(A) 与秩 (Rank)#

  • 数学定义:矩阵所有列向量的线性组合构成的空间。
  • rr:主元 (pivots) 的个数,代表列空间中独立向量的数量。
  • 几何形状
    • r=1r=1:穿过原点的直线。
    • r=2r=2:穿过原点的平面。
    • r=nr=n:充满整个 nn 维空间。

2. 黄金法则:秩-零化度定理 (Rank-Nullity Theorem)#

对于一个 m×nm \times n 的矩阵 AA矩阵总列数 n=列空间维度 r+零空间维度 (nr)\text{矩阵总列数 } n = \text{列空间维度 } r + \text{零空间维度 } (n-r)

  • 物理意义:输入信息被分流,维度为 rr 的信息转化为非零输出,维度为 nrn-r 的信息被“抹除”进入零空间。

3. 实战练习与证明破局#

3.1 基础训练:列向量关系判定#

题目:若 x=[1,1,1]Tx = [1, 1, 1]^T 在 3x3 矩阵 AA 的零空间 N(A)N(A) 中,列向量 c1,c2,c3c_1, c_2, c_3 有何关系?

  • 解析:由 Ax=0Ax=0 可知, 1c1+1c2+1c3=01 \cdot c_1 + 1 \cdot c_2 + 1 \cdot c_3 = 0。这说明列向量线性相关,矩阵为奇异矩阵。

3.2 难点攻克:含参矩阵分析#

题目:给定 A=[11112413a]A = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 4 \\ 1 & 3 & a \end{bmatrix},求 aa 为何值时 N(A)N(A) 存在非零向量?

  • 关键点:高斯消元后,若要存在非零解(即存在自由变量),必须出现全零行。计算得出 a=7a=7
  • 结论:当 a=7a=7 时,零空间向量为 x=[1,2,1]Tx = [1, -2, 1]^T,对应列空间 C(A)C(A) 是一个由前两列张成的 2D 平面。

3.3 抽象矩阵证明思路#

题目:证明若 A2=0A^2 = 0,则 C(A)N(A)C(A) \subseteq N(A)

  • 翻译机制
    1. yC(A)y \in C(A),则存在 xx 使得 y=Axy = Ax
    2. 要证 yN(A)y \in N(A),只需证 Ay=0Ay = 0
    3. 带入得 A(Ax)=A2x=0x=0A(Ax) = A^2x = 0x = 0
  • 结论延伸:由于 C(A)N(A)C(A) \subseteq N(A),则维度满足 rnrr \le n-r,即 rn/2r \le n/2

4. 终极版:Ax=bAx = b 的完整解结构#

4.1 通解公式#

x=xp+xnx = x_p + x_n

  • xpx_p (Particular Solution):特解,将解平移到正确位置。令所有自由变量为 0 即可快速求得。
  • xnx_n (Nullspace Solution):零空间通解,代表解的延展方向。

4.2 案例演示:Gauss-Jordan 消元实操#

针对以下方程组: [121240361][x1x2x3]=[224]\begin{bmatrix} 1 & 2 & 1 \\ 2 & 4 & 0 \\ 3 & 6 & 1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = \begin{bmatrix} 2 \\ 2 \\ 4 \end{bmatrix}

通过初等行变换化为 最简行阶梯形 (RREF)[120100110000]\begin{bmatrix} 1 & 2 & 0 & | & 1 \\ 0 & 0 & 1 & | & 1 \\ 0 & 0 & 0 & | & 0 \end{bmatrix}

完整解x=[101]+c[210]x = \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix} + c \begin{bmatrix} -2 \\ 1 \\ 0 \end{bmatrix}

手写过程参考#

手写解题过程


5. 解的结构预言:四种命运#

通过 rr (秩)、mm (行/方程数)、nn (列/未知数) 的关系直接断定解的性质:

形态关系几何/解的特征解的数量
满秩方阵r=m=nr = m = n最完美形态,存在逆矩阵唯一解
满列秩r=n<mr = n < m瘦高型,无自由变量0 或 1 个解
满行秩r=m<nr = m < n矮胖型,无全零行,必有解无数个解
秩亏缺r<mr < mr<nr < n残缺型,行列都不满0 或 无数个解

备考技巧:在考试中看到 3×53 \times 5 矩阵,由于 r3<5r \le 3 < 5,立刻可知存在自由变量,该方程组绝对不可能有“唯一解”。

线性代数进阶复习笔记:从谱理论到 SVD#

核心哲学: 所有的矩阵分解,本质上都是在寻找一套最能简化物理规律的“尺子(基底)”。


👑 一、 核心矩阵结构及其谱性质 (Spectral Properties)#

这部分是线性代数的“面相学”。通过矩阵的形状,直接判定其最深刻的代数与物理基因。

矩阵类型定义 / 判定条件特征值 (λ\lambda) 性质特征向量 (xx) 性质物理/几何意义
对称矩阵 (Symmetric)A=ATA = A^T必为实数 (λR\lambda \in \mathbb{R})不同特征值的特征向量必正交完美的坐标轴拉伸,无旋转
正定矩阵 (Positive Definite)xTAx>0x^T Ax > 0 (对 x0\forall x \neq 0)全部大于 0 (λ>0\lambda > 0)构成 Rn\mathbb{R}^n 的正交基能量永远为正,存在全局唯一极小值 (碗底)
正交矩阵 (Orthogonal)QTQ=IQ^T Q = I模长绝对为 1 (λ=±1\lambda = \pm 1)——保长变换 (纯旋转或翻转),Q1=QTQ^{-1}=Q^T
反对称矩阵 (Skew-Symmetric)AT=AA^T = -A纯虚数0 (λ=iω\lambda = i\omega)属于正规矩阵族,特征向量正交能量守恒,系统做无衰减的纯周期震荡
三角矩阵 (Triangular)左下/右上全为 0主对角线上的元素——连乘路线被阻断,方程直接降维解耦

🌟 谱定理 (Spectral Theorem): > 任何实对称矩阵 AA 都可以被正交对角化为 A=QΛQTA = Q \Lambda Q^T


🪜 二、 矩阵分解的阶梯 (Hierarchy of Matrix Factorizations)#

1. 对角化 (Diagonalization)#

  • 公式: A=SΛS1A = S \Lambda S^{-1}
  • 前提: 必须拥有 nn 个线性无关的特征向量。
  • 本质: 在特征基底视角下,错综复杂的空间变换被完美解耦为 nn 个独立方向的纯缩放。

2. 若尔当标准型 (Jordan Form)#

  • 公式: A=MJM1A = M J M^{-1}
  • 适用: 所有的方阵(包括特征向量缺失的残疾/退化矩阵)。
  • 结构: JJ 是由若尔当块组成的准对角阵。
  • 终极判决: 一个若尔当块,不论尺寸多大,永远只能提供 1 个特征向量。若尔当块的数量 = 系统中真实独立特征向量的数量。

3. 奇异值分解 (Singular Value Decomposition, SVD)#

  • 公式: A=UΣVTA = U \Sigma V^T
  • 适用: 任意 m×nm \times n 矩阵,线性代数最普适的终极解药。
  • 代数构造:
    • VVATAA^T A 的标准化特征向量矩阵(属于原空间的完美正交基)。
    • UUAATAA^T 的标准化特征向量矩阵(属于目标空间的完美正交基)。
    • Σ\Sigma 的对角线元素 σi=λi(ATA)\sigma_i = \sqrt{\lambda_i(A^T A)},代表拉伸的绝对倍数。
  • 几何意义: 任何复杂的变形 AA,都等价于:旋转 (VTV^T) \to 独立拉伸 (Σ\Sigma) \to 再旋转 (UU)

📐 三、 心算秒杀捷径 (Cheat Codes)#

在考场上,这些法则是绕过复杂一元高次方程的利器。

  1. 生死的绑定:迹与行列式
    • 迹 (Trace) = 主对角线之和 = λi\sum \lambda_i
    • 行列式 (Det) = λi\prod \lambda_i
  2. 常量对角对称矩阵 [abba]\begin{bmatrix} a & b \\ b & a \end{bmatrix}
    • 特征值直接秒杀:λ1=a+b,λ2=ab\lambda_1 = a+b, \quad \lambda_2 = a-b
    • 特征向量永恒锁定:[11]\begin{bmatrix} 1 \\ 1 \end{bmatrix}[11]\begin{bmatrix} -1 \\ 1 \end{bmatrix}
  3. 秩为 1 的矩阵 (Rank = 1)
    • 所有行/列成比例。
    • 特征值:有且仅有 1 个非零特征值(刚好等于 Trace),其余全部为 0。

🌐 四、 线性变换与物理时空观#

1. 线性变换的判别#

真正的线性变换必须满足叠加原理:T(cv+dw)=cT(v)+dT(w)T(cv + dw) = cT(v) + dT(w)

  • 致命法则: T(0)T(0) 必须等于 00。原点偏移(如平移 T(v)=v+v0T(v) = v + v_0)绝不是线性变换。

2. 基底锁定全宇宙#

  • 如果想知道一个线性变换对全宇宙任意点 vv 的效果,不需要全场追踪。
  • 只需要追踪基底的落点(例如 T(v1),T(v2)T(v_1), T(v_2) \dots)。
  • 矩阵 AA 就是这本记录册! 矩阵的每一列,就是空间基础网格(基向量)被变换后落下的坐标。

3. 预测未来:常微分方程组#

  • 系统方程: dudt=Au\frac{du}{dt} = Au
  • 时间演化公式: u(t)=eAtu(0)u(t) = e^{At}u(0)
  • 特征值解耦降维打击: eAt=SeΛtS1e^{At} = S e^{\Lambda t} S^{-1}
  • 通过特征值看透系统宿命:
    • 实部 <0< 0:能量衰减,系统归于死寂。
    • 实部 >0> 0:能量爆炸,系统发散崩溃。
    • 纯虚数 (a=0,b0a=0, b \neq 0):能量守恒,永无止境的周期性震荡

典型例题:基于谱信息(特征值与特征向量)的矩阵属性判定#

【题目描述】 已知某 3×33 \times 3 矩阵 AA 的特征值分别为: λ1=0,λ2=c,λ3=2\lambda_1 = 0, \quad \lambda_2 = c, \quad \lambda_3 = 2

其对应的特征向量分别为: x1=[111],x2=[110],x3=[112]x_1 = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}, \quad x_2 = \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix}, \quad x_3 = \begin{bmatrix} 1 \\ 1 \\ -2 \end{bmatrix}

请根据以上信息,回答下列问题并给出严格的代数理由:

  • (a) 矩阵 AA 是否可对角化 (Diagonalizable)?变量 cc 需要满足什么条件?
  • (b) 矩阵 AA 是否为对称矩阵 (Symmetric)?变量 cc 需要满足什么条件?
  • (c) 矩阵 AA 是否为正定矩阵 (Positive definite)?
  • (d) 矩阵 AA 是否为马尔可夫矩阵 (Markov matrix)?
  • (e) 令 P=12AP = \frac{1}{2}A,矩阵 PP 是否为投影矩阵 (Projection matrix)?变量 cc 需要满足什么条件?

【思路剖析(隐藏的阵眼)】 在动笔做题前,观察给定的三个特征向量,计算它们的内积(点积):

  • x1Tx2=1×1+1×(1)+1×0=0x_1^T x_2 = 1\times1 + 1\times(-1) + 1\times0 = 0
  • x1Tx3=1×1+1×1+1×(2)=0x_1^T x_3 = 1\times1 + 1\times1 + 1\times(-2) = 0
  • x2Tx3=1×1+(1)×1+0×(2)=0x_2^T x_3 = 1\times1 + (-1)\times1 + 0\times(-2) = 0

结论:三个特征向量两两正交。 这是一个极其强大的隐藏条件,也是解答后续问题的核心依据。


【详细解答】

(a) 矩阵 AA 是否可对角化?

  • 结论: 是。对任意实数或复数 cc 均成立。
  • 理由: 矩阵 AA 的三个特征向量 x1,x2,x3x_1, x_2, x_3 互相正交,因此它们必定线性无关。一个 3×33 \times 3 矩阵只要拥有 3 个线性无关的特征向量,即可构成可逆的特征向量矩阵 SS,从而满足 A=SΛS1A = S\Lambda S^{-1},故必然可对角化。即便 c=0c=0c=2c=2 导致特征值存在重根,正交性依然保证了特征向量的线性无关性。

(b) 矩阵 AA 是否为对称矩阵?

  • 结论: 是。要求 cc 必须为实数 (cRc \in \mathbb{R})。
  • 理由: 根据谱定理 (Spectral Theorem),一个矩阵是对称矩阵当且仅当它拥有完备的正交特征向量组,且所有特征值均为实数。已知特征向量已经正交,因此只要未知特征值 cc 是实数,矩阵 AA 就必定是对称矩阵。

(c) 矩阵 AA 是否为正定矩阵?

  • 结论: 否 (No)。
  • 理由: 正定矩阵的定义要求系统能量绝对为正,在特征值上的反映是所有的特征值必须严格大于 0 (λi>0\lambda_i > 0)。已知第一特征值 λ1=0\lambda_1 = 0,不满足严格大于 0 的条件。(注:若限制 c0c \ge 0,该矩阵可被称为“半正定矩阵” Positive Semi-Definite)。

(d) 矩阵 AA 是否为马尔可夫矩阵?

  • 结论: 否 (No)。
  • 理由: 马尔可夫矩阵描述的是概率转移,系统的总概率保持不变,因此其最大特征值必须严格等于 1。已知该矩阵存在特征值 λ3=2>1\lambda_3 = 2 > 1,这意味着系统状态的模长会随时间呈指数级爆炸,因此绝对不可能是马尔可夫矩阵。

(e) P=12AP = \frac{1}{2}A 是否为投影矩阵?

  • 结论: 是。要求 c=0c = 0c=2c = 2
  • 理由: 投影矩阵的几何性质决定了“投影两次等于投影一次”,即必须满足 P2=PP^2 = P。代入特征值方程可知 λ2=λ\lambda^2 = \lambda,解得投影矩阵的特征值只能是 0011。 由于 P=12AP = \frac{1}{2}A,根据线性代数法则,矩阵 PP 的特征值为矩阵 AA 特征值的一半,即: λP1=0,λP2=c2,λP3=1\lambda_{P1} = 0, \quad \lambda_{P2} = \frac{c}{2}, \quad \lambda_{P3} = 1 为了使 PP 满足投影矩阵的条件,未知的特征值 c2\frac{c}{2} 必须等于 0011。 解得:c=0c = 0c=2c = 2

【考点总结】

  1. 对角化的充要条件: 拥有 nn 个线性无关的特征向量(与特征值是否重复/有无重根无关)。
  2. 谱定理逆用: 正交特征向量组 + 纯实数特征值     \iff 对称矩阵。
  3. 正定性判定: 全体特征值 λ>0\lambda > 0(有一票否决制)。
  4. 投影矩阵特征: 特征值被死死锁定在集合 {0,1}\{0, 1\} 中。

SVD分解过程#

我们选这个稍微有点不对称的矩阵: A=[3045]A = \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix}

目标是求出:A=UΣVTA = U \Sigma V^T

第一步:找原空间的基底与拉伸量(求 VVΣ\Sigma#

因为直接处理 AA 很难,我们构造对称矩阵 ATAA^T A

1. 算 ATAA^T A ATA=[3405][3045]=[3×3+4×43×0+4×50×3+5×40×0+5×5]=[25202025]A^T A = \begin{bmatrix} 3 & 4 \\ 0 & 5 \end{bmatrix} \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix} = \begin{bmatrix} 3\times3+4\times4 & 3\times0+4\times5 \\ 0\times3+5\times4 & 0\times0+5\times5 \end{bmatrix} = \begin{bmatrix} 25 & 20 \\ 20 & 25 \end{bmatrix}

2. 找特征值(决定 Σ\Sigma 出现了一个对角线数字相同的常量对称矩阵!立刻触发我们的**“心算秒杀法则”**:

  • 第一特征值:λ1=a+b=25+20=45\lambda_1 = a + b = 25 + 20 = 45
  • 第二特征值:λ2=ab=2520=5\lambda_2 = a - b = 25 - 20 = 5

因为奇异值是特征值的平方根(σi=λi\sigma_i = \sqrt{\lambda_i}),所以:

  • σ1=45=35\sigma_1 = \sqrt{45} = 3\sqrt{5}
  • σ2=5\sigma_2 = \sqrt{5}

直接写出奇异值矩阵(从大到小排): Σ=[35005]\Sigma = \begin{bmatrix} 3\sqrt{5} & 0 \\ 0 & \sqrt{5} \end{bmatrix}

3. 找特征向量(决定 VV 继续触发秒杀法则!这种矩阵的特征向量永远死死绑定在 4545^\circ135135^\circ 方向。

我们面对的矩阵是 M=[25202025]M = \begin{bmatrix} 25 & 20 \\ 20 & 25 \end{bmatrix}。 我们已经算出了两个特征值:λ1=45,λ2=5\lambda_1 = 45, \lambda_2 = 5。 现在我们要通过求解特征方程 (MλI)x=0(M - \lambda I)x = 0,找出它们对应的标准化特征向量 v1v_1v2v_2

第一轮求解:代入 λ1=45\lambda_1 = 45#

1. 构造 (MλI)(M - \lambda I) 矩阵: 把主对角线上的数字减去 4545M45I=[254520202545]=[20202020]M - 45I = \begin{bmatrix} 25 - 45 & 20 \\ 20 & 25 - 45 \end{bmatrix} = \begin{bmatrix} -20 & 20 \\ 20 & -20 \end{bmatrix}

2. 解齐次线性方程组 (M45I)x=0(M - 45I)x = 0 [20202020][x1x2]=[00]\begin{bmatrix} -20 & 20 \\ 20 & -20 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} 展开得到两个方程:

  1. 20x1+20x2=0-20x_1 + 20x_2 = 0
  2. 20x120x2=020x_1 - 20x_2 = 0

可以看出,这两行表达的是同一个意思(这就是特征值使矩阵退化的必然结果)。化简后得到: x1=x2x_1 = x_2 为了取最简单的整数解,我们令 x1=1,x2=1x_1 = 1, x_2 = 1。 得到基础特征向量:vbase1=[11]v_{base1} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}

3. 标准化(极其关键!SVD 要求向量长度必须为 1):

  • 算长度:vbase1=12+12=2\|v_{base1}\| = \sqrt{1^2 + 1^2} = \sqrt{2}
  • 缩放向量:将原向量除以长度。 v1=[1/21/2]v_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}

第二轮求解:代入 λ2=5\lambda_2 = 5#

1. 构造 (MλI)(M - \lambda I) 矩阵: 把主对角线上的数字减去 55M5I=[2552020255]=[20202020]M - 5I = \begin{bmatrix} 25 - 5 & 20 \\ 20 & 25 - 5 \end{bmatrix} = \begin{bmatrix} 20 & 20 \\ 20 & 20 \end{bmatrix}

2. 解方程组 (M5I)x=0(M - 5I)x = 0 [20202020][x1x2]=[00]\begin{bmatrix} 20 & 20 \\ 20 & 20 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} 两行完全一样:20x1+20x2=020x_1 + 20x_2 = 0。化简后得到: x1=x2x_1 = -x_2 取最简单的一组整数解,令 x1=1,x2=1x_1 = -1, x_2 = 1。(当然你选 111-1 也完全可以)。 得到基础特征向量:vbase2=[11]v_{base2} = \begin{bmatrix} -1 \\ 1 \end{bmatrix}

3. 标准化:

  • 算长度:vbase2=(1)2+12=2\|v_{base2}\| = \sqrt{(-1)^2 + 1^2} = \sqrt{2}
  • 缩放向量: v2=[1/21/2]v_2 = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}

拼装矩阵 VTV^T#

最后,把算出来的 v1v_1v2v_2 按照列拼成正交矩阵 V=[12121212]V = \begin{bmatrix} \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}

因为 SVD 公式 A=UΣVTA=U\Sigma V^T 里需要的是转置矩阵 VTV^T,我们把它的行和列对调一下: VT=[12121212]V^T = \begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}

为了满足正交矩阵长度为 11 的要求,我们直接写出标准化后的特征向量:

  • 对应 λ1=45\lambda_1 = 45 的向量:v1=[1/21/2]v_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}
  • 对应 λ2=5\lambda_2 = 5 的向量:v2=[1/21/2]v_2 = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}

把它们拼成右奇异矩阵 VV。在公式中我们需要的是 VTV^T(按行排布): VT=[1/21/21/21/2]V^T = \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix}


第二步:找目标空间的基底(求 UU#

千万记住 Strang 教授在黑板上极其用力的 “Instead” 法则! 绝对不要去算 AATA A^T 的特征向量,那样容易出现正负号断裂! 我们要用 SVD 的灵魂公式直接强推:ui=Aviσiu_i = \frac{A v_i}{\sigma_i}

1. 求 u1u_1 u1=135[3045][1/21/2]u_1 = \frac{1}{3\sqrt{5}} \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix} \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix} 先算矩阵乘法: =135[3292]= \frac{1}{3\sqrt{5}} \begin{bmatrix} \frac{3}{\sqrt{2}} \\ \frac{9}{\sqrt{2}} \end{bmatrix} 把外面的分母乘进去(注意 35×2=3103\sqrt{5} \times \sqrt{2} = 3\sqrt{10}): u1=[33109310]=[1/103/10]u_1 = \begin{bmatrix} \frac{3}{3\sqrt{10}} \\ \frac{9}{3\sqrt{10}} \end{bmatrix} = \mathbf{\begin{bmatrix} 1/\sqrt{10} \\ 3/\sqrt{10} \end{bmatrix}}

2. 求 u2u_2 u2=15[3045][1/21/2]u_2 = \frac{1}{\sqrt{5}} \begin{bmatrix} 3 & 0 \\ 4 & 5 \end{bmatrix} \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix} 先算矩阵乘法: =15[3212]= \frac{1}{\sqrt{5}} \begin{bmatrix} -\frac{3}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix} 把外面的分母乘进去(5×2=10\sqrt{5} \times \sqrt{2} = \sqrt{10}): u2=[3/101/10]u_2 = \mathbf{\begin{bmatrix} -3/\sqrt{10} \\ 1/\sqrt{10} \end{bmatrix}}

u1u_1u2u_2 拼起来,这就是绝对安全的左奇异矩阵 UUU=[110310310110]U = \begin{bmatrix} \frac{1}{\sqrt{10}} & -\frac{3}{\sqrt{10}} \\ \frac{3}{\sqrt{10}} & \frac{1}{\sqrt{10}} \end{bmatrix}

(口算验证:UU 的两列点积是不是 001×(3)10+3×110=0\frac{1\times(-3)}{10} + \frac{3\times1}{10} = 0。长度是不是 1112+3210=1010=1\frac{1^2+3^2}{10} = \frac{10}{10} = 1。完美正交!)


第三步:大满贯拼装#

现在,我们将三个矩阵组合在一起,见证代数的极致对称美:

A=[110310310110]U[35005]Σ[12121212]VTA = \underbrace{\begin{bmatrix} \frac{1}{\sqrt{10}} & -\frac{3}{\sqrt{10}} \\ \frac{3}{\sqrt{10}} & \frac{1}{\sqrt{10}} \end{bmatrix}}_{U} \underbrace{\begin{bmatrix} 3\sqrt{5} & 0 \\ 0 & \sqrt{5} \end{bmatrix}}_{\Sigma} \underbrace{\begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}}_{V^T}


東京大学 新領域創成科学研究科 メディカル情報生命専攻 2025年8月実施 問題7#

Author#

KardeniaPoyu

Description#

行列 A=(1110)A = \begin{pmatrix} 1 & 1 \\ 1 & 0 \end{pmatrix} について、以下の問いに答えよ。

(1) AA の固有値、固有ベクトルを求めよ。
(2) limnAn(xy)=(00)\lim_{n \to \infty} A^n \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix} を満たす、非ゼロの (xy)\begin{pmatrix} x \\ y \end{pmatrix} を求めよ。

m×nm \times n 実行列 AAl×nl \times n 実行列 BB に対して、Ax=0A \boldsymbol{x} = \boldsymbol{0} を満たすベクトル x\boldsymbol{x} は必ず Bx=0B \boldsymbol{x} = \boldsymbol{0} を満たすとき、以下の二つを示せ。

(3) rank Arank B\text{rank } A \ge \text{rank } B
(4) B=CAB = CA を満たす l×ml \times m 実行列 CC が存在する。

Kai#

(1)#

行列 AA の固有値を λ\lambda とすると、特性方程式は次のように表される。

det(AλI)=1λ11λ=λ(1λ)1=λ2λ1=0\begin{aligned} \det(A - \lambda I) &= \begin{vmatrix} 1 - \lambda & 1 \\ 1 & -\lambda \end{vmatrix} \\ &= -\lambda(1 - \lambda) - 1 \\ &= \lambda^2 - \lambda - 1 = 0 \end{aligned}

これを解くと、固有値は λ=1±52\lambda = \frac{1 \pm \sqrt{5}}{2} となる。

次に、それぞれの固有値に対する固有ベクトルを求める。 λ1=1+52,λ2=152\lambda_1 = \frac{1 + \sqrt{5}}{2}, \lambda_2 = \frac{1 - \sqrt{5}}{2} とおく。

λ1=1+52\lambda_1 = \frac{1 + \sqrt{5}}{2} のとき (Aλ1I)v=0(A - \lambda_1 I)\boldsymbol{v} = \boldsymbol{0} より、

(11+52111+52)(v1v2)=(00)\begin{pmatrix} 1 - \frac{1 + \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 + \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}(152111+52)(v1v2)=(00)\begin{pmatrix} \frac{1 - \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 + \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}

よって、v11+52v2=0v_1 - \frac{1 + \sqrt{5}}{2} v_2 = 0 が得られる。 したがって、対応する固有ベクトルは c1(1+521)(c10)c_1 \begin{pmatrix} \frac{1 + \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_1 \neq 0) となる。

λ2=152\lambda_2 = \frac{1 - \sqrt{5}}{2} のとき (Aλ2I)v=0(A - \lambda_2 I)\boldsymbol{v} = \boldsymbol{0} より、

(115211152)(v1v2)=(00)\begin{pmatrix} 1 - \frac{1 - \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 - \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}(1+5211152)(v1v2)=(00)\begin{pmatrix} \frac{1 + \sqrt{5}}{2} & 1 \\ 1 & -\frac{1 - \sqrt{5}}{2} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}

よって、v1152v2=0v_1 - \frac{1 - \sqrt{5}}{2} v_2 = 0 が得られる。 したがって、対応する固有ベクトルは c2(1521)(c20)c_2 \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_2 \neq 0) となる。

以上より、固有値と固有ベクトルは以下の通りである。

  • 固有値 1+52\frac{1 + \sqrt{5}}{2} に対する固有ベクトル: c1(1+521)(c10)c_1 \begin{pmatrix} \frac{1 + \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_1 \neq 0)
  • 固有値 152\frac{1 - \sqrt{5}}{2} に対する固有ベクトル: c2(1521)(c20)c_2 \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c_2 \neq 0)

(2)#

(1) で求めた固有ベクトル v1=(1+521),v2=(1521)\boldsymbol{v}_1 = \begin{pmatrix} \frac{1 + \sqrt{5}}{2} \\ 1 \end{pmatrix}, \boldsymbol{v}_2 = \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix} は一次独立であるため、これらを基底として (xy)\begin{pmatrix} x \\ y \end{pmatrix} を表すことができる。 実数 α,β\alpha, \beta を用いて、

(xy)=αv1+βv2\begin{pmatrix} x \\ y \end{pmatrix} = \alpha \boldsymbol{v}_1 + \beta \boldsymbol{v}_2

と表すとする。このとき、An(xy)A^n \begin{pmatrix} x \\ y \end{pmatrix} は次のように計算できる。

An(xy)=An(αv1+βv2)=αAnv1+βAnv2=αλ1nv1+βλ2nv2\begin{aligned} A^n \begin{pmatrix} x \\ y \end{pmatrix} &= A^n (\alpha \boldsymbol{v}_1 + \beta \boldsymbol{v}_2) \\ &= \alpha A^n \boldsymbol{v}_1 + \beta A^n \boldsymbol{v}_2 \\ &= \alpha \lambda_1^n \boldsymbol{v}_1 + \beta \lambda_2^n \boldsymbol{v}_2 \end{aligned}

ここで、nn \to \infty の極限を考える。 λ1=1+521.618>1\lambda_1 = \frac{1 + \sqrt{5}}{2} \approx 1.618 > 1 であるため、λ1n\lambda_1^n は発散する。 一方、λ2=1520.618\lambda_2 = \frac{1 - \sqrt{5}}{2} \approx -0.618 であり、λ2<1|\lambda_2| < 1 であるため、λ2n0(n)\lambda_2^n \to 0 \quad (n \to \infty) となる。

したがって、limnAn(xy)=(00)\lim_{n \to \infty} A^n \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix} が成り立つためには、発散する項の係数 α\alpha00 でなければならない。

α=0\alpha = 0 のとき、

(xy)=βv2=β(1521)\begin{pmatrix} x \\ y \end{pmatrix} = \beta \boldsymbol{v}_2 = \beta \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix}

となる。(xy)\begin{pmatrix} x \\ y \end{pmatrix} は非ゼロであるため、β0\beta \neq 0 である。 よって、求める非ゼロのベクトル (xy)\begin{pmatrix} x \\ y \end{pmatrix} は、

c(1521)(c0)c \begin{pmatrix} \frac{1 - \sqrt{5}}{2} \\ 1 \end{pmatrix} \quad (c \neq 0)

である。

(3)#

AAm×nm \times n 行列、BBl×nl \times n 行列とする。 仮定より、Ax=0A\boldsymbol{x} = \boldsymbol{0} を満たすベクトル x\boldsymbol{x} は必ず Bx=0B\boldsymbol{x} = \boldsymbol{0} を満たす。 すなわち、行列 AA の核 (Null space) を ker(A)\ker(A)、行列 BB の核を ker(B)\ker(B) とすると、

ker(A)ker(B)\ker(A) \subseteq \ker(B)

が成り立つ。 これより、それぞれの核の次元 (Nullity) について以下の不等式が成り立つ。

dim(ker(A))dim(ker(B))\dim(\ker(A)) \le \dim(\ker(B))

ここで、次元定理 (Rank-Nullity Theorem) より、任意の k×nk \times n 行列 MM について、

rank(M)+dim(ker(M))=n\text{rank}(M) + \dim(\ker(M)) = n

が成り立つ。行列 AABB はともに nn 列の行列であるため、

rank(A)+dim(ker(A))=n\text{rank}(A) + \dim(\ker(A)) = nrank(B)+dim(ker(B))=n\text{rank}(B) + \dim(\ker(B)) = n

となる。これらを変形して不等式に代入すると、

nrank(A)nrank(B)    rank(A)rank(B)n - \text{rank}(A) \le n - \text{rank}(B) \implies \text{rank}(A) \ge \text{rank}(B)

が示された。

English:

Let AA be an m×nm \times n matrix and BB be an l×nl \times n matrix. By assumption, any vector x\boldsymbol{x} satisfying Ax=0A\boldsymbol{x} = \boldsymbol{0} also satisfies Bx=0B\boldsymbol{x} = \boldsymbol{0}. That is, if we denote the null space (kernel) of AA and BB as ker(A)\ker(A) and ker(B)\ker(B) respectively, then:

ker(A)ker(B)\ker(A) \subseteq \ker(B)

This implies the following inequality for the dimensions of the kernels (nullities):

dim(ker(A))dim(ker(B))\dim(\ker(A)) \le \dim(\ker(B))

From the Rank-Nullity Theorem, for any k×nk \times n matrix MM:

rank(M)+dim(ker(M))=n\text{rank}(M) + \dim(\ker(M)) = n Since matrices AA and BB both have nn columns, we have:

rank(A)+dim(ker(A))=nrank(B)+dim(ker(B))=n\begin{aligned} \text{rank}(A) + \dim(\ker(A)) &= n \\ \text{rank}(B) + \dim(\ker(B)) &= n \end{aligned}

Substituting these into the inequality:

nrank(A)nrank(B)    rank(A)rank(B)n - \text{rank}(A) \le n - \text{rank}(B) \implies \text{rank}(A) \ge \text{rank}(B)

This completes the proof.

(4)#

仮定より ker(A)ker(B)\ker(A) \subseteq \ker(B) である。 任意の部分空間 VV について、その直交補空間を VV^\perp と表す。包含関係の直交補空間をとると、包含関係が逆転するため、

ker(B)ker(A)\ker(B)^\perp \subseteq \ker(A)^\perp

が成り立つ。 任意の行列について、その核の直交補空間は行空間 (Row space) と一致する。すなわち、行列 MM の行空間を R(M)R(M) とすると、ker(M)=R(M)\ker(M)^\perp = R(M) である。 これを用いると、上の包含関係は次のように表せる。

R(B)R(A)R(B) \subseteq R(A)

これは、行列 BB のすべての行ベクトルが、行列 AA の行ベクトルの線形結合として表せることを意味する。 行列 AAjj 番目の行ベクトルを ajT(j=1,,m)\boldsymbol{a}_j^T \quad (j=1, \dots, m) とし、行列 BBii 番目の行ベクトルを biT(i=1,,l)\boldsymbol{b}_i^T \quad (i=1, \dots, l) とすると、 任意の ii について、あるスカラー cijc_{ij} が存在して、

biT=j=1mcijajT\boldsymbol{b}_i^T = \sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T

と表せる。 ここで、cijc_{ij}(i,j)(i, j) 成分に持つ l×ml \times m 行列を CC と定義する。 このとき、行列の積 CACA の第 ii 行は j=1mcijajT\sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T となり、これは biT\boldsymbol{b}_i^T に等しい。 よって、B=CAB = CA が成り立つ。 以上より、B=CAB = CA を満たす l×ml \times m 実行列 CC が存在することが示された。

English:

For any subspace VV, let VV^\perp denote its orthogonal complement. Taking the orthogonal complement of both sides reverses the inclusion relation:

ker(B)ker(A)\ker(B)^\perp \subseteq \ker(A)^\perp

For any matrix, the orthogonal complement of its null space is its row space. That is, if R(M)R(M) is the row space of matrix MM, then ker(M)=R(M)\ker(M)^\perp = R(M). Thus, the inclusion can be rewritten as:

R(B)R(A)R(B) \subseteq R(A)

This means every row vector of matrix BB can be expressed as a linear combination of the row vectors of matrix AA. Let ajT(j=1,,m)\boldsymbol{a}_j^T \quad (j=1, \dots, m) be the jj-th row vector of AA, and biT(i=1,,l)\boldsymbol{b}_i^T \quad (i=1, \dots, l) be the ii-th row vector of BB.

biT=j=1mcijajT\boldsymbol{b}_i^T = \sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T

Define an l×ml \times m matrix CC where the (i,j)(i, j)-th entry is cijc_{ij}. Then, the ii-th row of the product CACA is j=1mcijajT\sum_{j=1}^{m} c_{ij} \boldsymbol{a}_j^T, which equals biT\boldsymbol{b}_i^T. Therefore, B=CAB = CA holds.

This proves that there exists an l×ml \times m real matrix CC satisfying B=CAB = CA.

Summary#

  • 次元定理 (Rank-Nullity Theorem): rank(A)+dim(kerA)=n\text{rank}(A) + \dim(\ker A) = n (即:+零空间维度=总列数\text{秩} + \text{零空间维度} = \text{总列数})。

  • 题目条件翻译成数学语言。

最小二乘法#

Question#

Find the least squares solution x^\hat{\boldsymbol{x}} for the system Ax=bA\boldsymbol{x} = \boldsymbol{b}, where: A=[101112],b=[341]A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}, \quad \boldsymbol{b} = \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix}

Solution#

面对 Ax=bAx = b 无解的绝境,线性代数给出的终极拯救方案就是正规方程 (Normal Equations): 在等式两边同时左乘矩阵的转置 ATA^T,强行把方程变成有解的形态:

ATAx^=ATbA^T A \hat{x} = A^T b

我们把这道题的数据代进去,一步一步把它算穿:


第一步:准备好弹药 (AA, ATA^T, bb)#

已知我们的原矩阵 AA 和目标向量 bbA=[101112],b=[341]A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}, \quad b = \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix}

首先,写出 AA 的转置 ATA^T(把列变成行): AT=[111012]A^T = \begin{bmatrix} 1 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix}

第二步:组装对称正定方阵 (ATAA^T A)#

这是最神奇的一步!无论 AA 原本有多么高瘦不规则,乘以自己的转置后,必定会生出一个完美的、可逆的对称方阵。 ATA=[111012][101112]A^T A = \begin{bmatrix} 1 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}

  • 第一行乘第一列:1×1+1×1+1×1=31\times1 + 1\times1 + 1\times1 = \mathbf{3}
  • 第一行乘第二列:1×0+1×1+1×2=31\times0 + 1\times1 + 1\times2 = \mathbf{3}
  • 第二行乘第一列:0×1+1×1+2×1=30\times1 + 1\times1 + 2\times1 = \mathbf{3}
  • 第二行乘第二列:0×0+1×1+2×2=50\times0 + 1\times1 + 2\times2 = \mathbf{5}

所以,ATA=[3335]A^T A = \begin{bmatrix} 3 & 3 \\ 3 & 5 \end{bmatrix} (看到了吗?主对角线两侧都是 3,完美的对称矩阵!)

第三步:转化目标向量 (ATbA^T b)#

对目标 bb 进行同样的降维打击: ATb=[111012][341]A^T b = \begin{bmatrix} 1 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix} \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix}

  • 第一行乘 bb1×3+1×4+1×1=81\times3 + 1\times4 + 1\times1 = \mathbf{8}
  • 第二行乘 bb0×3+1×4+2×1=60\times3 + 1\times4 + 2\times1 = \mathbf{6}

所以,ATb=[86]A^T b = \begin{bmatrix} 8 \\ 6 \end{bmatrix}

第四步:解救 x^\hat{x} (求解正规方程)#

现在,原本那个无解的 3×23 \times 2 绝境,被我们完美转化成了一个极其标准的 2×22 \times 2 线性方程组: [3335][C^D^]=[86]\begin{bmatrix} 3 & 3 \\ 3 & 5 \end{bmatrix} \begin{bmatrix} \hat{C} \\ \hat{D} \end{bmatrix} = \begin{bmatrix} 8 \\ 6 \end{bmatrix}

解这个方程简直易如反掌。我们求 ATAA^T A 的逆矩阵: 2×22 \times 2 矩阵的行列式:3×53×3=159=63 \times 5 - 3 \times 3 = 15 - 9 = \mathbf{6}。 利用口诀“主对角互换,副对角变号,除以行列式”: (ATA)1=16[5333](A^T A)^{-1} = \frac{1}{6} \begin{bmatrix} 5 & -3 \\ -3 & 3 \end{bmatrix}

把逆矩阵乘到右边去,彻底解放 x^\hat{x}x^=16[5333][86]\hat{x} = \frac{1}{6} \begin{bmatrix} 5 & -3 \\ -3 & 3 \end{bmatrix} \begin{bmatrix} 8 \\ 6 \end{bmatrix}

=16[5×8+(3)×6(3)×8+3×6]=16[401824+18]=16[226]= \frac{1}{6} \begin{bmatrix} 5\times8 + (-3)\times6 \\ (-3)\times8 + 3\times6 \end{bmatrix} = \frac{1}{6} \begin{bmatrix} 40 - 18 \\ -24 + 18 \end{bmatrix} = \frac{1}{6} \begin{bmatrix} 22 \\ -6 \end{bmatrix}

化简这个分数: x^=[22/66/6]=[11/31]\hat{x} = \begin{bmatrix} 22/6 \\ -6/6 \end{bmatrix} = \begin{bmatrix} 11/3 \\ -1 \end{bmatrix}


💡 灵魂拷问:为什么要左乘 ATA^T#

这个看似流氓的“两边同乘 ATA^T”操作,绝不仅仅是为了凑出一个方阵,它的背后有着极其严密的几何物理意义

我们复习一下刚刚讲的投影:

  1. 投影的本质是寻找列空间里离 bb 最近的点 pp
  2. 既然最近,那么产生的误差向量 e=bpe = b - p 必须绝对垂直于列空间 C(A)C(A)
  3. 垂直于列空间的向量,归谁管?归四个基本子空间里的**“左零空间 N(AT)N(A^T)”**管!

这意味着,误差 ee 掉进了 ATA^T 的零空间,所以: ATe=0A^T e = 0

e=bAx^e = b - A\hat{x} 代进去: AT(bAx^)=0A^T (b - A\hat{x}) = 0 把括号拆开,移项: ATAx^=ATbA^T A \hat{x} = A^T b


既然已经算出了最优解 x^=[11/31]\hat{x} = \begin{bmatrix} 11/3 \\ -1 \end{bmatrix},求投影 pp 的过程,本质上就是把这个“配方”带回到原始矩阵 AA 的仓库里去“抓药”。

1. 核心公式:投影就是列的线性组合#

在最小二乘法中,投影向量 pp 的定义极其简单: p=Ax^p = A\hat{x}

这个公式的物理意义是:由于目标 bb 不在列空间里,我们退而求其次,寻找列空间中离 bb 最近的点。而 x^\hat{x} 恰恰告诉了我们:“你应该用多少份的第一列和多少份的第二列,才能拼凑出这个最近的点。”

2. 具体的代数推导#

我们将矩阵 A=[101112]A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} 和算出的 x^=[11/31]\hat{x} = \begin{bmatrix} 11/3 \\ -1 \end{bmatrix} 代入:

p=[101112][11/31]p = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} 11/3 \\ -1 \end{bmatrix}

按照矩阵乘法(或者更直观的“列组合”视角)展开: p=113[111]+(1)[012]p = \frac{11}{3} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} + (-1) \begin{bmatrix} 0 \\ 1 \\ 2 \end{bmatrix}

逐行计算:

  • 第一行: 1×113+0×(1)=11/31 \times \frac{11}{3} + 0 \times (-1) = \mathbf{11/3}
  • 第二行: 1×113+1×(1)=11333=8/31 \times \frac{11}{3} + 1 \times (-1) = \frac{11}{3} - \frac{3}{3} = \mathbf{8/3}
  • 第三行: 1×113+2×(1)=11363=5/31 \times \frac{11}{3} + 2 \times (-1) = \frac{11}{3} - \frac{6}{3} = \mathbf{5/3}

所以,投影向量为: p=[11/38/35/3]p = \begin{bmatrix} 11/3 \\ 8/3 \\ 5/3 \end{bmatrix}

3. 为什么这个 pp 很重要?#

这个 pp 就是你在统计学里寻找的那条“最佳拟合直线”在数据点上的预估值。

  • t=0t=0 时,直线预测值是 11/311/3
  • t=1t=1 时,直线预测值是 8/38/3
  • t=2t=2 时,直线预测值是 5/35/3

如果你把这些预测值跟原始的观测值 b=[341]b = \begin{bmatrix} 3 \\ 4 \\ 1 \end{bmatrix} 做对比,你会发现它们之间存在垂直的误差。

总结#

求投影 pp 的第一步是解出 x^\hat{x},第二步就是简单的乘法 p=Ax^p = A\hat{x}。这个 pp 是列空间中对 bb 的最佳近似。如果你想进一步验证,可以计算 e=bpe = b - p,你会发现 eeAA 的每一列都正交,这说明你的投影找得严丝合缝。


東京大学 新領域創成科学研究科 メディカル情報生命専攻 2026年1月実施 問題7#

Description#

以下の問いに答えよ。

(1) 行列 A=(211121112)A = \begin{pmatrix} 2 & -1 & -1 \\ -1 & 2 & -1 \\ -1 & -1 & 2 \end{pmatrix} の固有値を求めよ。

(2) 行列 AA の固有空間の基底を求めよ。

(3) PTAPP^T AP が対角行列になるような直交行列 PP を求めよ。

(4) x=(x1,x2,x3)T\boldsymbol{x} = (x_1, x_2, x_3)^T を三次元実ベクトルとする。f(x)=xTAxf(\boldsymbol{x}) = \boldsymbol{x}^T A \boldsymbol{x} の最小値を与える最適解的集合は、三次元空間における直線になっている。この直線を表す方程式を示せ。

(5) 実数の成分からなる対称正方行列に対して、すべての固有値が異なるならば、すべての固有ベクトルは相互に直交することを証明せよ。

Kai#

(1) 固有値の算出#

行列 AA の固有方程式 λIA=0|\lambda I - A| = 0 を解く。

λIA=λ2111λ2111λ2|\lambda I - A| = \begin{vmatrix} \lambda - 2 & 1 & 1 \\ 1 & \lambda - 2 & 1 \\ 1 & 1 & \lambda - 2 \end{vmatrix} 各列を第1列に加えると、

λIA=λ11λλ21λ1λ2=λ1111λ2111λ2\begin{aligned} |\lambda I - A| &= \begin{vmatrix} \lambda & 1 & 1 \\ \lambda & \lambda - 2 & 1 \\ \lambda & 1 & \lambda - 2 \end{vmatrix} \\ &= \lambda \begin{vmatrix} 1 & 1 & 1 \\ 1 & \lambda - 2 & 1 \\ 1 & 1 & \lambda - 2 \end{vmatrix} \end{aligned}

第2行および第3行から第1行を引くと、

=λ1110λ3000λ3=λ(λ3)2=0\begin{aligned} &= \lambda \begin{vmatrix} 1 & 1 & 1 \\ 0 & \lambda - 3 & 0 \\ 0 & 0 & \lambda - 3 \end{vmatrix} \\ &= \lambda (\lambda - 3)^2 = 0 \end{aligned}

ゆえに、行列 AA の固有値は λ=0,3\lambda = 0, 333 は2重根) である。


(別解:サラスの公式による展開)

λIA=λ2111λ2111λ2=(λ2)3+(111)+(111)(λ2)1111(λ2)1(λ2)1=(λ36λ2+12λ8)+23(λ2)=λ36λ2+12λ63λ+6=λ36λ2+9λ=λ(λ26λ+9)=λ(λ3)2\begin{aligned} |\lambda I - A| &= \begin{vmatrix} \lambda - 2 & 1 & 1 \\ 1 & \lambda - 2 & 1 \\ 1 & 1 & \lambda - 2 \end{vmatrix} \\ &= (\lambda - 2)^3 + (1 \cdot 1 \cdot 1) + (1 \cdot 1 \cdot 1) - (\lambda - 2) \cdot 1 \cdot 1 - 1 \cdot 1 \cdot (\lambda - 2) - 1 \cdot (\lambda - 2) \cdot 1 \\ &= (\lambda^3 - 6\lambda^2 + 12\lambda - 8) + 2 - 3(\lambda - 2) \\ &= \lambda^3 - 6\lambda^2 + 12\lambda - 6 - 3\lambda + 6 \\ &= \lambda^3 - 6\lambda^2 + 9\lambda \\ &= \lambda(\lambda^2 - 6\lambda + 9) \\ &= \lambda(\lambda - 3)^2 \end{aligned}

(2) 固有空間の基底#

固有値 λ\lambda に属する固有空間 W(λ)W(\lambda) は、方程式 (λIA)x=0(\lambda I - A)\boldsymbol{x} = \boldsymbol{0} の解空間である。

λ=0\lambda = 0 のとき

(λIA)x=(211121112)(x1x2x3)=(000)\begin{aligned} (\lambda I - A)\boldsymbol{x} = \begin{pmatrix} -2 & 1 & 1 \\ 1 & -2 & 1 \\ 1 & 1 & -2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \end{aligned}

行基本変形により x1x2=0x_1 - x_2 = 0 かつ x2x3=0x_2 - x_3 = 0 を得る。すなわち x1=x2=x3x_1 = x_2 = x_3。 したがって、W(0)W(0) の基底は以下の通りとなる。

{(111)}\begin{aligned} \left\{ \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix} \right\} \end{aligned}

λ=3\lambda = 3 のとき

(3IA)x=(111111111)(x1x2x3)=(000)\begin{aligned} (3I - A)\boldsymbol{x} = \begin{pmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \end{aligned}

これは x1+x2+x3=0x_1 + x_2 + x_3 = 0 と同値である。x2=s,x3=tx_2 = s, x_3 = t とおくと x1=stx_1 = -s - t となる。 したがって、W(3)W(3) の基底は以下の通りとなる。

{(110),(101)}\begin{aligned} \left\{ \begin{pmatrix} -1 \\ 1 \\ 0 \end{pmatrix}, \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} \right\} \end{aligned}

(3) 直交行列による対角化#

実対称行列は直交行列によって対角化可能である。各固有空間における正規直交基底を構成する。

  • W(0)W(0) の正規直交基底: v1=(1,1,1)T\boldsymbol{v}_1 = (1, 1, 1)^T を正規化すると、

    u1=13(111)\boldsymbol{u}_1 = \frac{1}{\sqrt{3}} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}

    となる。

  • W(3)W(3) の正規直交基底: v2=(1,1,0)T,v3=(1,0,1)T\boldsymbol{v}_2 = (-1, 1, 0)^T, \boldsymbol{v}_3 = (-1, 0, 1)^T とし、グラム・シュミットの直交化法を用いる。 まず v2\boldsymbol{v}_2 を正規化すると、

    u2=12(110)\boldsymbol{u}_2 = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 1 \\ 0 \end{pmatrix}

    となる。次に v3\boldsymbol{v}_3u2\boldsymbol{u}_2 に対する直交成分 v3\boldsymbol{v}_3' を求めると、

    v3=v3(v3u2)u2=(101)12(110)=(1/21/21)\begin{aligned} \boldsymbol{v}_3' &= \boldsymbol{v}_3 - (\boldsymbol{v}_3 \cdot \boldsymbol{u}_2)\boldsymbol{u}_2 \\ &= \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} - \frac{1}{2}\begin{pmatrix} -1 \\ 1 \\ 0 \end{pmatrix} = \begin{pmatrix} -1/2 \\ -1/2 \\ 1 \end{pmatrix} \end{aligned}

    これを正規化すると、

    u3=16(112)\boldsymbol{u}_3 = \frac{1}{\sqrt{6}} \begin{pmatrix} -1 \\ -1 \\ 2 \end{pmatrix}

    を得る。

以上より、求める直交行列 PP は以下の通りである。

P=(u1u2u3)=(13121613121613026)P = (\boldsymbol{u}_1 \quad \boldsymbol{u}_2 \quad \boldsymbol{u}_3) = \begin{pmatrix} \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & 0 & \frac{2}{\sqrt{6}} \end{pmatrix}

(4) 二次形式の最小値と直線の方程式#

直交行列 PP を用いて x=Py\boldsymbol{x} = P\boldsymbol{y}y=(y1,y2,y3)T\boldsymbol{y} = (y_1, y_2, y_3)^T)と変数変換を行うと、二次形式 f(x)f(\boldsymbol{x}) は以下のように対角化される。

f(x)=yT(PTAP)y=0y12+3y22+3y32\begin{aligned} f(\boldsymbol{x}) &= \boldsymbol{y}^T (P^T A P) \boldsymbol{y} \\ &= 0y_1^2 + 3y_2^2 + 3y_3^2 \end{aligned}

y1,y2,y3y_1, y_2, y_3 は実数であるため、f(x)=3y22+3y320f(\boldsymbol{x}) = 3y_2^2 + 3y_3^2 \geq 0 が成り立つ。 したがって、f(x)f(\boldsymbol{x}) の最小値は 00 であり、条件は y2=y3=0y_2 = y_3 = 0 である。このとき、

x=P(y100)=y1u1=y13(111)\boldsymbol{x} = P \begin{pmatrix} y_1 \\ 0 \\ 0 \end{pmatrix} = y_1 \boldsymbol{u}_1 = \frac{y_1}{\sqrt{3}} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}

これは固有空間 W(0)W(0) に属する任意のベクトルを表す。よって、最適解の集合がなす直線の方程式は x1=x2=x3x_1 = x_2 = x_3 である。

English:

By applying the orthogonal transformation x=Py\boldsymbol{x} = P\boldsymbol{y} using the matrix PP from (3), the quadratic form f(x)f(\boldsymbol{x}) is diagonalized as:

f(x)=yT(PTAP)y=0y12+3y22+3y32\begin{aligned} f(\boldsymbol{x}) &= \boldsymbol{y}^T (P^T A P) \boldsymbol{y} \\ &= 0y_1^2 + 3y_2^2 + 3y_3^2 \end{aligned}

Since yiRy_i \in \mathbb{R}, f(x)0f(\boldsymbol{x}) \geq 0 holds. The minimum value 00 is achieved when y2=y3=0y_2 = y_3 = 0, which implies x\boldsymbol{x} is any multiple of the eigenvector u1\boldsymbol{u}_1:

x=P(y100)=y1u1=y13(111)\boldsymbol{x} = P \begin{pmatrix} y_1 \\ 0 \\ 0 \end{pmatrix} = y_1 \boldsymbol{u}_1 = \frac{y_1}{\sqrt{3}} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}

Thus, the set of optimal solutions is the line x1=x2=x3x_1 = x_2 = x_3.


(5) 【証明】 相異なる固有値に属する固有ベクトルの直交性#

実対称行列 AA (AT=AA^T = A) の相異なる固有値を λ1,λ2\lambda_1, \lambda_2、対応する固有ベクトルを x1,x2\boldsymbol{x}_1, \boldsymbol{x}_2 とする。

Ax1=λ1x1(i)Ax2=λ2x2(ii)\begin{aligned} A \boldsymbol{x}_1 &= \lambda_1 \boldsymbol{x}_1 \quad \dots (i) \\ A \boldsymbol{x}_2 &= \lambda_2 \boldsymbol{x}_2 \quad \dots (ii) \end{aligned}

(i)(i) の両辺を転置すると、x1TAT=λ1x1T\boldsymbol{x}_1^T A^T = \lambda_1 \boldsymbol{x}_1^T となる。AT=AA^T = A より、

x1TA=λ1x1T\begin{aligned} \boldsymbol{x}_1^T A = \lambda_1 \boldsymbol{x}_1^T \end{aligned}

この両辺に右から x2\boldsymbol{x}_2 を掛けると、

x1TAx2=λ1x1Tx2(iii)\begin{aligned} \boldsymbol{x}_1^T A \boldsymbol{x}_2 = \lambda_1 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iii) \end{aligned}

一方、式 (iii)(iii) の左辺に式 (ii)(ii) を代入すると、

x1T(Ax2)=x1T(λ2x2)=λ2x1Tx2(iv)\begin{aligned} \boldsymbol{x}_1^T (A \boldsymbol{x}_2) = \boldsymbol{x}_1^T (\lambda_2 \boldsymbol{x}_2) = \lambda_2 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iv) \end{aligned}

(iii)(iii)(iv)(iv) より、

(λ1λ2)x1Tx2=0\begin{aligned} (\lambda_1 - \lambda_2) \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

λ1λ2\lambda_1 \neq \lambda_2 より λ1λ20\lambda_1 - \lambda_2 \neq 0 であるから、

x1Tx2=0\begin{aligned} \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

が成り立つ。これは x1\boldsymbol{x}_1x2\boldsymbol{x}_2 が直交することを意味する。(証明終)

English:

Let λ1,λ2\lambda_1, \lambda_2 be distinct eigenvalues of a real symmetric matrix AA, with eigenvectors x1,x2\boldsymbol{x}_1, \boldsymbol{x}_2.

Ax1=λ1x1(i)Ax2=λ2x2(ii)\begin{aligned} A\boldsymbol{x}_1 &= \lambda_1 \boldsymbol{x}_1 \quad \dots (i) \\ A\boldsymbol{x}_2 &= \lambda_2 \boldsymbol{x}_2 \quad \dots (ii) \end{aligned}

Taking the transpose of (i) and using AT=AA^T = A, we have x1TA=λ1x1T\boldsymbol{x}_1^T A = \lambda_1 \boldsymbol{x}_1^T. Multiplying by x2\boldsymbol{x}_2 from the right yields:

x1TAx2=λ1x1Tx2(iii)\begin{aligned} \boldsymbol{x}_1^T A \boldsymbol{x}_2 = \lambda_1 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iii) \end{aligned}

Simultaneously, from (ii), we have:

x1TAx2=λ2x1Tx2(iv)\begin{aligned} \boldsymbol{x}_1^T A \boldsymbol{x}_2 = \lambda_2 \boldsymbol{x}_1^T \boldsymbol{x}_2 \quad \dots (iv) \end{aligned}

From (iii) and (iv), it follows that:

(λ1λ2)x1Tx2=0\begin{aligned} (\lambda_1 - \lambda_2) \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

Since λ1λ2\lambda_1 \neq \lambda_2, we must have:

x1Tx2=0\begin{aligned} \boldsymbol{x}_1^T \boldsymbol{x}_2 = 0 \end{aligned}

proving orthogonality. (Q.E.D.)


東京大学 新領域創成科学研究科 メディカル情報生命専攻 2025年1月実施 問題7#

Description#

長さ 1133 次元実縦ベクトル uR3\boldsymbol{u} \in \mathbb{R}^3 (u=uTu=1\|\boldsymbol{u}\| = \sqrt{\boldsymbol{u}^T \boldsymbol{u}} = 1) に対し、3×33 \times 3 実行列 RuR3×3R_u \in \mathbb{R}^{3 \times 3}Ru=I2uuTR_u = I - 2\boldsymbol{u}\boldsymbol{u}^T と定義する。ここで、IR3×3I \in \mathbb{R}^{3 \times 3}3×33 \times 3 単位行列、uT\boldsymbol{u}^Tu\boldsymbol{u} の転置を表す。以下の問に数学的導出も含め答えよ。

(1) 任意のベクトル xR3\boldsymbol{x} \in \mathbb{R}^3 に対し、y=Rux\boldsymbol{y} = R_u \boldsymbol{x} と置くとき、ベクトル xy\boldsymbol{x} - \boldsymbol{y} はある実数 aRa \in \mathbb{R} を用いて xy=au\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u} と書けることを示せ。

(2) y\boldsymbol{y}x\boldsymbol{x} の長さは等しい (y=x\|\boldsymbol{y}\| = \|\boldsymbol{x}\|) ことを示せ。

(3) ベクトル x=(x1,x2,x3)TR3\boldsymbol{x} = (x_1, x_2, x_3)^T \in \mathbb{R}^311 つ与えられているとする。y=Rux\boldsymbol{y} = R_u \boldsymbol{x} がある実数 bRb \in \mathbb{R} を用いて y=(b,0,0)T\boldsymbol{y} = (b, 0, 0)^T の形になるような u\boldsymbol{u} を全て求めよ。

(4) ベクトル x=(x1,x2,x3)TR3\boldsymbol{x} = (x_1, x_2, x_3)^T \in \mathbb{R}^311 つ与えられているとする。y=Rux\boldsymbol{y} = R_u \boldsymbol{x} がある実数 cRc \in \mathbb{R} を用いて y=(x1,c,0)T\boldsymbol{y} = (x_1, c, 0)^T の形になるような u\boldsymbol{u} を全て求めよ。

(5) A=(010001101)R3×3A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 1 \end{pmatrix} \in \mathbb{R}^{3 \times 3} とする。B=RuRvAB = R_u R_v A がある実数 d,e,f,g,h,iRd, e, f, g, h, i \in \mathbb{R} を用いて B=(def0gh00i)B = \begin{pmatrix} d & e & f \\ 0 & g & h \\ 0 & 0 & i \end{pmatrix} の形になるような、長さ 11 のベクトルの組 (u,v)(\boldsymbol{u}, \boldsymbol{v})11 つ求めよ。またこのときの BB を答えよ。

Kai#

(1)#

定義より、y=Rux=(I2uuT)x=x2u(uTx)\boldsymbol{y} = R_u\boldsymbol{x} = (I - 2\boldsymbol{u}\boldsymbol{u}^T)\boldsymbol{x} = \boldsymbol{x} - 2\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{x}) である。 これを移項すると、

xy=2(uTx)u\boldsymbol{x} - \boldsymbol{y} = 2(\boldsymbol{u}^T\boldsymbol{x})\boldsymbol{u}

となる。ここで、uTx\boldsymbol{u}^T\boldsymbol{x} はベクトルの内積であり、実数のスカラー値である。 したがって、a=2uTxRa = 2\boldsymbol{u}^T\boldsymbol{x} \in \mathbb{R} とおけば、

xy=au\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}

と書けることが示された。

English:

By definition, y=Rux=(I2uuT)x=x2u(uTx)\boldsymbol{y} = R_u\boldsymbol{x} = (I - 2\boldsymbol{u}\boldsymbol{u}^T)\boldsymbol{x} = \boldsymbol{x} - 2\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{x}). Rearranging this equation yields:

xy=2(uTx)u\boldsymbol{x} - \boldsymbol{y} = 2(\boldsymbol{u}^T\boldsymbol{x})\boldsymbol{u}

Here, uTx\boldsymbol{u}^T\boldsymbol{x} is the inner product of two vectors, which evaluates to a real scalar. Therefore, by letting a=2uTxRa = 2\boldsymbol{u}^T\boldsymbol{x} \in \mathbb{R}, we can express this as:

xy=au\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}

This completes the proof.

(2)#

y2=yTy=(Rux)T(Rux)=xTRuTRux\|\boldsymbol{y}\|^2 = \boldsymbol{y}^T \boldsymbol{y} = (R_u \boldsymbol{x})^T (R_u \boldsymbol{x}) = \boldsymbol{x}^T R_u^T R_u \boldsymbol{x} を計算する。 まず、RuR_u の転置は RuT=(I2uuT)T=I2uuT=RuR_u^T = (I - 2\boldsymbol{u}\boldsymbol{u}^T)^T = I - 2\boldsymbol{u}\boldsymbol{u}^T = R_u であり、RuR_u は対称行列である。 次に、RuTRu=Ru2R_u^T R_u = R_u^2 を計算すると、

Ru2=(I2uuT)(I2uuT)=I4uuT+4u(uTu)uT\begin{aligned} R_u^2 &= (I - 2\boldsymbol{u}\boldsymbol{u}^T)(I - 2\boldsymbol{u}\boldsymbol{u}^T) \\ &= I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{u})\boldsymbol{u}^T \end{aligned}

仮定より u=1\|\boldsymbol{u}\| = 1、すなわち uTu=1\boldsymbol{u}^T\boldsymbol{u} = 1 であるため、

Ru2=I4uuT+4u(1)uT=IR_u^2 = I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(1)\boldsymbol{u}^T = I

となり、RuR_u は直交行列であることがわかる。 ゆえに、y2=xTIx=xTx=x2\|\boldsymbol{y}\|^2 = \boldsymbol{x}^T I \boldsymbol{x} = \boldsymbol{x}^T \boldsymbol{x} = \|\boldsymbol{x}\|^2 となる。 ノルムは非負であるため、y=x\|\boldsymbol{y}\| = \|\boldsymbol{x}\| が示された。

English:

Calculate y2=yTy=(Rux)T(Rux)=xTRuTRux\|\boldsymbol{y}\|^2 = \boldsymbol{y}^T \boldsymbol{y} = (R_u \boldsymbol{x})^T (R_u \boldsymbol{x}) = \boldsymbol{x}^T R_u^T R_u \boldsymbol{x}. First, note that RuT=(I2uuT)T=I2uuT=RuR_u^T = (I - 2\boldsymbol{u}\boldsymbol{u}^T)^T = I - 2\boldsymbol{u}\boldsymbol{u}^T = R_u, meaning RuR_u is a symmetric matrix. Next, we calculate RuTRu=Ru2R_u^T R_u = R_u^2:

Ru2=(I2uuT)(I2uuT)=I4uuT+4u(uTu)uT\begin{aligned} R_u^2 &= (I - 2\boldsymbol{u}\boldsymbol{u}^T)(I - 2\boldsymbol{u}\boldsymbol{u}^T) \\ &= I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(\boldsymbol{u}^T\boldsymbol{u})\boldsymbol{u}^T \end{aligned}

By assumption, u=1\|\boldsymbol{u}\| = 1, which means uTu=1\boldsymbol{u}^T\boldsymbol{u} = 1. Thus:

Ru2=I4uuT+4u(1)uT=IR_u^2 = I - 4\boldsymbol{u}\boldsymbol{u}^T + 4\boldsymbol{u}(1)\boldsymbol{u}^T = I

This shows RuR_u is an orthogonal matrix. Therefore, y2=xTIx=xTx=x2\|\boldsymbol{y}\|^2 = \boldsymbol{x}^T I \boldsymbol{x} = \boldsymbol{x}^T \boldsymbol{x} = \|\boldsymbol{x}\|^2. Since norms are non-negative, it follows that y=x\|\boldsymbol{y}\| = \|\boldsymbol{x}\|.

(3)#

(2) より y=x\|\boldsymbol{y}\| = \|\boldsymbol{x}\| であるため、y=(b,0,0)T\boldsymbol{y} = (b, 0, 0)^T ならば b2=x2b^2 = \|\boldsymbol{x}\|^2、すなわち b=±xb = \pm \|\boldsymbol{x}\| である。 (1) より xy=au\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u} であり、u\boldsymbol{u} は長さ 1 のベクトルであるため、xy0\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0} のとき、u\boldsymbol{u}xy\boldsymbol{x} - \boldsymbol{y} と平行な単位ベクトルとなる。すなわち、u=±xyxy\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|} である。 以下の3つの場合に分けて求める。

(i) x±x(1,0,0)T\boldsymbol{x} \neq \pm \|\boldsymbol{x}\| (1, 0, 0)^T の場合: xy0\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0} となるため、公式に代入して、

u=±xx(1,0,0)Txx(1,0,0)T(複号任意)\boldsymbol{u} = \pm \frac{\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T}{\|\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T\|} \quad (\text{複号任意})

(ii) x=k(1,0,0)T (k0)\boldsymbol{x} = k (1, 0, 0)^T \ (k \neq 0) の場合:

  • b=kb = k のとき、y=x\boldsymbol{y} = \boldsymbol{x} となる。このとき Rux=x    2u(uTx)=0    uTx=0R_u \boldsymbol{x} = \boldsymbol{x} \implies 2\boldsymbol{u}(\boldsymbol{u}^T \boldsymbol{x}) = \boldsymbol{0} \implies \boldsymbol{u}^T \boldsymbol{x} = 0。ゆえに u1=0u_1 = 0 を満たす任意の単位ベクトル u=(0,u2,u3)T\boldsymbol{u} = (0, u_2, u_3)^T(ただし u22+u32=1u_2^2 + u_3^2 = 1)。
  • b=kb = -k のとき、xy=2k(1,0,0)T0\boldsymbol{x} - \boldsymbol{y} = 2k (1, 0, 0)^T \neq \boldsymbol{0} となるため、u=±(1,0,0)T\boldsymbol{u} = \pm (1, 0, 0)^T

(iii) x=0\boldsymbol{x} = \boldsymbol{0} の場合: b=0b = 0 となり、y=0\boldsymbol{y} = \boldsymbol{0}Ru0=0R_u \boldsymbol{0} = \boldsymbol{0} は常に成り立つため、任意の単位ベクトル u\boldsymbol{u} が解となる。

English:

From (2), y=x\|\boldsymbol{y}\| = \|\boldsymbol{x}\|. If y=(b,0,0)T\boldsymbol{y} = (b, 0, 0)^T, then b2=x2b^2 = \|\boldsymbol{x}\|^2, which implies b=±xb = \pm \|\boldsymbol{x}\|. From (1), xy=au\boldsymbol{x} - \boldsymbol{y} = a\boldsymbol{u}. Since u\boldsymbol{u} is a unit vector, when xy0\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}, u\boldsymbol{u} must be a unit vector parallel to xy\boldsymbol{x} - \boldsymbol{y}. Thus, u=±xyxy\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|}. We find all solutions by considering three cases:

(i) If x±x(1,0,0)T\boldsymbol{x} \neq \pm \|\boldsymbol{x}\| (1, 0, 0)^T: Here, xy0\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0}. Substituting y\boldsymbol{y}, we get:

u=±xx(1,0,0)Txx(1,0,0)T(signs are independent)\boldsymbol{u} = \pm \frac{\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T}{\|\boldsymbol{x} \mp \|\boldsymbol{x}\| (1, 0, 0)^T\|} \quad (\text{signs are independent})

(ii) If x=k(1,0,0)T\boldsymbol{x} = k (1, 0, 0)^T for k0k \neq 0:

  • For b=kb = k, we have y=x\boldsymbol{y} = \boldsymbol{x}. This gives Rux=x    2u(uTx)=0    uTx=0R_u \boldsymbol{x} = \boldsymbol{x} \implies 2\boldsymbol{u}(\boldsymbol{u}^T \boldsymbol{x}) = \boldsymbol{0} \implies \boldsymbol{u}^T \boldsymbol{x} = 0. Hence, any unit vector with u1=0u_1 = 0 is a solution: u=(0,u2,u3)T\boldsymbol{u} = (0, u_2, u_3)^T (where u22+u32=1u_2^2 + u_3^2 = 1).
  • For b=kb = -k, we have xy=2k(1,0,0)T0\boldsymbol{x} - \boldsymbol{y} = 2k (1, 0, 0)^T \neq \boldsymbol{0}. Hence, u=±(1,0,0)T\boldsymbol{u} = \pm (1, 0, 0)^T.

(iii) If x=0\boldsymbol{x} = \boldsymbol{0}: Here b=0b = 0 and y=0\boldsymbol{y} = \boldsymbol{0}. Since Ru0=0R_u \boldsymbol{0} = \boldsymbol{0} holds trivially, any unit vector u\boldsymbol{u} is a solution.

(4)#

y=(x1,c,0)T\boldsymbol{y} = (x_1, c, 0)^T とする。(1) より、

xy=(0x2cx3)=au\boldsymbol{x} - \boldsymbol{y} = \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix} = a\boldsymbol{u}

である。これにより、u\boldsymbol{u} の第1成分は u1=0u_1 = 0 でなければならない。 また y=x\|\boldsymbol{y}\| = \|\boldsymbol{x}\| より、x12+c2=x12+x22+x32x_1^2 + c^2 = x_1^2 + x_2^2 + x_3^2 となるため、c=±x22+x32c = \pm \sqrt{x_2^2 + x_3^2} である。

(i) xy0\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0} の場合(すなわち cx2c \neq x_2 または x30x_3 \neq 0): u\boldsymbol{u}xy\boldsymbol{x} - \boldsymbol{y} を正規化したものになるため、

u=±xyxy=±1(x2c)2+x32(0x2cx3)\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|} = \pm \frac{1}{\sqrt{(x_2 - c)^2 + x_3^2}} \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix}

(ただし c=±x22+x32c = \pm \sqrt{x_2^2 + x_3^2})。

(ii) xy=0\boldsymbol{x} - \boldsymbol{y} = \boldsymbol{0} の場合(すなわち x3=0x_3 = 0 かつ c=x2c = x_2): x=y=(x1,x2,0)T\boldsymbol{x} = \boldsymbol{y} = (x_1, x_2, 0)^T となる。(3) と同様に Rux=x    uTx=0    x1u1+x2u2=0R_u \boldsymbol{x} = \boldsymbol{x} \implies \boldsymbol{u}^T\boldsymbol{x} = 0 \implies x_1 u_1 + x_2 u_2 = 0。 これと u=1\|\boldsymbol{u}\| = 1 を満たす任意の単位ベクトル u\boldsymbol{u} が解となる。

English:

Let y=(x1,c,0)T\boldsymbol{y} = (x_1, c, 0)^T. From (1), we have:

xy=(0x2cx3)=au\boldsymbol{x} - \boldsymbol{y} = \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix} = a\boldsymbol{u}

This implies that the first component of u\boldsymbol{u} must be u1=0u_1 = 0. Additionally, from y=x\|\boldsymbol{y}\| = \|\boldsymbol{x}\|, we get x12+c2=x12+x22+x32x_1^2 + c^2 = x_1^2 + x_2^2 + x_3^2, which gives c=±x22+x32c = \pm \sqrt{x_2^2 + x_3^2}.

(i) If xy0\boldsymbol{x} - \boldsymbol{y} \neq \boldsymbol{0} (i.e., cx2c \neq x_2 or x30x_3 \neq 0): u\boldsymbol{u} is obtained by normalizing xy\boldsymbol{x} - \boldsymbol{y}:

u=±xyxy=±1(x2c)2+x32(0x2cx3)\boldsymbol{u} = \pm \frac{\boldsymbol{x} - \boldsymbol{y}}{\|\boldsymbol{x} - \boldsymbol{y}\|} = \pm \frac{1}{\sqrt{(x_2 - c)^2 + x_3^2}} \begin{pmatrix} 0 \\ x_2 - c \\ x_3 \end{pmatrix}

(where c=±x22+x32c = \pm \sqrt{x_2^2 + x_3^2}).

(ii) If xy=0\boldsymbol{x} - \boldsymbol{y} = \boldsymbol{0} (i.e., x3=0x_3 = 0 and c=x2c = x_2): Here x=y=(x1,x2,0)T\boldsymbol{x} = \boldsymbol{y} = (x_1, x_2, 0)^T. Similar to (3), Rux=x    uTx=0    x1u1+x2u2=0R_u \boldsymbol{x} = \boldsymbol{x} \implies \boldsymbol{u}^T\boldsymbol{x} = 0 \implies x_1 u_1 + x_2 u_2 = 0. Any unit vector u\boldsymbol{u} satisfying this equation and u=1\|\boldsymbol{u}\| = 1 is a solution.

(5)#

この問題は、ハウスホルダー変換を用いて行列 AA の QR分解を行うプロセスに相当する。

ステップ1:行列 AA の第1列目を変換する v\boldsymbol{v} を求める AA の第1列 a1=(0,0,1)T\boldsymbol{a}_1 = (0, 0, 1)^T を、(3) の結果を利用して (d,0,0)T(d, 0, 0)^T の形に変換する。 a1=1\|\boldsymbol{a}_1\| = 1 より d=1d = 1 と選ぶと、y1=(1,0,0)T\boldsymbol{y}_1 = (1, 0, 0)^T となる。 公式より、

v=a1y1a1y1=1(1)2+02+12(101)=12(101)\boldsymbol{v} = \frac{\boldsymbol{a}_1 - \boldsymbol{y}_1}{\|\boldsymbol{a}_1 - \boldsymbol{y}_1\|} = \frac{1}{\sqrt{(-1)^2 + 0^2 + 1^2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}

このとき、RvR_v を計算すると以下のようになる(これは1行目と3行目を入れ替える置換行列となる)。

Rv=I2vvT=(001010100)R_v = I - 2\boldsymbol{v}\boldsymbol{v}^T = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix}RvA=(001010100)(010001101)=(101001010)R_v A = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

ステップ2:RvAR_v A の第2列目を変換する u\boldsymbol{u} を求める RvAR_v A の第2列 a2(1)=(0,0,1)T\boldsymbol{a}_2^{(1)} = (0, 0, 1)^T を、第1成分を変えずに (0,g,0)T(0, g, 0)^T の形に変換する。これは (4) に対応する。 x=(0,0,1)T\boldsymbol{x} = (0, 0, 1)^T とし、g=1g = 1 と選ぶと y2=(0,1,0)T\boldsymbol{y}_2 = (0, 1, 0)^T となる。 公式より、

u=xy2xy2=102+(1)2+12(011)=12(011)\boldsymbol{u} = \frac{\boldsymbol{x} - \boldsymbol{y}_2}{\|\boldsymbol{x} - \boldsymbol{y}_2\|} = \frac{1}{\sqrt{0^2 + (-1)^2 + 1^2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}

このとき、RuR_u を計算すると以下のようになる(これは2行目と3行目を入れ替える置換行列となる)。

Ru=I2uuT=(100001010)R_u = I - 2\boldsymbol{u}\boldsymbol{u}^T = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

最後に B=Ru(RvA)B = R_u (R_v A) を計算する。

B=(100001010)(101001010)=(101010001)B = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

これは指定された上三角行列の形を満たしている。

解答:

  • v=12(101)\boldsymbol{v} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}
  • u=12(011)\boldsymbol{u} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}
  • B=(101010001)B = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

English:

This problem corresponds to the process of QR decomposition of matrix AA using Householder transformations.

Step 1: Find v\boldsymbol{v} to transform the first column of AA We transform the first column of AA, a1=(0,0,1)T\boldsymbol{a}_1 = (0, 0, 1)^T, into the form (d,0,0)T(d, 0, 0)^T using the method from (3). Since a1=1\|\boldsymbol{a}_1\| = 1, we can choose d=1d = 1, giving y1=(1,0,0)T\boldsymbol{y}_1 = (1, 0, 0)^T. Using the formula:

v=a1y1a1y1=1(1)2+02+12(101)=12(101)\boldsymbol{v} = \frac{\boldsymbol{a}_1 - \boldsymbol{y}_1}{\|\boldsymbol{a}_1 - \boldsymbol{y}_1\|} = \frac{1}{\sqrt{(-1)^2 + 0^2 + 1^2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}

Calculating RvR_v, we get a permutation matrix that swaps the 1st and 3rd rows:

Rv=I2vvT=(001010100)R_v = I - 2\boldsymbol{v}\boldsymbol{v}^T = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix}RvA=(001010100)(010001101)=(101001010)R_v A = \begin{pmatrix} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

Step 2: Find u\boldsymbol{u} to transform the second column of RvAR_v A Next, we transform the second column of RvAR_v A, which is a2(1)=(0,0,1)T\boldsymbol{a}_2^{(1)} = (0, 0, 1)^T, into (0,g,0)T(0, g, 0)^T without changing the first component, using the method from (4). Here x=(0,0,1)T\boldsymbol{x} = (0, 0, 1)^T. Choosing g=1g = 1 gives y2=(0,1,0)T\boldsymbol{y}_2 = (0, 1, 0)^T. Using the formula:

u=xy2xy2=102+(1)2+12(011)=12(011)\boldsymbol{u} = \frac{\boldsymbol{x} - \boldsymbol{y}_2}{\|\boldsymbol{x} - \boldsymbol{y}_2\|} = \frac{1}{\sqrt{0^2 + (-1)^2 + 1^2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}

Calculating RuR_u, we get another permutation matrix that swaps the 2nd and 3rd rows:

Ru=I2uuT=(100001010)R_u = I - 2\boldsymbol{u}\boldsymbol{u}^T = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}

Finally, we calculate B=Ru(RvA)B = R_u (R_v A):

B=(100001010)(101001010)=(101010001)B = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

This is exactly in the desired upper triangular form.

Final Answer:

  • v=12(101)\boldsymbol{v} = \frac{1}{\sqrt{2}} \begin{pmatrix} -1 \\ 0 \\ 1 \end{pmatrix}
  • u=12(011)\boldsymbol{u} = \frac{1}{\sqrt{2}} \begin{pmatrix} 0 \\ -1 \\ 1 \end{pmatrix}
  • B=(101010001)B = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

東京大学 新領域創成科学研究科 メディカル情報生命専攻 2024年8月実施 問題7#

Description#

以下で Rn×m\mathbb{R}^{n \times m}nnmm 列实数値行列の集合を表すものとする。 正則行列 ARn×nA \in \mathbb{R}^{n \times n} の特異値分解は以下で与えられる (n2n \ge 2)。

A=UΣVTA = U \Sigma V^T

ここで、URn×n,VRn×nU \in \mathbb{R}^{n \times n}, V \in \mathbb{R}^{n \times n}UTU=In,VTV=InU^T U = I_n, V^T V = I_n をみたし、Σ=diag(σ1,,σn)Rn×n\Sigma = \text{diag}(\sigma_1, \dots, \sigma_n) \in \mathbb{R}^{n \times n} は対角行列でその対角成分は σ1σn>0\sigma_1 \ge \dots \ge \sigma_n > 0 を満たす。ただし、MTM^T は行列 MM の転置を表し、ImRm×mI_m \in \mathbb{R}^{m \times m} は単位行列である。

AA のランク rr 近似 A^\hat{A} を以下で定義する (1r<n1 \le r < n)。

A^=U^Σ^V^T\hat{A} = \hat{U} \hat{\Sigma} \hat{V}^T

ここで、U^Rn×r,V^Rn×r\hat{U} \in \mathbb{R}^{n \times r}, \hat{V} \in \mathbb{R}^{n \times r}U,VU, V の最初の rr 列からなる行列であり、Σ^=diag(σ1,,σr)Rr×r\hat{\Sigma} = \text{diag}(\sigma_1, \dots, \sigma_r) \in \mathbb{R}^{r \times r} である。A^\hat{A} は以下の最適化问题の一つの解 XX を与えることが知られている。

minXAX2subject to XRn×n,rank(X)=r\min_{X} \|A - X\|^2 \quad \text{subject to } X \in \mathbb{R}^{n \times n}, \text{rank}(X) = r

ただし、M2=trace(MTM)=i,j(Mij)2\|M\|^2 = \text{trace}(M^T M) = \sum_{i,j} (M_{ij})^2 である。 以下の問いに導出も含めて答えよ。

(1) A^TA^,A^A^T\hat{A}^T \hat{A}, \hat{A} \hat{A}^T の特異値分解を求めよ。

(2) A^+=V^Σ^1U^T\hat{A}^+ = \hat{V} \hat{\Sigma}^{-1} \hat{U}^T とするとき、AA^+A=A^A \hat{A}^+ A = \hat{A} を示せ。

(3) 次の最適化問題の解を求めよ。

minXAXXTA2subject to XRn×r,XTX=Ir\min_{X} \|A - XX^T A\|^2 \quad \text{subject to } X \in \mathbb{R}^{n \times r}, X^T X = I_r

(4) 次の最適化問題の解を求めよ。

maxXtrace(XTAATX)subject to XRn×r,XTX=Ir\max_{X} \text{trace}(X^T A A^T X) \quad \text{subject to } X \in \mathbb{R}^{n \times r}, X^T X = I_r

(5) BRn×n,CRn×nB \in \mathbb{R}^{n \times n}, C \in \mathbb{R}^{n \times n} を用いて A=BCA = BC と書けるとする。次の最適化問題の解を求めよ。

minXBCBXC2subject to XRn×n,rank(X)=r\min_{X} \|BC - BXC\|^2 \quad \text{subject to } X \in \mathbb{R}^{n \times n}, \text{rank}(X) = r

Kai#

(1)#

定義より、A^=U^Σ^V^T\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T であり、U^TU^=Ir\hat{U}^T\hat{U} = I_rV^TV^=Ir\hat{V}^T\hat{V} = I_r を満たす。

まず、A^TA^\hat{A}^T\hat{A} について計算する。

A^TA^=(U^Σ^V^T)T(U^Σ^V^T)=V^Σ^TU^TU^Σ^V^T\hat{A}^T\hat{A} = (\hat{U}\hat{\Sigma}\hat{V}^T)^T (\hat{U}\hat{\Sigma}\hat{V}^T) = \hat{V}\hat{\Sigma}^T\hat{U}^T \hat{U}\hat{\Sigma}\hat{V}^T

Σ^\hat{\Sigma} は対角行列であるため Σ^T=Σ^\hat{\Sigma}^T = \hat{\Sigma} であり、U^TU^=Ir\hat{U}^T\hat{U} = I_r より、

A^TA^=V^Σ^IrΣ^V^T=V^Σ^2V^T\hat{A}^T\hat{A} = \hat{V}\hat{\Sigma} I_r \hat{\Sigma}\hat{V}^T = \hat{V}\hat{\Sigma}^2\hat{V}^T

これが A^TA^\hat{A}^T\hat{A} のコンパクト特異値分解(あるいは固有値分解)の形である。n×nn \times n 行列としての完全な特異値分解で表すと、直交行列 VV を用いて以下のようになる。

A^TA^=V(Σ^2000)VT\hat{A}^T\hat{A} = V \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} V^T

同様に、A^A^T\hat{A}\hat{A}^T について計算する。

A^A^T=(U^Σ^V^T)(U^Σ^V^T)T=U^Σ^V^TV^Σ^U^T\hat{A}\hat{A}^T = (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{U}\hat{\Sigma}\hat{V}^T)^T = \hat{U}\hat{\Sigma}\hat{V}^T \hat{V}\hat{\Sigma}\hat{U}^T

V^TV^=Ir\hat{V}^T\hat{V} = I_r より、

A^A^T=U^Σ^IrΣ^U^T=U^Σ^2U^T\hat{A}\hat{A}^T = \hat{U}\hat{\Sigma} I_r \hat{\Sigma}\hat{U}^T = \hat{U}\hat{\Sigma}^2\hat{U}^T

完全な特異値分解で表すと、直交行列 UU を用いて以下のようになる。

A^A^T=U(Σ^2000)UT\hat{A}\hat{A}^T = U \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} U^T

English: By definition, A^=U^Σ^V^T\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T, satisfying U^TU^=Ir\hat{U}^T\hat{U} = I_r and V^TV^=Ir\hat{V}^T\hat{V} = I_r.

First, we calculate A^TA^\hat{A}^T\hat{A}:

A^TA^=(U^Σ^V^T)T(U^Σ^V^T)=V^Σ^TU^TU^Σ^V^T\hat{A}^T\hat{A} = (\hat{U}\hat{\Sigma}\hat{V}^T)^T (\hat{U}\hat{\Sigma}\hat{V}^T) = \hat{V}\hat{\Sigma}^T\hat{U}^T \hat{U}\hat{\Sigma}\hat{V}^T

Since Σ^\hat{\Sigma} is a diagonal matrix, Σ^T=Σ^\hat{\Sigma}^T = \hat{\Sigma}. Using U^TU^=Ir\hat{U}^T\hat{U} = I_r, we have:

A^TA^=V^Σ^IrΣ^V^T=V^Σ^2V^T\hat{A}^T\hat{A} = \hat{V}\hat{\Sigma} I_r \hat{\Sigma}\hat{V}^T = \hat{V}\hat{\Sigma}^2\hat{V}^T

This is the compact SVD (or eigenvalue decomposition) of A^TA^\hat{A}^T\hat{A}. As a full SVD for an n×nn \times n matrix using the orthogonal matrix VV, it is written as:

A^TA^=V(Σ^2000)VT\hat{A}^T\hat{A} = V \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} V^T

Similarly, calculating A^A^T\hat{A}\hat{A}^T:

A^A^T=(U^Σ^V^T)(U^Σ^V^T)T=U^Σ^V^TV^Σ^U^T\hat{A}\hat{A}^T = (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{U}\hat{\Sigma}\hat{V}^T)^T = \hat{U}\hat{\Sigma}\hat{V}^T \hat{V}\hat{\Sigma}\hat{U}^T

Using V^TV^=Ir\hat{V}^T\hat{V} = I_r, we have:

A^A^T=U^Σ^IrΣ^U^T=U^Σ^2U^T\hat{A}\hat{A}^T = \hat{U}\hat{\Sigma} I_r \hat{\Sigma}\hat{U}^T = \hat{U}\hat{\Sigma}^2\hat{U}^T

As a full SVD using the orthogonal matrix UU, it is written as:

A^A^T=U(Σ^2000)UT\hat{A}\hat{A}^T = U \begin{pmatrix} \hat{\Sigma}^2 & 0 \\ 0 & 0 \end{pmatrix} U^T

(2)#

A^=U^Σ^V^T\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T および A^+=V^Σ^1U^T\hat{A}^+ = \hat{V}\hat{\Sigma}^{-1}\hat{U}^T を左辺に代入して計算する。

A^A^+A^=(U^Σ^V^T)(V^Σ^1U^T)(U^Σ^V^T)=U^Σ^(V^TV^)Σ^1(U^TU^)Σ^V^T\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{V}\hat{\Sigma}^{-1}\hat{U}^T) (\hat{U}\hat{\Sigma}\hat{V}^T) \\ &= \hat{U}\hat{\Sigma} (\hat{V}^T\hat{V}) \hat{\Sigma}^{-1} (\hat{U}^T\hat{U}) \hat{\Sigma}\hat{V}^T \end{aligned}

V^TV^=Ir\hat{V}^T\hat{V} = I_r および U^TU^=Ir\hat{U}^T\hat{U} = I_r であるため、

A^A^+A^=U^Σ^IrΣ^1IrΣ^V^T=U^(Σ^Σ^1Σ^)V^T=U^Σ^V^T=A^\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= \hat{U}\hat{\Sigma} I_r \hat{\Sigma}^{-1} I_r \hat{\Sigma}\hat{V}^T \\ &= \hat{U} (\hat{\Sigma}\hat{\Sigma}^{-1}\hat{\Sigma}) \hat{V}^T \\ &= \hat{U}\hat{\Sigma}\hat{V}^T \\ &= \hat{A} \end{aligned}

以上より、A^A^+A^=A^\hat{A}\hat{A}^+\hat{A} = \hat{A} が示された。

English: Substitute A^=U^Σ^V^T\hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T and A^+=V^Σ^1U^T\hat{A}^+ = \hat{V}\hat{\Sigma}^{-1}\hat{U}^T into the left side:

A^A^+A^=(U^Σ^V^T)(V^Σ^1U^T)(U^Σ^V^T)=U^Σ^(V^TV^)Σ^1(U^TU^)Σ^V^T\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= (\hat{U}\hat{\Sigma}\hat{V}^T) (\hat{V}\hat{\Sigma}^{-1}\hat{U}^T) (\hat{U}\hat{\Sigma}\hat{V}^T) \\ &= \hat{U}\hat{\Sigma} (\hat{V}^T\hat{V}) \hat{\Sigma}^{-1} (\hat{U}^T\hat{U}) \hat{\Sigma}\hat{V}^T \end{aligned}

Since V^TV^=Ir\hat{V}^T\hat{V} = I_r and U^TU^=Ir\hat{U}^T\hat{U} = I_r:

A^A^+A^=U^Σ^IrΣ^1IrΣ^V^T=U^(Σ^Σ^1Σ^)V^T=U^Σ^V^T=A^\begin{aligned} \hat{A}\hat{A}^+\hat{A} &= \hat{U}\hat{\Sigma} I_r \hat{\Sigma}^{-1} I_r \hat{\Sigma}\hat{V}^T \\ &= \hat{U} (\hat{\Sigma}\hat{\Sigma}^{-1}\hat{\Sigma}) \hat{V}^T \\ &= \hat{U}\hat{\Sigma}\hat{V}^T \\ &= \hat{A} \end{aligned}

Thus, A^A^+A^=A^\hat{A}\hat{A}^+\hat{A} = \hat{A} is proven.


(3)#

P=XXTP = XX^T とおくと、XTX=IrX^TX = I_r であるため PP は階数 rr の直交射影行列である。 目標は APA2\|A - PA\|^2 を最小化することである。PAPA は行列 AA の列空間を XX が張る rr 次元部分空間に射影したものであり、rank(PA)r\text{rank}(PA) \le r である。

エッカート・ヤング・ミルスキーの定理(Eckart-Young-Mirsky Theorem)より、rank(Y)r\text{rank}(Y) \le r を満たす行列 YY の中で AY2\|A - Y\|^2 を最小化するものは Y=A^=U^Σ^V^TY = \hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T である。 したがって、XXTA=A^XX^TA = \hat{A} を満たす XX を見つければよい。

行列 A=UΣVTA = U\Sigma V^T に対して U^U^TA\hat{U}\hat{U}^T A を計算すると、

U^U^TA=U^U^T(U^Σ^V^T+U~Σ~V~T)=U^Σ^V^T=A^\hat{U}\hat{U}^T A = \hat{U}\hat{U}^T (\hat{U}\hat{\Sigma}\hat{V}^T + \tilde{U}\tilde{\Sigma}\tilde{V}^T) = \hat{U}\hat{\Sigma}\hat{V}^T = \hat{A}

となる(U~\tilde{U}UUr+1r+1 から nn 列目)。 よって、XX の列ベクトルが U^\hat{U} の列ベクトルと同じ空間を張ればよい。 解は、任意の直交行列 QRr×rQ \in \mathbb{R}^{r \times r}QTQ=IrQ^TQ = I_r)を用いて以下のように表される。 解: X=U^QX = \hat{U}Q (最も基本的な解は X=U^X = \hat{U}

English: Let P=XXTP = XX^T. Since XTX=IrX^TX = I_r, PP is an orthogonal projection matrix of rank rr. The objective is to minimize APA2\|A - PA\|^2. PAPA is the projection of the column space of AA onto the rr-dimensional subspace spanned by XX, ensuring rank(PA)r\text{rank}(PA) \le r.

By the Eckart-Young-Mirsky Theorem, the matrix YY that minimizes AY2\|A - Y\|^2 subject to rank(Y)r\text{rank}(Y) \le r is Y=A^=U^Σ^V^TY = \hat{A} = \hat{U}\hat{\Sigma}\hat{V}^T. Thus, we need to find XX such that XXTA=A^XX^TA = \hat{A}.

Calculating U^U^TA\hat{U}\hat{U}^T A for A=UΣVTA = U\Sigma V^T, we get:

U^U^TA=U^U^T(U^Σ^V^T+U~Σ~V~T)=U^Σ^V^T=A^\hat{U}\hat{U}^T A = \hat{U}\hat{U}^T (\hat{U}\hat{\Sigma}\hat{V}^T + \tilde{U}\tilde{\Sigma}\tilde{V}^T) = \hat{U}\hat{\Sigma}\hat{V}^T = \hat{A}

(where U~\tilde{U} represents columns r+1r+1 to nn of UU). Therefore, the column space of XX must span the same space as the columns of U^\hat{U}. The solution, using any orthogonal matrix QRr×rQ \in \mathbb{R}^{r \times r} (QTQ=IrQ^TQ = I_r), is expressed as: Solution: X=U^QX = \hat{U}Q (The most basic solution is X=U^X = \hat{U})


(4)#

AAT=(UΣVT)(VΣUT)=UΣ2UTAA^T = (U\Sigma V^T)(V\Sigma U^T) = U\Sigma^2 U^T であり、これは固有値 σ12σ22σn2\sigma_1^2 \ge \sigma_2^2 \ge \dots \ge \sigma_n^2 を持つ対称行列である。 最適化問題は maxXtrace(XTAATX)\max_X \text{trace}(X^T AA^T X) subject to XTX=IrX^TX = I_r となる。

Ky Fanの定理(またはRayleigh-Ritzの定理の拡張)より、正規直交系を列に持つ行列 XX に対する trace(XTMX)\text{trace}(X^T M X) の最大値は、対称行列 MM の上位 rr 個の固有値の和(この場合は i=1rσi2\sum_{i=1}^r \sigma_i^2)に等しい。 この最大値は、XX の列ベクトルが MM の上位 rr 個の固有値に対応する固有空間(主部分空間)を張るときに達成される。

AATAA^T の上位 rr 個の固有値に対応する固有ベクトルは、行列 UU の最初の rr 列、すなわち U^\hat{U} である。 したがって、XXU^\hat{U} と同じ空間を張る正規直交行列であればよい。 解: X=U^QX = \hat{U}QQRr×rQ \in \mathbb{R}^{r \times r} は任意の直交行列)

English: AAT=(UΣVT)(VΣUT)=UΣ2UTAA^T = (U\Sigma V^T)(V\Sigma U^T) = U\Sigma^2 U^T, which is a symmetric matrix with eigenvalues σ12σ22σn2\sigma_1^2 \ge \sigma_2^2 \ge \dots \ge \sigma_n^2. The optimization problem is maxXtrace(XTAATX)\max_X \text{trace}(X^T AA^T X) subject to XTX=IrX^TX = I_r.

By Ky Fan’s Theorem (or the extended Rayleigh-Ritz theorem), the maximum of trace(XTMX)\text{trace}(X^T M X) for an orthonormal matrix XX is the sum of the rr largest eigenvalues of the symmetric matrix MM (in this case, i=1rσi2\sum_{i=1}^r \sigma_i^2). This maximum is achieved when the column vectors of XX span the eigenspace (principal subspace) corresponding to the rr largest eigenvalues of MM.

The eigenvectors corresponding to the rr largest eigenvalues of AATAA^T are the first rr columns of UU, which is U^\hat{U}. Therefore, XX must be an orthonormal matrix spanning the same space as U^\hat{U}. Solution: X=U^QX = \hat{U}Q (where QRr×rQ \in \mathbb{R}^{r \times r} is an arbitrary orthogonal matrix)


(5)#

正則行列 AAA=BCA = BC と表されるため、BRn×nB \in \mathbb{R}^{n \times n} および CRn×nC \in \mathbb{R}^{n \times n} も正則行列(逆行列を持つ)である。 最適化する目的関数は ABXC2\|A - BXC\|^2 である。

Y=BXCY = BXC と定義する。B,CB, C が正則であるため、任意の行列 XX に対して rank(Y)=rank(X)\text{rank}(Y) = \text{rank}(X) が成り立つ。 したがって、条件 rank(X)=r\text{rank}(X) = rrank(Y)=r\text{rank}(Y) = r と同値になる。 問題は以下のように書き換えられる。

minYAY2subject torank(Y)=r\min_Y \|A - Y\|^2 \quad \text{subject to} \quad \text{rank}(Y) = r

エッカート・ヤング・ミルスキーの定理より、この最適化問題の解は Y=A^Y = \hat{A} である。 元の変数 XX に戻すと、BXC=A^BXC = \hat{A} を満たす XX が求める解となる。 B,CB, C は正則であるため、両辺に左から B1B^{-1}、右から C1C^{-1} を掛ける。 解: X=B1A^C1X = B^{-1}\hat{A}C^{-1}

English: Since the regular (invertible) matrix AA is written as A=BCA = BC, the matrices BRn×nB \in \mathbb{R}^{n \times n} and CRn×nC \in \mathbb{R}^{n \times n} must also be regular (invertible). The objective function to be optimized is ABXC2\|A - BXC\|^2.

Let Y=BXCY = BXC. Because BB and CC are invertible, rank(Y)=rank(X)\text{rank}(Y) = \text{rank}(X) holds for any matrix XX. Therefore, the condition rank(X)=r\text{rank}(X) = r is completely equivalent to rank(Y)=r\text{rank}(Y) = r. The problem can be rewritten as:

minYAY2subject torank(Y)=r\min_Y \|A - Y\|^2 \quad \text{subject to} \quad \text{rank}(Y) = r

By the Eckart-Young-Mirsky Theorem, the solution to this optimization problem is Y=A^Y = \hat{A}. Reverting to the original variable XX, the desired solution satisfies BXC=A^BXC = \hat{A}. Since BB and CC are invertible, we multiply by B1B^{-1} on the left and C1C^{-1} on the right. Solution: X=B1A^C1X = B^{-1}\hat{A}C^{-1}

Linear Algebra Learning Notes: Specialized for Japanese Graduate Entrance Exams
https://blog.yirong.site/posts/0046/
Author
Kuchina
Published at
2026-04-01
License
CC BY-NC-SA 4.0
ページ閲覧数: 読み込み中…
サイト閲覧数: 読み込み中…