STUPID but USEFUL Math QA - Kuchina 's Blog

5044 words

25 minutes

STUPID but USEFUL Math QA

2026-05-01

ノート / Notes

院試 / Grad Prep

/

数学 / Math

Q1: 为什么要定义正定矩阵？#

正定矩阵（Positive Definite Matrix）的定义并非凭空产生。简单来说，它是将标量中的“正数”概念推广到了高维矩阵空间。

我们可以从以下三个维度来理解为什么要这样定义：

1. 对应标量中的“正数”概念#

在初等代数中，如果 $a > 0$ ，那么对于任何 $x \neq 0$ ，都有 $ax^2 > 0$ 。正定矩阵 $A$ 的定义 $x^T Ax > 0$ 正是这一性质在高维空间的延伸：

$x^2$ 在多维空间演变成了二次型 $x^T A x$ 。
$a > 0$ 对应了 $A$ 是正定矩阵。这种定义确保了对称矩阵 $A$ 在“符号”性质上表现得像一个正数。

2. 几何意义：开口向上的“碗”#

如果我们定义一个标量函数 $f(x) = x^T A x$ ，这个函数描述了一个高维空间中的曲面。

如果 $A$ 是正定的，这个曲面的图形就像一个开口向上的抛物面（或高维的“碗”）。
无论你朝哪个方向（向量 $x$ ）离开原点， $f(x)$ 的值都会增加。
这意味着原点 $x=0$ 是这个函数的严格极小值点。

这在最优化问题中至关重要。如果我们想确定一个驻点是否为极小值点，就需要检查其海森矩阵（Hessian Matrix）是否为正定矩阵。

3. 向量夹角的维持（变换视角）#

从线性变换的角度看， $Ax$ 可以看作是对向量 $x$ 进行的一种变换。条件 $x^T (Ax) > 0$ 根据内积的定义可以写成： $\|x\| \cdot \|Ax\| \cos \theta > 0$ 其中 $\theta$ 是向量 $x$ 与变换后的向量 $Ax$ 之间的夹角。

这意味着：对于正定矩阵，变换后的向量 $Ax$ 与原向量 $x$ 的夹角始终小于 90°。 换句话说，正定矩阵产生的变换不会让向量“反向”或者“垂直旋转”，它在某种程度上保持了向量运动的大致方向。

4. 为什么要求对称？#

虽然非对称矩阵也可以满足 $x^T Ax > 0$ ，但在标准定义中通常默认 $A$ 是对称的。原因有二：

唯一性：对于任意方阵 $M$ ，二次型 $x^T Mx$ 的结果其实只取决于其对称部分 $A = \frac{M + M^T}{2}$ 。因为反对称部分的贡献恒为 0。
谱定理：对称矩阵拥有完美的特征值分解性质。正定对称矩阵的所有特征值均为正数，这使得它与“正数”的类比在代数结构上更加严谨。

总结#

正定矩阵的定义捕捉了**“多维空间中的正向增长”**这一核心特征。它保证了能量函数有最小值、系统处于稳定平衡状态，以及线性变换不会发生超过 90° 的剧烈扭转。

Q2：为什么绝对收敛一定能证明收敛？明明也可能是震荡的啊，比如 $sin(nx)/n^2$ #

这是一个非常敏锐的直觉！很多在学习数学分析或微积分时，都会对“震荡”和“收敛”的关系产生类似的疑惑。

要解开这个疑惑，核心在于理解**“震荡”并不等同于“发散”，以及绝对收敛的物理直觉是什么**。

1. 直觉上的理解：最坏的情况也没有“爆炸”#

“绝对收敛一定能证明收敛”的本质逻辑是这样的：

对于一个有正有负的级数（比如包含 $\sin(nx)$ ），它在累加时，正项和负项是会互相抵消的。这种互相抵消其实是“有助于”级数收敛的。

当我们给每一项加上绝对值 $\sum |a_n|$ 时，相当于我们剥夺了它互相抵消的能力，把所有负项都“恶意”地翻转成了正项，让每一项都在拼命地把总和往上推。

如果在一个级数最“努力”向无穷大狂奔的情况下（即加上绝对值后），它的总和依然是有限的（绝对收敛），那么在它原本有正有负、还能互相“内耗”抵消的情况下，它的总和就更不可能爆炸了，必然会乖乖收敛到一个固定的值。

2. 分析你的例子： $\sum \frac{\sin(nx)}{n^2}$ #

你举的例子非常好。数列 $a_n = \frac{\sin(nx)}{n^2}$ 确实是在震荡的，它在正负之间反复横跳。

但是，无论 $\sin(nx)$ 怎么震荡，它的振幅都被分母“死死压制”住了： $\left| \frac{\sin(nx)}{n^2} \right| \le \frac{1}{n^2}$

我们知道 $\sum \frac{1}{n^2}$ 是收敛的（p-级数，p=2）。
这意味着，即使把 $\frac{\sin(nx)}{n^2}$ 所有向下的波谷都翻折成向上的波峰，它累加起来的面积也是有限的。
既然连最大的“绝对值包络线”累加起来都有限，那么原来那个有正有负、每次震荡都在互相抵消的级数，它的部分和就没有足够的“能量”去维持剧烈震荡，最终必然会渐渐停息，收敛到某一个实数。

3. 数学上的严格证明（非常巧妙）#

数学上的证明其实只需要一个简单的代数技巧和比较判别法。

已知： $\sum |a_n|$ 收敛。 求证： $\sum a_n$ 收敛。

证明步骤：

首先，对于任意实数 $a_n$ ，都有这样一个基本不等式： $-|a_n| \le a_n \le |a_n|$
我们给整个不等式加上 $|a_n|$ ，就能得到一个非负数列： $0 \le a_n + |a_n| \le 2|a_n|$
因为前提已知 $\sum |a_n|$ 收敛，所以 $\sum 2|a_n|$ 必然也收敛。
对于非负级数 $\sum (a_n + |a_n|)$ 来说，它的每一项都被 $2|a_n|$ 压制着。根据比较判别法， $\sum (a_n + |a_n|)$ 必然收敛。
最后，因为 $a_n = (a_n + |a_n|) - |a_n|$ ，而右边的两个级数 $\sum (a_n + |a_n|)$ 和 $\sum |a_n|$ 都已经证明是收敛的。两个收敛级数的差，必然还是收敛的。 $\sum a_n = \sum (a_n + |a_n|) - \sum |a_n|$

结论： $\sum a_n$ 收敛。

总结#

你提到的“震荡”确实存在，但震荡的序列不代表它的级数（部分和）会永远震荡下去。只要震荡的幅度衰减得足够快，它就会收敛。而“绝对收敛”就是给了我们一个最强的背书：哪怕剥夺了震荡带来的抵消优势，它依然能收敛。

Q3：好像涉及级数和数列的区别，因为数列绝对收敛不一定能证明收敛。#

你抓到了问题的核心！这是一个极其准确且非常漂亮的洞察。

在数学分析中，很多直觉上的混淆正是来源于没有严格区分数列（Sequence）和级数（Series）。你完全正确：数列的绝对收敛，确实推不出数列本身的收敛。

我们可以把这两者的区别拆解开来看：

1. 为什么“数列”的绝对收敛推不出收敛？#

对于数列 $a_n$ ，所谓“绝对收敛”是指存在一个实数 $L$ ，使得 $\lim_{n\to\infty}|a_n|=L$ 。

**反例非常直观：**考虑数列 $a_n=(-1)^n$ 。

它的绝对值数列是 $|a_n|=1,1,1,\dots$ ，显然收敛于 $1$ 。
但原数列 $a_n$ 始终在 $-1$ 和 $1$ 之间反复震荡，它没有固定的极限，因此是发散的。

**唯一的例外：**只有当 $\lim_{n\to\infty}|a_n|=0$ 时，我们才能得出 $\lim_{n\to\infty}a_n=0$ 。如果绝对值的极限不是 $0$ （比如上面的 $1$ ），符号的震荡就会彻底摧毁数列的收敛性。这是因为数列看的是“每一项最终落在哪里”，绝对值把正负号掩盖了，相当于掩盖了它震荡的真相。

2. 为什么“级数”的绝对收敛能推出收敛？#

级数 $\sum a_n$ 的本质，是一个由部分和构成的新数列： $S_n=a_1+a_2+\dots+a_n$ 。

当我们说级数“绝对收敛”时，我们是在说 $\sum|a_n|$ 收敛。这给底层数列 $a_n$ 施加了一个极其强大的约束：它强迫了 $a_n$ 不仅必须趋于 $0$ ，而且必须以极快的速度趋于 $0$ 。

在数列 $a_n=(-1)^n$ 的例子中，每一项的大小始终是 $1$ ，所以它的级数 $\sum(-1)^n$ 的部分和会永远在 $0$ 和 $1$ 之间跳跃（震荡发散）。
但如果你有一个绝对收敛的级数，比如 $\sum\frac{\sin(nx)}{n^2}$ ，它的每一项的绝对值被 $\frac{1}{n^2}$ 压制，衰减得非常快。这意味着你在累加（计算部分和 $S_n$ ）时，每次加上或减去的那个“扰动量”越来越小。

到了无穷远处，那些极其微小的正负项，根本没有足够的“能量”去维持 $S_n$ 的长期震荡。最终，部分和 $S_n$ 会被这些微乎其微的项“钉死”在一个确定的实数上。

总结核心差异#

数列关注的是第 $n$ 项本身的走向。给它套上绝对值，就掩盖了它可能存在的正负跳跃，所以 $|a_n|$ 收敛推不出 $a_n$ 收敛（除非极限是 $0$ ）。
级数关注的是无数项累加起来的“总和”。级数的绝对收敛（ $\sum|a_n|$ 收敛）意味着它拥有的“总扰动能量”是有限的。既然连把所有力气都往同一个方向使（全取绝对值）都无法让总和逃逸到无穷大，那么在有正有负、互相抵消的情况下，就更不可能产生足以导致发散的持续震荡了。

Q4：为什么说对于形如 $n\ln n$ 的分母，积分判别法（積分判定法）是唯一的解药#

说它是“唯一的解药”非常形象，因为在面对级数 $\sum \frac{1}{n\ln n}$ （或者更广义的 $\sum \frac{1}{n(\ln n)^p}$ ）时，大部分学生在微积分（或数学分析）初期掌握的“常规武器”确实会集体哑火。

积分判别法（積分判定法）之所以在这里显得像救命稻草，是因为这道题的特殊构造完美避开了所有其他常见判别法的判定区间。我们来拆解一下为什么会这样，顺便我得坦诚地纠正一点：它虽然是最佳解药，但并非“绝对唯一”。

一、为什么常规武器全部失效？#

面对 $\sum \frac{1}{n\ln n}$ ，我们通常会本能地尝试以下方法，但它们都会碰壁：

比值审敛法（达朗贝尔判别法 / Ratio Test）与根值审敛法（柯西判别法 / Root Test）： 这两种方法本质上是在衡量级数是否近似于等比数列。但对数函数 $\ln n$ 和多项式 $n$ 的增长速度实在是太慢了。如果你算一下相邻项的比值极限： $\lim_{n \to \infty} \frac{n\ln n}{(n+1)\ln(n+1)} = 1$ 极限等于 $1$ ！这是比值法和根值法的“死亡判决”，意味着方法失效（判定不能）。
比较审敛法（比较判定法 / Comparison Test）： 你想找一个熟悉的 $p$ 级数（ $p$ -series）来做比较。
- 如果和调和级数 $\frac{1}{n}$ 比： $\frac{1}{n\ln n} < \frac{1}{n}$ 。虽然它比一个发散的级数小，但“比无穷大还小”说明不了任何问题，它可能收敛也可能发散。
- 如果和 $\frac{1}{n^{1.01}}$ 比： $\frac{1}{n\ln n} > \frac{1}{n^{1.01}}$ （当 $n$ 足够大时）。虽然它比一个收敛的级数大，但“比有限值大”同样说明不了问题。
$n\ln n$ 的增长速度恰好卡在 $n^1$ 和 $n^{1+\epsilon}$ 之间极其狭窄的缝隙里，导致传统的 $p$ 级数比较法根本抓不住它。

二、积分判别法为什么是“特效药”？#

积分判别法之所以在这里大显神威，是因为形如 $n\ln n$ 的分母，在连续函数的世界里，恰好凑成了完美的导数关系。

令 $f(x) = \frac{1}{x\ln x}$ ，它在 $[2, +\infty)$ 上是连续、恒正且单调递减的。
当我们对它求瑕积分时： $\int_2^{+\infty} \frac{1}{x\ln x} dx$
奇迹出现了。由于 $(\ln x)' = \frac{1}{x}$ ，我们可以直接使用换元法（令 $u = \ln x$ ）： $\int \frac{1}{\ln x} d(\ln x) = \ln|\ln x|$
所以： $\lim_{b \to \infty} \left[ \ln(\ln x) \right]_2^b = \lim_{b \to \infty} (\ln(\ln b) - \ln(\ln 2)) = +\infty$ 积分发散，原级数发散。这个过程如丝般顺滑，将离散的求和问题转化为连续的微积分基本定理，属于典型的“降维打击”。

三、纠正：它其实不是“唯一”的解药#

虽然积分判别法最直观，但在数学分析中，针对这种带有对数且增长极其缓慢的级数，还有一服极其猛烈的“特效药”——柯西凝聚判别法（Cauchy Condensation Test）。

这个定理说：对于单调递减且非负的数列 $a_n$ ，级数 $\sum a_n$ 与 $\sum 2^k a_{2^k}$ 同敛散。

我们把 $a_n = \frac{1}{n\ln n}$ 代入进去看看会发生什么魔法： $2^k a_{2^k} = 2^k \cdot \frac{1}{2^k \ln(2^k)} = \frac{1}{\ln(2^k)} = \frac{1}{k \ln 2}$
注意！这里的 $\ln 2$ 只是一个常数。所以凝聚后的级数变成了： $\sum_{k=1}^{\infty} \frac{1}{\ln 2} \cdot \frac{1}{k}$
这不就是大名鼎鼎的调和级数 $\sum \frac{1}{k}$ 乘以一个常数吗？调和级数发散是常识，因此原级数发散。

总结一下： 说它是“唯一解药”是大部分学生在实战中被其他方法折磨后的真实心理写照，因为积分法确实是最容易想到且计算最舒服的。但如果在更深层的分析学框架里，柯西凝聚判别法才是专门为这类“对数级缓慢衰减”量身定制的另一把尖刀。

Q5: 为什么有人用 $|\lambda I - A| = 0$ 来求特征值？我记得是你记的 $|A - \lambda I| = 0$ 啊。

你的记忆非常准确！你记的 $|A - \lambda I| = 0$ 是绝对正确且极其常见的写法。国内绝大多数大学教材（比如经典的同济版《线性代数》）用的都是你记的这个版本。

那为什么图片里要写成 $|\lambda I - A| = 0$ 呢？

简单来说：这两个方程在数学上是100%等价的，解出来的特征值 $\lambda$ 连一根毛的区别都没有！ 区别仅仅在于不同国家的教材习惯和数学家的一点点“强迫症”。

我们从代数和习惯两个角度把这层窗户纸捅破：

1. 为什么它俩是等价的？（代数证明）#

假设矩阵 $A$ 是一个 $n \times n$ 的方阵。在矩阵里提取一个负号 $-1$ ，并不是整个行列式外面加个负号那么简单。根据行列式的性质，你需要从每一行（一共 $n$ 行）都提取一个 $-1$ 。

所以： $|\lambda I - A| = |- (A - \lambda I)| = (-1)^n |A - \lambda I|$

既然我们要解的是特征方程（即让行列式等于 0）： $(-1)^n |A - \lambda I| = 0$

不管 $n$ 是奇数还是偶数，不管前面这个 $(-1)^n$ 是 $+1$ 还是 $-1$ ，因为等式右边是 $0$ ，你直接把负号除掉，结果永远都是： $|A - \lambda I| = 0$

2. 那为什么分成了两派？（习惯之争）#

既然一样，为什么会有两种写法？这就涉及到推导逻辑和多项式审美的区别了：

派系一：推导自然派（你记忆中的 $|A - \lambda I| = 0$ ）

出发点： 特征值的原始定义是 $Ax = \lambda x$ 。
推导： 把右边移到左边，就是 $Ax - \lambda x = 0$ 。提取公因式 $x$ ，变成 $(A - \lambda I)x = 0$ 。因为 $x$ 不能是零向量，所以括号里这个矩阵的行列式必须为 0，即 $|A - \lambda I| = 0$ 。
优点： 极其符合直觉，物理意义连贯。

派系二：最高次项强迫症派（图片里的 $|\lambda I - A| = 0$ ）

出发点： 行列式展开后是一个关于 $\lambda$ 的多项式（特征多项式）。
推导： 如果你用 $|\lambda I - A|$ 展开，最高次项永远是极其清爽的正号： $\lambda^n - \text{Trace}(A)\lambda^{n-1} + \dots = 0$ 。
如果你用 $|A - \lambda I|$ 展开一个奇数阶矩阵（比如 3x3），最高次项前面会带个烦人的负号： $-\lambda^3 + \dots = 0$ 。
优点： 很多纯数学家和部分国外的教材（尤其是日本的大学教材，你前面发的那张截图正是日文教材），为了保证特征多项式的首项系数永远是正 1，硬性规定了使用 $|\lambda I - A| = 0$ 。

总结#

你没有记错，别人也没写错。

想着**“矩阵方程的推导”**，用 $|A - \lambda I|$ 最顺手。
想着**“解多项式方程”**，用 $|\lambda I - A|$ 最高项一定是正数，看着更爽。

在做题的时候，你想用哪个就用哪个，结果绝对是一模一样的！

Q5：为什么先积 $y$ ，后积 $x$ 是垂直穿线？#

这是一个直击本质的好问题！很多同学在学二重积分时只会背公式，但理解了这个“为什么”，你才算真正看懂了多重积分的几何意义。

为什么数学符号上的 $dy$ 在内侧，到了图形上就变成了“垂直的线”？核心原因在于坐标轴的方向，以及 微积分中“固定一个变量”的思想。

我们可以把 $\int_a^b dx \int_{g_1(x)}^{g_2(x)} f(x,y) dy$ 拆解为两个动作来看：

动作一：内层积分 $\int (\dots) dy$ —— 画出一条垂直的“箭”#

当你选择先对 $y$ 进行积分时，在数学运算上，你必须暂时 把 $x$ 当作一个常数（固定值）。

几何投影： 假设我们把 $x$ 锁定在某一个具体的坐标上，比如 $x = x_0$ 。
形成直线： 在二维直角坐标系中，方程 $x = x_0$ 描述的是什么图形？是一条 垂直于 $x$ 轴的竖直直线！
方向滑动： 因为 $x$ 被锁死了，在这条垂直线上，唯一能变动的变量就只剩下 $y$ 了。积分 $\int_{g_1(x_0)}^{g_2(x_0)} dy$ 的过程，就是沿着这条垂直线，从底部的边界 $y = g_1(x_0)$ ，一路向上累加到顶部的边界 $y = g_2(x_0)$ 。

所以，“先积 $y$ ”在几何上的直观表现，就是在一处固定的横坐标上，画了一根 垂直向上穿过阴影区域的箭。

动作二：外层积分 $\int (\dots) dx$ —— 水平扫描这根“箭”#

内层积分算完后，那条“垂直的箭”已经变成了一个代表局部面积（或体积切片）的代数式。接下来进行外层积分 $\int_a^b (\dots) dx$ ：

解除锁定： 此时 $x$ 不再是常数，而是变成了积分变量。这里的 $dx$ 代表 $x$ 轴上的微小水平步长。
平移扫描： 外层积分的作用，就是把你刚才画的那根“垂直的箭”，从区域的最左端（ $x = a$ ），沿着水平方向一点一点向右平移，一直扫到最右端（ $x = b$ ）。
覆盖全图： 当这根垂直的箭水平扫过整个区间时，就密密麻麻地覆盖了整个二维区域 $D$ 。