协变和逆变

贡献者： JierPeter; addis

预备知识　过渡矩阵，爱因斯坦求和约定

　　本节在解释张量的协变和逆变的概念之外，也解释了 “$(r, s)$ 型” 张量的含义。

　　协变和逆变的概念在物理学中极为普遍，它描述的是物理量随着参考系变化等变换而变换的特点。在现代物理学语言中，常常使用各种各样的线性空间来描述物理系统，其中一个向量表示一种状态，一组基底表示一种看待此系统的视角，比如参考系、表象等等，而向量的坐标则意味着在给定视角（基底）下的物理量。因此，协变和逆变实际上描述的是各种向量的坐标随着基底变换的变换特征。

　　简单来说，协变就是指坐标的变换矩阵和基底变换的过渡矩阵相同，而逆变就是指坐标的变换矩阵和过渡矩阵互逆。

1. 对偶基下的张量坐标变换

　　在张量文章中我们知道了，定义张量的时候只需要一系列和某一线性空间 $V$ 同构的线性空间就可以，并没有对这些线性空间的基有特殊要求。但是张量的具体表示依赖于各基的选取，所以我们现在制定一下基的选取规则。

　　首先，我们不使用任意的向量空间，那样范围过于广。从现在开始，定义张量时所涉及的一系列向量空间，不管是作为定义域的一部分还是值域的一部分，都只能从一个给定的向量空间 $V$ 和它的对偶空间 $V^*$ 中选取。所有的 $V$ 用同一组基，所有的 $V^*$ 则用对应的对偶基。对偶基的定义请参考对偶空间文章。

　　这样一来，我们只需要确定一组 $V$ 的基，就相当于给出了所有 $V$ 和 $V^*$ 的基，从而确定了任何涉及 $V$ 和 $V^*$ 的张量的坐标。

　　协变和逆变的概念来自张量坐标变换的方式。我们先观察一个最为简单的例子，来直观感受一下什么是变换的方式。

例 1　

　　考虑一维实线性空间（也就是实数域本身）$\mathbb{R}$，其对偶空间 $\mathbb{R}^*$ 就是全体实系数一次函数的集合 $\{f:\mathbb{R}\rightarrow\mathbb{R}|f(x)=ax\}$。为了方便表示，我们把函数 $ax$ 记为 $f_a(x)$。

　　现在取定 $\mathbb{R}$ 上的一组基。由于 $\mathbb{R}$ 是一维的，基只需要一个基向量，通常取实数 $1$，但也可以取任何别的实数。如果 $\mathbb{R}$ 的基是 $\{a\}$，那么 $\mathbb{R}^*$ 的基就是 $f_{\frac{1}{a}}$，这样才满足对偶基的要求：$f_{\frac{1}{a}}(a)=\frac{1}{a}a=1$。

　　现在给出任意一个函数 $f_b\in\mathbb{R}^*$，由于 $f_b(x)=bx=ab(\frac{1}{a}x)=abf_{\frac{1}{a}}(x)$，故在如上给定的基和对偶基下，$f_b$ 的坐标为 $(ab)$。如果给出任意一个实数 $y\in\mathbb{R}$，那么也可以计算出 $y$ 的坐标是 $(y/a)$。到这一步，你可能已经大致看出来协变和逆变的关系了。

　　如果我们换一组 $\mathbb{R}$ 的基，比如说换成 $a'$，那么过渡矩阵就是 $(a'/a)$。在新基下，$f_b$ 的坐标为 $a'b$，$y$ 的坐标为 $y/a'$，也就是说他们的坐标分别是原来的坐标乘以矩阵 $(a'/a)$ 和 $(a/a')$。这两个变换矩阵，第一个是过渡矩阵本身，第二个是过渡矩阵的逆；所以我们说，$f_b$ 的坐标关于 $\mathbb{R}$ 的坐标变换是一致的，或者说是共变（covariant）的，也叫协变的；反过来，$y$ 的坐标变换就是反变（contravariant）的，也叫逆变的。

　　作为简单总结，我们可以说，如果 $\mathbb{R}$ 的基向量变成原来的 $2$ 倍，那么 $f_b$ 的坐标变为原来的 $2$ 倍，$y$ 的坐标变为原来的 $1/2$ 倍。

　　当基变化时，向量的坐标变换都是过渡矩阵的逆。对偶基的定义，使得它的过渡矩阵总是原空间基的过渡矩阵的逆。这就是为什么 $f_b$ 反而协变的。

　　因此，对于一般的情况，我们把协变和逆变的概念定义如下：

定义 1　协变和逆变向量

　　给定线性空间 $V$，则 $ \boldsymbol{\mathbf{v}} \in V$ 称为其逆变向量，$ \boldsymbol{\mathbf{w}} \in V^*$ 称为其协变向量。

　　一定要分清楚对偶向量和向量，虽然都叫向量，但它们并不在一个空间里。

例 2　速度和梯度

　　考虑闵可夫斯基空间中的两种向量场：速度场和梯度场。注意这里的速度是时空流形上的切向量，因此指的是物理上所说的四速度，见时空的四维表示。

　　当进行 $x$ 方向速度为 $v$ 的参考系变换时，过渡矩阵¹为

\begin{equation} T= \begin{pmatrix} \frac{1}{\sqrt{1-v^2}}&\frac{v}{\sqrt{1-v^2}}&0&0\\ \frac{v}{\sqrt{1-v^2}}&\frac{1}{\sqrt{1-v^2}}&0&0\\ 0&0&1&0\\ 0&0&0&1 \end{pmatrix} ~. \end{equation}

如果一个时空点在初始参考系中的坐标为 $(t, x, y, z) ^{\mathrm{T}} $，那么它在变换后的参考系中坐标为 $(t', x', y', z') ^{\mathrm{T}} =T^{-1}(t, x, y, z) ^{\mathrm{T}} $。

　　由时空的四维表示的子节 2 可知，速度变换的矩阵为

\begin{equation} \begin{pmatrix} \frac{1}{\sqrt{1-v^2}}&\frac{-v}{\sqrt{1-v^2}}&0&0\\ \frac{-v}{\sqrt{1-v^2}}&\frac{1}{\sqrt{1-v^2}}&0&0\\ 0&0&1&0\\ 0&0&0&1 \end{pmatrix} =T^{-1}~, \end{equation}

因此速度场是逆变的。

　　取初始参考系下的 $x$ 坐标场 $\phi$（即 $\phi(t, x, y, z)=x$），据此构造一个梯度场 $\partial_\mu \phi$，在初始参考系中的坐标为 $(0, 1, 0, 0)$。

　　在变换后的坐标系中

\begin{equation} \phi(t', x', y', z')=x=\frac{x'+vt'}{\sqrt{1-v^2}}~. \end{equation}

因此

\begin{equation} \partial_\mu\phi = \frac{v}{\sqrt{1-v^2}}\partial_\mu t' + \frac{1}{\sqrt{1-v^2}}\partial_\mu x'~, \end{equation}

故 $\partial_\mu \phi$ 在新基下的坐标是 $(0, 1, 0, 0)T$，因此是协变的。

　　一般地，任取一个标量场 $\phi$，其梯度场 $\partial_\mu\phi$ 都是协变的，这我们已经讨论过了。

2. 上下指标

　　向量和对偶向量都可以看成一阶张量，前者把一个对偶向量映射为一个标量，后者把一个向量映射为一个标量。我们已经知道，如果原空间 $V$ 的过渡矩阵写为 $a^i_j$，其中第 $i$ 行 $j$ 列的元素是 $a^i_j$，那么原空间的向量坐标变换矩阵就是其逆矩阵 $(a^i_j)^{-1}$，而对偶空间的向量坐标变换矩阵是 $a^i_j$ 本身。

　　爱因斯坦求和约定里规定了上下标之间的关系，但是那只是一种形式，并未说明上下标到底指代什么对象。我们现在就来定义上下标的含义。

定义 2　

　　给定线性空间 $V$，将其向量的坐标表示为带上标的数，对偶向量的坐标表示为带下标的数。这样，对于向量或者说一阶张量，上下标是在告诉读者，这个向量是 $V$ 中的还是 $V^*$ 中的。

　　在线性代数的范围里，给定线性空间 $V$ 的基后，我们通常把 $V$ 的向量坐标表示为列矩阵，而把 $V^*$ 的向量坐标表示为行矩阵。因此上标 $i$ 表示 “第 $i$ 个列矩阵的元素”，也就是 “行数”，类似地下标就表示 “列数”。按照矩阵的乘法规则，即 “行乘以列再求和”，我们就得到了爱因斯坦求和约定的上下标规则：求和的两个指标必须一上一下。

　　爱因斯坦求和约定的好处是，可以把 “行数”、“列数” 的含义推广到高维矩阵上，也就是推广到高阶张量上，相当于把高维矩阵的各个指标分为两类，一类是 “行”，一类是 “列”。

升降指标

　　如果给定了一个向量 $ \boldsymbol{\mathbf{v}} $，其在某基下的坐标是 $v^a$，那么这个向量的对偶向量 $ \boldsymbol{\mathbf{v}} ^*$ 在对偶基下的坐标就表示为 $v_a$。这样，一个向量变成其对偶向量的过程中坐标的变化²，各元素也发生变化，就叫做指标的下降。反过来，把一个对偶向量变成原向量，就叫做指标的提升。

　　由于对偶空间之间是平等的，指标的上下、升降就决定于 “选择哪个作为原空间”，也就是说是相对的概念。

　　向量指标的升降也可以推广到一般的张量指标的升降，规则和对偶向量是一样的：升降后的张量和原张量相乘，结果是 $1$。

　　需要补充的是，以上讨论实际上是默认 “度量张量为 $\delta^i_j$³的情况。如果用度量张量来定义内积，或者用伪度量张量来定义伪内积⁴，那么升降指标的规则应该推广为：升降后的张量和原张量再乘以度量张量后，结果是 $1$。这就是我们在进行指标升降的时候会乘以一个度量张量的原因。

张量的协变和逆变

　　给定线性空间 $V$，则每个逆变向量都可以看成 $V^*\rightarrow \mathbb{F}$⁵的一个一阶张量；反过来，每个协变向量也都是 $V\rightarrow \mathbb{F}$ 的一阶张量。

　　一般地，如果一个张量 $T$ 涉及 $n$ 个 $V$ 和 $m$ 个 $V^*$⁶，那么我们可以把它记为 $T^{b_1b_2\cdots b_m}_{a_1a_2\cdots a_n}$，这样就可以用爱因斯坦求和约定来计算它对各向量的作用。我们用二阶张量来举一个例子，请对照张量文章教的理解方式和技巧来看。

例 3　

　　给定线性空间 $V$，设 $T^b_a$ 是涉及一个 $V$ 和一个 $V^*$ 的张量。

　　对于逆变向量 $v^a\in V$，这个张量把它映射为一个逆变向量（也即 $1$-线性函数）$w^b=v^aT^b_a$。

　　对于逆变向量 $v^a\in V$ 和协变向量 $w_b$，这个张量把它们俩映射为一个数字 $v^aw_bT^a_b$。

　　根据张量的坐标变换给的变换规则，对于 $V$ 上的张量 $T^{b_1b_2\cdots b_m}_{a_1a_2\cdots a_n}$，当我们给定 $V$ 的过渡矩阵 $a^{ij}$ 的时候，每个 $V^*$ 的过渡矩阵都是 $a_{ij}$，其中 $a^{ij}$ 和 $a_{ij}$ 互为逆矩阵，即 $a^{ik}a_{kj}=\delta^i_j$⁷。这样一来，整个张量的坐标变换就成了 $m$ 个 $a_{i_\alpha k\alpha}$ 和 $n$ 个 $a^{k_\beta j_\beta}$ 的乘积，虽然它们并不会互相抵消，但是它们的行列式可以互相抵消，从而使得张量坐标在变换前后行列式不变。

需要补充一个二阶张量的变换例子。

3. $(r, s)$ 型张量

　　尽管张量是多个任意的线性空间 $V$ 之间的多重线性映射，我们通常只考虑用 $V$ 和其对偶空间 $V^*$ 定义的张量，这样只需要定义一个空间的基就可以得到所有空间的基了。

　　回忆张量文章中所教的判断张量阶数的方法：看一共有多少线性空间参与映射，不过是作为自变量的一部分还是像的一部分。现在有了即分为 $V$ 和 $V^*$ 的分类，就可以进一步把张量分出类型来，比单纯的阶数更细致一些。

定义 3　

　　一个 $(r, s)$ 型张量是将 $s$ 个逆变向量和 $r$ 个协变向量映射为一个数字的张量。

　　一个 $(r, s)$ 型张量可以把 $s$ 个逆变向量和 $r$ 个协变向量映射为一个数字，也可以是映射成低阶张量。比如说，如果 $h^{ab}_c$ 是一个 $(2, 1)$ 型张量，那么它乘以一个逆变向量 $v^c$，就得到一个 $(2, 0)$ 型张量 $g^{ab}=v^ch^{ab}_c$；同样，它乘以两个协变向量后就得到一个 $(0, 1)$ 型张量，也就是一个协变向量。

1. ^ 注意，此处洛伦兹变换矩阵应该是 $L=T^{-1}$，即过渡矩阵的逆。因为洛伦兹变换矩阵表达的是时空点的坐标变换，过渡矩阵是基向量的变换。斜坐标系表示洛伦兹变换可以作为可视化的理解辅助。
2. ^ 就是指坐标从列矩阵变成行矩阵
3. ^ 当且仅当 $i=j$ 时，$\delta^i_j=\delta^{ij}=\delta_{ij}=1$。
4. ^ 最常见的就是闵可夫斯基度规，在相对论中随处可见。
5. ^ $\mathbb{F}$ 是任意的域，一般是实数域 $\mathbb{R}$ 或复数域 $\mathbb{C}$。
6. ^ 参见张量的小节 “张量的阶数”。
7. ^ $\delta^i_j=1$ 当且仅当 $i=j$；否则，$\delta^i_j=0$。按照我们规定的，上标表示行数，下标表示列数，可知它表示单位矩阵。

协变和逆变

1. 对偶基下的张量坐标变换

例 1

定义 1 协变和逆变向量

例 2 速度和梯度

2. 上下指标

定义 2

升降指标

张量的协变和逆变

例 3

3. $(r, s)$ 型张量

定义 3

例 1　

定义 1　协变和逆变向量

例 2　速度和梯度

定义 2　

例 3　

定义 3