『最优化理论、建模与算法』凸集部分

本文最后更新于:2021年10月16日 晚上

  1. 凸集

    线性与非线性并不是区分问题难度的根本:凸与非凸调试

    本章的内容相对枯燥,主要是基本定义,为后续的凸函数打下基础

    基本集合定义

    • 仿射集

      若通过集合CRnC\subseteq R^n 中的任意两个同点的直线仍在集合CC中,则称集合CC是仿射的

      x1,x2C,θR s.t.θx1+(1θx2)C\forall x_1,x_2\in C,\theta \in R\ \\s.t. \quad\theta x_1+(1-\theta x_2)\in C

      可对应定义多个点的情况

      比如线性方程组Ax=bAx=b的解集XX就是仿射集,

      反之,任何的仿射集都可以表示成为某个线性方程组的解集

      仿射包

      集合CRnC\subseteq R^n中的点的所有仿射组合组合成的集合成为CC的仿射包

      记作aff Caff \ C

      aff C={θ1x1+...+θkxkx1,..xkC, θ1+...+θk=1}aff\ C=\{\theta_1 x_1 +...+\theta_k x_k | x_1,..x_k\in C ,\ \theta_1 +...+\theta_k =1 \}

    • 凸集

      连接集合CC中的任意两点的线段都在CC内,则称CC为凸集

      x1,x2C,θ[0,1] s.t.θx1+(1θx2)C\forall x_1,x_2\in C,\theta \in [0,1]\ \\s.t.\quad \theta x_1+(1-\theta x_2)\in C

      显然:仿射集都是凸集

    • 凸锥的定义如下

      x1,...,xkC,θi0 s.t.θ1x1+...+θkxkC\forall x_1,...,x_k\in C,\theta_i \ge0\ \\s.t.\quad \theta_1 x_1+...+\theta_k x_k\in C

    • 超平面与半空间

      超平面的表示如下所示,也可看做法线方向aa的超平面,常数决定与与原点的偏移

      {xaTx=b}\{x|a^Tx =b\}

      而一个超平面则将RnR^n划分为两个闭的半空间,表示如下

      {xaTxb}\{x|a^Tx \le b\}

      易证半空间是凸的,(按照定义即可),但却不仿射

    • 多面体

      多面体可被有限个线性等式与不等式定义

      P={ajTbj,j=1...m,cjTx=dj.1...p}P = \{a^T_j\le b_j,j=1...m,c_j^T x = d_j .1...p \}

      即多面体是由有限个半空间与超平面的交际。显然多面体是凸集

      单纯形

      RnR^n空间的kk维单纯型

    • 特殊矩阵集合与半正定锥

      对称矩阵集合

      Sn={XRn×nXT=X}S^n = \{X\in R^{n\times n}| X^T = X \}

      半正定矩阵的集合

      S+n={XSnX0}S^n_+ = \{X\in S^n| X\ge 0 \}

      正定矩阵的集合

      S++n={XSnX>0}S^n_{++} = \{X\in S^n| X> 0 \}

      显然有Sn,S+nS^n,S^n_+是凸锥,而S++nS^n_{++}不是凸锥:不包含特殊超平面

      半正定椎:S+nS^n_+

    保凸运算

    首先凸集的数乘、加以及任意的交所得到的集合都是凸集

    • 交集

      易证交集运算是保凸的

    • 仿射变换(缩放、平移、投影)

      ff:RnRm:R^n\to R^m 是仿射变换, 即f(x)=Ax+b,ARm×n,bRmf(x) = Ax+b,A\in R^{m\times n},b\in R^m

      则有:

      • 凸集在ff下的像是凸集:SRnS\subseteq R^n 是凸集 f(S)={f(x)xS}\Rightarrow f(S) =\{f(x)|x\in S \}) 是凸集
      • 凸集在ff的原像是凸集:CRnC\subseteq R^n 是凸集 f1(C)={f(x)xC}\Rightarrow f^{-1}(C) =\{f(x)|x\in C \}) 是凸集
    • 线性分式与透视函数的保凸性

      透视变换保凸性定理:集合{(x,t)xRn,t>0}\{(x,t)|x\in R^n,t>0 \}是凸的,则透视变换得到的集合{xtxRn,t>0}\{\frac xt|x\in R^n,t>0 \}也是凸集

      分式线性变换的保凸性定理:集合{xxRn}\{x|x\in R^n\}是凸集,则下面的集合也是凸集

      f(x)={Ax+bcTx+dxRn,ARm×n,cRn,dR.bRm,cTx+d>0}f(x) = \{ \frac{Ax+b}{c^Tx+d} |x\in R^n,A\in R^{m\times n},c\in R^n,d\in R.b\in R^m,c^Tx+d >0\}

    分离超平面定理

    下面阐述一些凸集的应用:使用超平面或者仿射函数将两个不相交的凸集分离开,其结果便是超平面分离定理。基本解释如下:

    C,DC,D两个不相交的凸集,则必然存在a0,bs.t.xCa\not = 0,b \quad s.t. \forall x\in CaTxb,xD,aTxba^Tx\le b,\forall x\in D,a^Tx\ge b或者说仿射函数aTxba^Tx-bCC中非正,在DD中非负。则可称该超平面为C.DC.D的分离超平面

    其逆定理:存在右侧条件,则两凸集不相交同样适用较广

    然而涉及到非凸集的划分问题则存在挑战,如下图所示

    Untitled

    涉及非凸集无法被超平面划分的示例

    支撑超平面定理

    CC是凸集,则CC的任意边界处都存在支撑超平面

    PS 对偶锥等此处不做介绍了

    课后习题

    证明矩阵的2范数等于其最大奇异值

    个人证明如下:

    设矩阵ARm×n,A\in R^{m\times n}, 且矩阵A的二范数的定义如下

    A2=maxxRn,x2=1Ax2=maxxRn,x2=1(Ax)TAx||A||_2 = \max_{x\in R^n,||x||_2 = 1}||Ax||_2 = \max_{x\in R^n,||x||_2 = 1}\sqrt{(Ax)^TAx}

    对于半正定矩阵(ATA)(A^TA),其对应特征向量组合可以构成R^n的一组标准正交基,则必有x=i=1naiαix = \sum_{i=1}^n a_i\alpha_i ,其中a_i为和常量,αi\alpha_i为矩阵(ATA)A^TA)的一个特征向量,并假设对应的特征值为λi\lambda_i

    则有

    ATAx=ATAi=1naiαi=i=1naiATAαi=i=1naiATAαi=i=1nλiaiαiA^TAx = A^TA \sum_{i=1}^n a_i\alpha_i =\sum_{i=1}^n a_iA^TA\alpha_i = \sum_{i=1}^n a_iA^TA\alpha_i = \sum_{i=1}^n \lambda_ia_i\alpha_i

    于是

    (Ax)TAx=i=1nλiai2λmax\sqrt{(Ax)^TAx} = \sqrt{\sum_{i=1}^n\lambda_ia_i^2}\le \sqrt{\lambda_{max}}

    而矩阵二范数的数值为(Ax)TAx\sqrt{(Ax)^TAx}的最大值,正是其最大奇异值

    其余也可查看Github项目

    参考资料

    1. 最优化:建模、算法与理论 刘浩洋,户将,李勇锋,文再文著
    2. 凸优化 Stephen Boyd 著
    3. BUAA数学系崔老师的课堂课件

Optimization Convex set
http://example.com/2021/10/09/Optimization/Optimization-Convex-set/
作者
BFlame
发布于
2021年10月9日
许可协议