Avertissement

Ce contenu a été généré par une intelligence artificielle (LLM) et peut contenir des imprécisions ou des erreurs malgré notre relecture attentive. Il s'agit d'un outil d'apprentissage et non d'une référence académique.

Si vous constatez des erreurs, merci de nous les signaler via la page "À propos".

Recherche d'extremum - preuves (A)

Preuve : Extremum global implique extremum local

Prouver que si une fonction f:DRf: D \to \mathbb{R} admet un maximum global en un point aDa \in D, alors elle admet un maximum local en ce point.

Indice

Revenez strictement aux définitions. La définition d'un maximum global impose une inégalité sur tout l'ensemble DD. La définition locale impose la même inégalité sur une intersection de DD avec une boule.

Est-ce que l'inégalité "pour tout yy" implique l'inégalité "pour certains yy" ?

Solution

Nous devons montrer que la définition du maximum global implique celle du maximum local.

Étape 1 : Écrire l'hypothèse (Global)

Supposons que ff admet un maximum global en aa. Par définition :

yD,f(a)f(y)\forall y \in D, \quad f(a) \geq f(y)

Étape 2 : Écrire la conclusion souhaitée (Local)

Nous cherchons à montrer qu'il existe un ε>0\varepsilon > 0 tel que :

yDB(a,ε),f(a)f(y)\forall y \in D \cap B(a, \varepsilon), \quad f(a) \geq f(y)

Étape 3 : Démonstration

Prenons n'importe quel ε>0\varepsilon > 0 (par exemple ε=1\varepsilon = 1).

Considérons un point yy quelconque appartenant au voisinage DB(a,ε)D \cap B(a, \varepsilon).

Puisque yDB(a,ε)y \in D \cap B(a, \varepsilon), on a en particulier que yDy \in D.

Or, l'hypothèse de l'étape 1 nous dit que l'inégalité f(a)f(y)f(a) \geq f(y) est vraie pour tous les points de DD. Elle est donc vraie a fortiori pour les points du sous-ensemble DB(a,ε)D \cap B(a, \varepsilon).

Conclusion :

L'existence d'un maximum global implique directement l'existence d'un maximum local (pour n'importe quel rayon ε\varepsilon).

Condition nécessaire du premier ordre (Points critiques)

Soit UU un ouvert de Rn\mathbb{R}^n et f:URf: U \to \mathbb{R} une fonction différentiable en aUa \in U.

Prouver que si ff admet un extremum local en aa, alors f(a)=0\nabla f(a) = 0.

Indice

L'idée est de se ramener au cas d'une seule variable (calcul différentiel classique).

Considérez les fonctions partielles gi(t)=f(a+tei)g_i(t) = f(a + t e_i)eie_i est un vecteur de la base canonique.

Si ff a un maximum en aa, quel comportement a gig_i en t=0t=0 ?

Utilisez le théorème de Fermat pour les fonctions d'une variable réelle (g(0)=0g'(0)=0).

Solution

Supposons sans perte de généralité que ff admet un maximum local en aa.

Étape 1 : Restriction à une variable

Soit ei=(0,,1,,0)e_i = (0, \dots, 1, \dots, 0) le ii-ème vecteur de la base canonique.

Comme UU est ouvert, il existe ε>0\varepsilon > 0 tel que pour tout t]ε,ε[t \in ]-\varepsilon, \varepsilon[, le point a+teia + t e_i appartient à UU.

Définissons la fonction d'une variable réelle :

gi(t)=f(a+tei)g_i(t) = f(a + t e_i)

Étape 2 : Application du théorème de Fermat (1D)

Puisque ff admet un maximum local en aa, pour tt suffisamment petit, on a :

gi(t)=f(a+tei)f(a)=gi(0)g_i(t) = f(a + t e_i) \leq f(a) = g_i(0)

La fonction gig_i admet donc un maximum local en t=0t=0.

De plus, ff est différentiable, donc gig_i est dérivable en 0. D'après le théorème classique d'analyse réelle, sa dérivée s'annule :

gi(0)=0g_i'(0) = 0

Étape 3 : Lien avec les dérivées partielles

Par définition de la dérivée partielle, gi(0)g_i'(0) correspond exactement à la dérivée partielle de ff par rapport à xix_i au point aa :

gi(0)=limt0f(a+tei)f(a)t=fxi(a)g_i'(0) = \lim_{t \to 0} \frac{f(a+te_i) - f(a)}{t} = \frac{\partial f}{\partial x_i}(a)

Donc, pour tout i{1,,n}i \in \{1, \dots, n\}, on a fxi(a)=0\frac{\partial f}{\partial x_i}(a) = 0.

Conclusion :

Le vecteur gradient, composé des dérivées partielles, est nul :

f(a)=(fx1(a),,fxn(a))=(0,,0)\nabla f(a) = \left( \frac{\partial f}{\partial x_1}(a), \dots, \frac{\partial f}{\partial x_n}(a) \right) = (0, \dots, 0)

Symétrie de la Hessienne (Théorème de Schwarz)

Soit ff une fonction de classe C2\mathscr{C}^2 sur un ouvert UR2U \subset \mathbb{R}^2.

Prouver que 2fxy(a)=2fyx(a)\frac{\partial^2 f}{\partial x \partial y}(a) = \frac{\partial^2 f}{\partial y \partial x}(a).

Indice

Nous ne ferons pas la démonstration complète formelle qui est longue, mais l'argument clé.

Considérez la quantité "différence seconde" :

Δ=f(x+h,y+k)f(x+h,y)f(x,y+k)+f(x,y)\Delta = f(x+h, y+k) - f(x+h, y) - f(x, y+k) + f(x, y)

L'idée est d'exprimer Δ\Delta de deux façons différentes en utilisant le Théorème des Accroissements Finis (TAF) deux fois :

  1. D'abord en fixant yy et en faisant varier xx.
  2. Puis en fixant xx et en faisant varier yy.
Solution

Cette preuve repose sur l'application répétée du Théorème des Accroissements Finis (TAF).

Étape 1 : Définition de la fonction auxiliaire

Soit h,kh, k petits. Posons la fonction auxiliaire φ(t)=f(x+t,y+k)f(x+t,y)\varphi(t) = f(x+t, y+k) - f(x+t, y).

Alors la quantité Δ\Delta (définie dans l'indice) s'écrit Δ=φ(h)φ(0)\Delta = \varphi(h) - \varphi(0).

Étape 2 : Première application du TAF

Comme ff est dérivable, φ\varphi l'est aussi. Par le TAF, il existe θ1]0,1[\theta_1 \in ]0, 1[ tel que :

Δ=φ(h)φ(0)=hφ(θ1h)\Delta = \varphi(h) - \varphi(0) = h \varphi'(\theta_1 h)

Or φ(t)=fx(x+t,y+k)fx(x+t,y)\varphi'(t) = \frac{\partial f}{\partial x}(x+t, y+k) - \frac{\partial f}{\partial x}(x+t, y).

Donc :

Δ=h[fx(x+θ1h,y+k)fx(x+θ1h,y)]\Delta = h \left[ \frac{\partial f}{\partial x}(x+\theta_1 h, y+k) - \frac{\partial f}{\partial x}(x+\theta_1 h, y) \right]

Étape 3 : Seconde application du TAF

Appliquons le TAF à la fonction kfx(x+θ1h,y+k)k \mapsto \frac{\partial f}{\partial x}(x+\theta_1 h, y+k) entre yy et y+ky+k. Il existe θ2]0,1[\theta_2 \in ]0, 1[ tel que :

fx(x+θ1h,y+k)fx(x+θ1h,y)=ky(fx)(x+θ1h,y+θ2k)\frac{\partial f}{\partial x}(x+\theta_1 h, y+k) - \frac{\partial f}{\partial x}(x+\theta_1 h, y) = k \frac{\partial}{\partial y} \left( \frac{\partial f}{\partial x} \right) (x+\theta_1 h, y+\theta_2 k)

Ainsi :

Δ=hk2fyx(x+θ1h,y+θ2k)\Delta = hk \frac{\partial^2 f}{\partial y \partial x}(x+\theta_1 h, y+\theta_2 k)

Étape 4 : Symétrie et Conclusion

Si nous avions commencé par définir ψ(t)=f(x+h,y+t)f(x,y+t)\psi(t) = f(x+h, y+t) - f(x, y+t), nous aurions obtenu de manière symétrique (avec d'autres θ3,θ4\theta_3, \theta_4) :

Δ=kh2fxy(x+θ3h,y+θ4k)\Delta = kh \frac{\partial^2 f}{\partial x \partial y}(x+\theta_3 h, y+\theta_4 k)

En égalant les deux expressions de Δ\Delta et en divisant par hkhk (non nul), puis en faisant tendre (h,k)(0,0)(h, k) \to (0, 0), la continuité des dérivées secondes (classe C2\mathscr{C}^2) assure que les limites sont égales à la valeur au point (x,y)(x, y).

Conclusion :

2fyx(x,y)=2fxy(x,y)\frac{\partial^2 f}{\partial y \partial x}(x, y) = \frac{\partial^2 f}{\partial x \partial y}(x, y)

Dérivation de la Formule de Taylor à l'ordre 2

Prouver la formule de Taylor à l'ordre 2 pour une fonction f:URf: U \to \mathbb{R} de classe C2\mathscr{C}^2 au voisinage de aa.

Indice

Utilisez la paramétrisation du segment reliant aa à a+ha+h.

Soit ϕ(t)=f(a+th)\phi(t) = f(a + th) pour t[0,1]t \in [0, 1].

Appliquez la formule de Maclaurin (Taylor-Young en 0) à la fonction ϕ\phi d'une seule variable :

ϕ(1)=ϕ(0)+ϕ(0)+12ϕ(0)+o(1)\phi(1) = \phi(0) + \phi'(0) + \frac{1}{2}\phi''(0) + o(1).

Le travail consiste à calculer ϕ(t)\phi'(t) et ϕ(t)\phi''(t) en utilisant la règle de la chaîne (chain rule).

Solution

On cherche à exprimer f(a+h)f(a+h) en fonction de f(a)f(a) et de ses dérivées.

Étape 1 : Paramétrisation et Taylor 1D

Soit ϕ(t)=f(a+th)\phi(t) = f(a + th). C'est une fonction de R\mathbb{R} dans R\mathbb{R}.

Puisque ff est C2\mathscr{C}^2, ϕ\phi l'est aussi. La formule de Taylor-Young en t=0t=0 pour ϕ\phi évaluée en t=1t=1 donne :

ϕ(1)=ϕ(0)+ϕ(0)(10)+12ϕ(0)(10)2+o(1)\phi(1) = \phi(0) + \phi'(0) \cdot (1-0) + \frac{1}{2}\phi''(0) \cdot (1-0)^2 + o(1)

Ce qui revient à dire, puisque ϕ(1)=f(a+h)\phi(1) = f(a+h) et ϕ(0)=f(a)\phi(0) = f(a) :

f(a+h)=f(a)+ϕ(0)+12ϕ(0)+o(h2)f(a+h) = f(a) + \phi'(0) + \frac{1}{2}\phi''(0) + o(\|h\|^2)

Étape 2 : Calcul de la dérivée première

En utilisant la règle de la chaîne pour la composée de fonctions :

ϕ(t)=f(a+th),h=i=1nfxi(a+th)hi\phi'(t) = \langle \nabla f(a+th), h \rangle = \sum_{i=1}^n \frac{\partial f}{\partial x_i}(a+th) h_i

Donc pour t=0t=0 :

ϕ(0)=f(a),h\phi'(0) = \langle \nabla f(a), h \rangle

Étape 3 : Calcul de la dérivée seconde

Dérivons ϕ(t)\phi'(t) une seconde fois par rapport à tt :

ϕ(t)=ddt(i=1nfxi(a+th)hi)\phi''(t) = \frac{d}{dt} \left( \sum_{i=1}^n \frac{\partial f}{\partial x_i}(a+th) h_i \right)

On applique à nouveau la règle de la chaîne sur chaque dérivée partielle :

ϕ(t)=i=1n(j=1n2fxjxi(a+th)hj)hi\phi''(t) = \sum_{i=1}^n \left( \sum_{j=1}^n \frac{\partial^2 f}{\partial x_j \partial x_i}(a+th) h_j \right) h_i

Pour t=0t=0 :

ϕ(0)=i,j2fxjxi(a)hihj=Hf(a)h,h\phi''(0) = \sum_{i,j} \frac{\partial^2 f}{\partial x_j \partial x_i}(a) h_i h_j = \langle H_f(a)h, h \rangle

Conclusion :

En remplaçant dans l'expression de l'étape 1, on obtient la formule de Taylor vectorielle :

f(a+h)=f(a)+f(a),h+12Hf(a)h,h+o(h2)f(a+h) = f(a) + \langle \nabla f(a), h \rangle + \frac{1}{2} \langle H_f(a)h, h \rangle + o(\|h\|^2)

Gradient orthogonal aux lignes de niveau

Prouver que si cc est une valeur régulière et S={xRnf(x)=c}S = \{ x \in \mathbb{R}^n \mid f(x) = c \} est la ligne de niveau associée, alors le gradient f(x)\nabla f(x) est orthogonal à SS en tout point xSx \in S.

Indice

L'orthogonalité à une surface (ou courbe) se définit par l'orthogonalité au vecteur tangent d'une courbe tracée sur cette surface.

Considérez une courbe dérivable γ:]ε,ε[S\gamma : ]-\varepsilon, \varepsilon[ \to S telle que γ(0)=x\gamma(0) = x.

Quelle équation vérifie la fonction composée tf(γ(t))t \mapsto f(\gamma(t)) ?

Dérivez cette équation par rapport à tt.

Solution

Nous devons montrer que le gradient est orthogonal à tout vecteur tangent à la ligne de niveau.

Étape 1 : Caractérisation de la courbe sur le niveau

Soit γ(t)\gamma(t) une courbe différentiable tracée entièrement sur la ligne de niveau SS, passant par xx à l'instant t=0t=0 (c'est-à-dire γ(0)=x\gamma(0) = x).

Par définition de la ligne de niveau, la valeur de ff est constante sur cette courbe :

t,f(γ(t))=c\forall t, \quad f(\gamma(t)) = c

Étape 2 : Dérivation

Dérivons cette égalité par rapport à tt en utilisant la règle de la chaîne (chain rule) :

ddt(f(γ(t)))=ddt(c)=0\frac{d}{dt} (f(\gamma(t))) = \frac{d}{dt}(c) = 0

D'autre part :

ddt(f(γ(t)))=f(γ(t)),γ(t)\frac{d}{dt} (f(\gamma(t))) = \langle \nabla f(\gamma(t)), \gamma'(t) \rangle

Étape 3 : Évaluation en t=0t=0

En t=0t=0, on a γ(0)=x\gamma(0) = x. Le vecteur γ(0)\gamma'(0) représente un vecteur tangent arbitraire à la surface SS au point xx. L'équation devient :

f(x),γ(0)=0\langle \nabla f(x), \gamma'(0) \rangle = 0

Conclusion :

Le produit scalaire entre le gradient f(x)\nabla f(x) et tout vecteur tangent γ(0)\gamma'(0) est nul. Le gradient est donc bien orthogonal à la ligne de niveau (ou surface de niveau) en xx.

Condition suffisante de minimum local (Critère de la Hessienne)

Soit aa un point critique d'une fonction ff de classe C2\mathscr{C}^2.

Prouver que si la matrice Hessienne Hf(a)H_f(a) est définie positive, alors aa est un minimum local strict.

Indice

Utilisez la formule de Taylor à l'ordre 2 :

f(a+h)f(a)12Hf(a)h,hf(a+h) - f(a) \approx \frac{1}{2} \langle H_f(a)h, h \rangle.

Une matrice définie positive HH vérifie une propriété de coercivité : il existe λ>0\lambda > 0 (la plus petite valeur propre) tel que Hh,hλh2\langle Hh, h \rangle \geq \lambda \|h\|^2.

Comparez le terme quadratique avec le reste o(h2)o(\|h\|^2). Le terme quadratique doit "gagner" proche de 0.

Solution

On veut montrer que f(a+h)>f(a)f(a+h) > f(a) pour tout petit h0h \neq 0.

Étape 1 : Développement de Taylor

Comme aa est un point critique, f(a)=0\nabla f(a) = 0. La formule de Taylor donne :

f(a+h)f(a)=12Hf(a)h,h+h2ε(h)f(a+h) - f(a) = \frac{1}{2} \langle H_f(a)h, h \rangle + \|h\|^2 \varepsilon(h)

ε(h)0\varepsilon(h) \to 0 quand h0h \to 0.

Étape 2 : Propriété de la Hessienne définie positive

Soit λmin\lambda_{\min} la plus petite valeur propre de Hf(a)H_f(a). Puisque la matrice est définie positive, toutes ses valeurs propres sont strictement positives, donc λmin>0\lambda_{\min} > 0.

Une propriété d'algèbre linéaire pour les matrices symétriques donne :

hRn,Hf(a)h,hλminh2\forall h \in \mathbb{R}^n, \quad \langle H_f(a)h, h \rangle \geq \lambda_{\min} \|h\|^2

Étape 3 : Inégalité

Substituons cette inégalité dans Taylor :

f(a+h)f(a)12λminh2+h2ε(h)f(a+h) - f(a) \geq \frac{1}{2} \lambda_{\min} \|h\|^2 + \|h\|^2 \varepsilon(h)

f(a+h)f(a)h2(λmin2+ε(h))f(a+h) - f(a) \geq \|h\|^2 \left( \frac{\lambda_{\min}}{2} + \varepsilon(h) \right)

Étape 4 : Argument de domination

Comme ε(h)0\varepsilon(h) \to 0 quand h0h \to 0, il existe un voisinage de 00 (une petite boule) dans lequel ε(h)<λmin4|\varepsilon(h)| < \frac{\lambda_{\min}}{4}.

Dans ce voisinage, le terme entre parenthèses est strictement positif (au moins λmin4\frac{\lambda_{\min}}{4}).

Donc, pour h0h \neq 0 dans ce voisinage :

f(a+h)f(a)>0    f(a+h)>f(a)f(a+h) - f(a) > 0 \implies f(a+h) > f(a)

Conclusion :

f(a)f(a) est strictement inférieur aux valeurs voisines. aa est donc un minimum local strict.

Nature indéterminée pour Hessienne avec valeurs propres de signes opposés (Point Selle)

Soit aa un point critique tel que Hf(a)H_f(a) admette une valeur propre strictement positive λ>0\lambda > 0 et une valeur propre strictement négative μ<0\mu < 0.

Prouver que aa n'est ni un maximum local, ni un minimum local.

Indice

Il suffit de trouver deux directions d'approche différentes.

Si on s'éloigne de aa dans la direction du vecteur propre associé à λ>0\lambda > 0, la fonction croît (convexité).

Si on s'éloigne de aa dans la direction du vecteur propre associé à μ<0\mu < 0, la fonction décroît (concavité).

Utilisez Taylor restreint à ces droites.

Solution

Pour prouver que ce n'est pas un extremum, nous allons montrer que ff prend des valeurs supérieures à f(a)f(a) et des valeurs inférieures à f(a)f(a) dans tout voisinage de aa.

Étape 1 : Direction de croissance

Soit uu un vecteur propre normé associé à la valeur propre λ>0\lambda > 0. Donc Hf(a)u=λuH_f(a)u = \lambda u.

Considérons ff sur la droite passant par aa dirigée par uu (h=tuh = tu).

f(a+tu)f(a)=12Hf(a)(tu),(tu)+o(t2)f(a+tu) - f(a) = \frac{1}{2} \langle H_f(a)(tu), (tu) \rangle + o(t^2)

f(a+tu)f(a)=t22λu,u+o(t2)=λ2t2+t2ε(t)f(a+tu) - f(a) = \frac{t^2}{2} \lambda \langle u, u \rangle + o(t^2) = \frac{\lambda}{2} t^2 + t^2 \varepsilon(t)

Comme λ>0\lambda > 0, pour tt assez petit, cette expression est positive. Donc il existe des points arbitrairement proches tels que f(x)>f(a)f(x) > f(a). Donc aa n'est pas un maximum.

Étape 2 : Direction de décroissance

Soit vv un vecteur propre normé associé à la valeur propre μ<0\mu < 0.

De manière analogue :

f(a+tv)f(a)=t22μv2+o(t2)=μ2t2+o(t2)f(a+tv) - f(a) = \frac{t^2}{2} \mu \|v\|^2 + o(t^2) = \frac{\mu}{2} t^2 + o(t^2)

Comme μ<0\mu < 0, pour tt assez petit, cette expression est négative. Donc il existe des points arbitrairement proches tels que f(x)<f(a)f(x) < f(a). Donc aa n'est pas un minimum.

Conclusion :

Puisque dans tout voisinage de aa, ff prend des valeurs supérieures et inférieures à f(a)f(a), aa n'est ni un minimum ni un maximum. C'est un point selle (ou col).

Lien entre Matrice Hessienne et Forme Quadratique

Prouver que l'expression matricielle Hf(a)h,h\langle H_f(a)h, h \rangle correspond bien à la somme pondérée des dérivées secondes.

C'est-à-dire : Hf(a)h,h=i,j2fxixj(a)hihj\langle H_f(a)h, h \rangle = \sum_{i,j} \frac{\partial^2 f}{\partial x_i \partial x_j}(a) h_i h_j.

Indice

C'est un exercice d'algèbre linéaire et de notation.

Écrivez le vecteur v=Hf(a)hv = H_f(a)h composante par composante en utilisant la règle du produit matrice-vecteur.

Ensuite, faites le produit scalaire de vv avec hh.

Solution

Soit H=Hf(a)H = H_f(a) pour simplifier les notations, et h=(h1,,hn)Th = (h_1, \dots, h_n)^T.

Étape 1 : Produit Matrice-Vecteur

Calculons le vecteur v=Hhv = Hh. La ii-ème composante de ce vecteur est le produit scalaire de la ii-ème ligne de HH par le vecteur hh.

Les éléments de la matrice sont Hij=2fxixjH_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}.

Donc :

vi=(Hh)i=j=1nHijhj=j=1n2fxixjhjv_i = (Hh)_i = \sum_{j=1}^n H_{ij} h_j = \sum_{j=1}^n \frac{\partial^2 f}{\partial x_i \partial x_j} h_j

Étape 2 : Produit Scalaire final

Calculons maintenant v,h=i=1nvihi\langle v, h \rangle = \sum_{i=1}^n v_i h_i.

Hh,h=i=1n(j=1n2fxixjhj)hi\langle Hh, h \rangle = \sum_{i=1}^n \left( \sum_{j=1}^n \frac{\partial^2 f}{\partial x_i \partial x_j} h_j \right) h_i

Conclusion :

En regroupant les sommes, on obtient bien la forme quadratique associée aux dérivées secondes :

Hf(a)h,h=i=1nj=1n2fxixj(a)hihj\langle H_f(a)h, h \rangle = \sum_{i=1}^n \sum_{j=1}^n \frac{\partial^2 f}{\partial x_i \partial x_j}(a) h_i h_j

Unicité de l'extremum pour une fonction convexe

Soit f:RnRf: \mathbb{R}^n \to \mathbb{R} une fonction convexe et différentiable.

Prouver que si aa est un point critique de ff, alors aa est un minimum global.

Indice

Utilisez la définition différentielle de la convexité (premier ordre).

Une fonction différentiable est convexe si et seulement si son graphe est au-dessus de ses plans tangents :

x,yRn,f(y)f(x)+f(x),yx\forall x, y \in \mathbb{R}^n, \quad f(y) \geq f(x) + \langle \nabla f(x), y-x \rangle

Appliquez cette inégalité en prenant x=ax=a (le point critique).

Solution

Étape 1 : Propriété de convexité

Puisque ff est convexe et différentiable, elle satisfait l'inégalité du gradient pour tous points aa et yy dans le domaine :

f(y)f(a)+f(a),yaf(y) \geq f(a) + \langle \nabla f(a), y-a \rangle

Étape 2 : Utilisation du point critique

L'hypothèse est que aa est un point critique, donc f(a)=0\nabla f(a) = 0.

Le terme du produit scalaire s'annule :

f(a),ya=0,ya=0\langle \nabla f(a), y-a \rangle = \langle 0, y-a \rangle = 0

Étape 3 : Conclusion

L'inégalité devient simplement :

yRn,f(y)f(a)\forall y \in \mathbb{R}^n, \quad f(y) \geq f(a)

Cela correspond exactement à la définition d'un minimum global.

Note : Si la fonction est strictement convexe, ce minimum est de plus unique.

Le problème de la moindre distance (Application)

Soit KK un fermé de Rn\mathbb{R}^n et pRnp \in \mathbb{R}^n un point extérieur. On cherche xKx \in K minimisant la distance à pp.

Prouver que minimiser la distance d(x,p)d(x, p) revient à minimiser la distance au carré f(x)=xp2f(x) = \|x-p\|^2, et calculer le gradient de cette fonction.

Indice
  1. La fonction racine carrée ttt \mapsto \sqrt{t} est strictement croissante sur R+\mathbb{R}^+.
  2. Pour le gradient, développez xp2=xp,xp\|x-p\|^2 = \langle x-p, x-p \rangle et utilisez les règles de dérivation du produit scalaire, ou les dérivées partielles.
Solution

Étape 1 : Équivalence des problèmes

Soit g(x)=xpg(x) = \|x-p\|. Comme xp0\|x-p\| \geq 0, minimiser g(x)g(x) est équivalent à minimiser (g(x))2(g(x))^2. En effet, si 0A<B0 \le A < B, alors A2<B2A^2 < B^2. L'ordre est préservé.

Il est plus simple de travailler avec f(x)=xp2f(x) = \|x-p\|^2 car la racine carrée n'est pas dérivable en 0, alors que le carré de la norme est C\mathscr{C}^\infty partout.

Étape 2 : Calcul du gradient de ff

On peut écrire f(x)=i=1n(xipi)2f(x) = \sum_{i=1}^n (x_i - p_i)^2.

Calculons la dérivée partielle par rapport à xkx_k :

fxk=xk((xkpk)2+ik(xipi)2)\frac{\partial f}{\partial x_k} = \frac{\partial}{\partial x_k} \left( (x_k - p_k)^2 + \sum_{i \neq k} (x_i - p_i)^2 \right)

Les termes où iki \neq k sont constants par rapport à xkx_k.

fxk=2(xkpk)\frac{\partial f}{\partial x_k} = 2(x_k - p_k)

Conclusion :

Le vecteur gradient est composé des dérivées partielles :

f(x)=(2(x1p1),,2(xnpn))=2(xp)\nabla f(x) = (2(x_1 - p_1), \dots, 2(x_n - p_n)) = 2(x - p)

Cela signifie que le gradient pointe dans la direction opposée à pp.