Algorithme du lagrangien augmenté

Les algorithmes du lagrangien augmenté sont une certaine classe d'algorithmes pour résoudre des problèmes d'optimisation sous contraintes. Elles présentent des similitudes avec les méthodes de pénalité dans le sens où elles remplacent un problème d'optimisation sous contraintes par une série de problèmes sans contrainte et ajoutent un terme de pénalité à l'objectif ; la différence est qu'une méthode du lagrangien augmenté ajoute encore un autre terme, conçu pour agir comme un multiplicateur de Lagrange. Le Lagrangien augmenté est apparenté, mais non identique à la méthode des multiplicateurs de Lagrange.

Vu différemment, l'objectif sans contrainte est le lagrangien du problème contraint, avec un terme de pénalité supplémentaire (l'augmentation).

La méthode était à l'origine connue sous le nom de méthode des multiplicateurs et a été beaucoup étudiée dans les années 1970 et 1980 comme une bonne alternative aux méthodes de pénalité. Il a été discuté pour la première fois par Magnus Hestenes^[1] et par Michael J. D. Powell en 1969^[2]. La méthode a été étudiée par R. Tyrrell Rockafellar en relation avec la dualité de Fenchel (en), en particulier en relation avec les méthodes des points proximaux, la régularisation Moreau-Yosida et les opérateurs monotones maximaux : ces méthodes ont été utilisées en optimisation structurelle. La méthode a également été étudiée par Dimitri Bertsekas, notamment dans son livre de 1982^[3], ainsi que des extensions impliquant des fonctions de régularisation non quadratiques, telles que la régularisation entropique, qui donne naissance à la « méthode exponentielle des multiplicateurs », une méthode qui gère les contraintes d'inégalité avec une fonction lagrangienne augmentée deux fois dérivable.

Depuis les années 1970, la programmation quadratique séquentielle (PQS) et les méthodes de points intérieurs (MPI) ont suscité une attention croissante, en partie parce qu'elles utilisent plus facilement des sous-programmes de matrice creuse à partir de bibliothèques de logiciels numériques, et en partie parce que les MPI ont prouvé des résultats de complexité via la théorie de fonctions auto-concordantes (en). La méthode du Lagrangien augmenté a été rajeunie par les systèmes d'optimisation LANCELOT, ALGENCAN ^[4] et AMPL, qui ont permis d'utiliser des techniques de matrices creuses sur des problèmes apparemment denses mais "partiellement séparables". La méthode est toujours utile pour certains problèmes. Vers 2007, il y a eu une résurgence des méthodes du lagrangien augmenté dans des domaines tels que le débruitage à variation totale et la détection compressée. En particulier, une variante de la méthode lagrangienne augmentée standard qui utilise des mises à jour partielles (similaire à la méthode de Gauss-Seidel pour résoudre des équations linéaires) connue sous le nom d'algorithme des directions alternées des multiplicateurs ou MDAM a attiré l'attention.

Méthode générale

On cherche à résoudre le problème sous contraintes suivant :

\min f(\mathbf {x} )

sous conditions

c_{i}(\mathbf {x} )=0~\forall i\in {\mathcal {E}},

où ${\mathcal {E}}$ désigne les indices des contraintes d'égalité. Ce problème peut être résolu comme une série de problèmes de minimisation sans contrainte. Pour référence, on liste d'abord la k^e étape de l'approche de la méthode de pénalité :

\min \Phi _{k}(\mathbf {x} )=f(\mathbf {x} )+\mu _{k}~\sum _{i\in {\mathcal {E}}}~c_{i}(\mathbf {x} )^{2}.

La méthode de pénalité résout ce problème, puis à l'itération suivante, elle résout à nouveau le problème en utilisant une plus grande valeur de $\mu _{k}$ (et en utilisant l'ancienne solution comme estimation initiale ou "démarrage à chaud").

La méthode du lagrangien augmenté utilise l'objectif non contraint suivant :

\min \Phi _{k}(\mathbf {x} )=f(\mathbf {x} )+{\frac {\mu _{k}}{2}}~\sum _{i\in {\mathcal {E}}}~c_{i}(\mathbf {x} )^{2}+\sum _{i\in {\mathcal {E}}}~\lambda _{i}c_{i}(\mathbf {x} )

et après chaque itération, en plus de la mise à jour des $\mu _{k}$ , la variable $\lambda$ est également mise à jour selon la règle

\lambda _{i}\leftarrow \lambda _{i}+\mu _{k}c_{i}(\mathbf {x} _{k})

où $\mathbf {x} _{k}$ est la solution du problème sans contrainte à la k^e étape, c'est-à-dire $\mathbf {x} _{k}={\text{argmin}}\Phi _{k}(\mathbf {x} )$

La variable $\lambda$ est une estimation du multiplicateur de Lagrange, et la précision de cette estimation s'améliore à chaque étape. L' avantage majeur de la méthode est que contrairement à la méthode de pénalisation, il n'est pas nécessaire de prendre $\mu \rightarrow \infty$ afin de résoudre le problème sous contraintes initial. Au lieu de cela, en raison de la présence du terme de multiplicateur de Lagrange, $\mu$ peut rester beaucoup plus petit, évitant ainsi le mauvais conditionnement. Néanmoins, il est courant dans les implémentations pratiques de projeter les estimations des multiplicateurs dans un grand ensemble borné (sauvegardes), évitant les instabilités numériques et conduisant à une forte convergence théorique.

La méthode peut être étendue pour gérer les contraintes d'inégalité .

Méthode des directions alternées

Article détaillé : Algorithme des directions alternées.

La méthode des directions alternées est une variante du schéma du lagrangien augmenté qui utilise des mises à jour partielles pour les variables duales. Cette méthode est souvent appliquée pour résoudre des problèmes tels que

\min _{x}f(x)+g(x).

Ceci est équivalent au problème contraint

\min _{x,y}f(x)+g(y),\quad {\text{avec }}\quad x=y.

Bien que ce changement puisse sembler anodin, le problème peut maintenant être envisagé en utilisant des méthodes d'optimisation sous contraintes (en particulier, la méthode du lagrangien augmenté), et la fonction objectif est séparable en x et y. La double mise à jour nécessite de résoudre une fonction de proximité en x et y en même temps ; la technique ADA permet de résoudre approximativement ce problème en résolvant d'abord pour x avec y fixe, puis en résolvant pour y avec x fixe. Plutôt que d'itérer jusqu'à avoir convergé (comme la méthode de Jacobi), l'algorithme procède directement à la mise à jour de la variable duale, puis à la répétition du processus. Ce n'est pas équivalent à la minimisation exacte, mais on peut quand même montrer que cette méthode converge vers la bonne réponse sous certaines hypothèses. Du fait de cette approximation, l'algorithme se distingue de la méthode du lagrangien augmenté pure.

L'ADA peut être considéré comme une application de l'algorithme de Douglas-Rachford, et l'algorithme de Douglas-Rachford est à son tour une application de l'algorithme du point proximal^[5]. Il existe plusieurs progiciels modernes qui résolvent la poursuite de base et se variantes et utilisent l'ADA ; ces packages incluent YALL1 ^[6] (2009), SpaRSA ^[7] (2009) et SALSA ^[8] (2009). Il existe également des packages qui utilisent l'ADA pour résoudre des problèmes plus généraux, dont certains peuvent exploiter plusieurs cœurs de calcul SNAPVX ^[9] (2015), parADMM ^[10] (2016).

Optimisation stochastique

L'optimisation stochastique considère le problème de la minimisation d'une fonction de perte avec accès à des échantillons bruités (du gradient) de la fonction. Le but est d'avoir une estimation du paramètre optimal (minimiseur) pour chaque nouvel échantillon. L'ADA est à l'origine une méthode groupée. Cependant, avec quelques modifications, elle peut également être utilisée pour l'optimisation stochastique. Étant donné que dans le cadre stochastique, on n'a accès qu'à des échantillons bruités de gradient, on utilise une approximation inexacte du lagrangien comme

{\hat {\mathcal {L}}}_{\rho ,k}=f_{1}(x_{k})+\langle \nabla f(x_{k},\zeta _{k+1}),x\rangle +g(y)-z^{T}(Ax+By-c)+{\frac {\rho }{2}}\Vert Ax+By-c\Vert ^{2}+{\frac {\Vert x-x_{k}\Vert ^{2}}{2\eta _{k+1}}},

où $\eta _{k+1}$ est une taille de pas temporel variable^[11].

La méthode des directions alternées est une méthode populaire pour l'optimisation en ligne et distribuée à grande échelle^[12], et est utilisée dans de nombreuses applications ^[13]^,^[14]. L'ADA est souvent appliqué pour résoudre des problèmes régularisés, où l'optimisation et la régularisation de la fonction peuvent être effectuées localement, puis coordonnées globalement via des contraintes. Les problèmes d'optimisation régularisés sont particulièrement pertinents dans le régime de haute dimension puisque la régularisation est un mécanisme naturel pour surmonter le caractère mal-posé et pour encourager la parcimonie dans la solution optimale, par exemple, pour une matrice creuse et de faible rang. En raison de l'efficacité de l'ADA dans la résolution de problèmes régularisés, il a un bon potentiel d'optimisation stochastique en grandes dimensions.

Approches alternatives

Programmation quadratique séquentielle
Programmation linéaire séquentielle
Programmation séquentielle linéaire-quadratique

Articles connexes

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Augmented Lagrangian method » (voir la liste des auteurs).

↑ Hestenes, « Multiplier and gradient methods », Journal of Optimization Theory and Applications, vol. 4, n^o 5,‎ 1969, p. 303–320 (DOI 10.1007/BF00927673, S2CID 121584579)
↑ M. J. D. Powell, Optimization, New York, Academic Press, 1969, 283–298 p. (ISBN 0-12-260650-7), « A method for nonlinear constraints in minimization problems »
↑ Dimitri P. Bertsekas, Constrained optimization and Lagrange multiplier methods, Athena Scientific, 1996 (1^re éd. 1982)
↑ Andreani, Birgin, Martínez et Schuverdt, « On Augmented Lagrangian Methods with General Lower-Level Constraints », SIAM Journal on Optimization, vol. 18, n^o 4,‎ 2007, p. 1286–1309 (DOI 10.1137/060654797, lire en ligne)
↑ Eckstein et Bertsekas, « On the Douglas—Rachford splitting method and the proximal point algorithm for maximal monotone operators », Mathematical Programming, vol. 55, n^os 1–3,‎ 1992, p. 293–318 (DOI 10.1007/BF01581204, S2CID 15551627, CiteSeer^x 10.1.1.141.6246)
↑ « YALL1: Your ALgorithms for L1 », yall1.blogs.rice.edu
↑ « SpaRSA », www.lx.it.pt
↑ « (C)SALSA: A Solver for Convex Optimization Problems in Image Recovery », cascais.lx.it.pt
↑ « SnapVX », snap.stanford.edu
↑ « parADMM/engine », 6 février 2021
↑ Ouyang, H., He, N., Tran, L. et Gray, A. G, « Stochastic alternating direction method of multipliers », Proceedings of the 30th International Conference on Machine Learning,‎ 2013, p. 80–88
↑ Boyd, S., Parikh, N., Chu, E. et Peleato, B., « Distributed optimization and statistical learning via the alternating direction method of multipliers », Foundations and Trends{\textregistered} in Machine Learning, vol. 3, n^o 1,‎ 2011, p. 1–122 (DOI 10.1561/2200000016, CiteSeer^x 10.1.1.360.1664)
↑ Esser, E., Zhang, X. et Chan, T., « A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science », SIAM Journal on Imaging Sciences, vol. 3, n^o 4,‎ 2010, p. 1015–1046 (DOI 10.1137/09076934X)
↑ Mota, J. FC, Xavier, J. MF, Aguiar, P. MQ et Puschel, M., « Distributed ADMM for model predictive control and congestion control », Decision and Control (CDC), 2012 IEEE 51st Annual Conference O,‎ 2012, p. 5110–5115 (ISBN 978-1-4673-2066-5, DOI 10.1109/CDC.2012.6426141, S2CID 12128421)

Bibliographie

Dimitri P. Bertsekas, Nonlinear Programming, Belmont, Mass, Athena Scientific, 1999 (ISBN 978-1-886529-00-7)
E. G. Birgin et J. M. Martínez, Practical Augmented Lagrangian Methods for Constrained Optimization, Philadelphia, Society for Industrial and Applied Mathematics, 2014 (ISBN 978-1-611973-35-8, DOI 10.1137/1.9781611973365 )
Jorge Nocedal et Stephen J. Wright, Numerical Optimization, Berlin, New York, Springer-Verlag, 2006 (ISBN 978-0-387-30303-1)

Portail de l'analyse

[1] Hestenes, « Multiplier and gradient methods », Journal of Optimization Theory and Applications, vol. 4, n^o 5,‎ 1969, p. 303–320 (DOI 10.1007/BF00927673, S2CID 121584579)

[2] M. J. D. Powell, Optimization, New York, Academic Press, 1969, 283–298 p. (ISBN 0-12-260650-7), « A method for nonlinear constraints in minimization problems »

[3] Dimitri P. Bertsekas, Constrained optimization and Lagrange multiplier methods, Athena Scientific, 1996 (1^re éd. 1982)

[4] Andreani, Birgin, Martínez et Schuverdt, « On Augmented Lagrangian Methods with General Lower-Level Constraints », SIAM Journal on Optimization, vol. 18, n^o 4,‎ 2007, p. 1286–1309 (DOI 10.1137/060654797, lire en ligne)

[5] Eckstein et Bertsekas, « On the Douglas—Rachford splitting method and the proximal point algorithm for maximal monotone operators », Mathematical Programming, vol. 55, n^os 1–3,‎ 1992, p. 293–318 (DOI 10.1007/BF01581204, S2CID 15551627, CiteSeer^x 10.1.1.141.6246)

[6] « YALL1: Your ALgorithms for L1 », yall1.blogs.rice.edu

[7] « SpaRSA », www.lx.it.pt

[8] « (C)SALSA: A Solver for Convex Optimization Problems in Image Recovery », cascais.lx.it.pt

[9] « SnapVX », snap.stanford.edu

[10] « parADMM/engine », 6 février 2021

[11] Ouyang, H., He, N., Tran, L. et Gray, A. G, « Stochastic alternating direction method of multipliers », Proceedings of the 30th International Conference on Machine Learning,‎ 2013, p. 80–88

[12] Boyd, S., Parikh, N., Chu, E. et Peleato, B., « Distributed optimization and statistical learning via the alternating direction method of multipliers », Foundations and Trends{\textregistered} in Machine Learning, vol. 3, n^o 1,‎ 2011, p. 1–122 (DOI 10.1561/2200000016, CiteSeer^x 10.1.1.360.1664)

[13] Esser, E., Zhang, X. et Chan, T., « A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science », SIAM Journal on Imaging Sciences, vol. 3, n^o 4,‎ 2010, p. 1015–1046 (DOI 10.1137/09076934X)

[14] Mota, J. FC, Xavier, J. MF, Aguiar, P. MQ et Puschel, M., « Distributed ADMM for model predictive control and congestion control », Decision and Control (CDC), 2012 IEEE 51st Annual Conference O,‎ 2012, p. 5110–5115 (ISBN 978-1-4673-2066-5, DOI 10.1109/CDC.2012.6426141, S2CID 12128421)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]