Une version simplifiée du théorème de Gauss Bonnet

Mis en avant

Un très beau résultat en géométrie différentielle et que j’aime beaucoup est le théorème de Gauss Bonnet qui s’énonce ainsi: « Pour toute surface S fermée, l’intégrale de sa courbure K est égale à 2 pi fois sa caractéristique d’Euler (nombre de faces – nombre d’arêtes + nombre de sommets)

Ici nous présentons une version un peu simplifiée du théorème de Gauss Bonnet dont l’énoncé et la preuve sont élémentaires. Ils peuvent être présentés à des élèves de collège ou de lycée et donc constitue à mes yeux un sujet parfait pour un exposé de vulgarisation mathématique.

Un petit résultat intermédiaire

Pour un polygone à N cotés la somme des angles vaut (N-2) fois pi. En effet faisons le tour de ce polygone dans le sens des aiguilles d’une montre. Après un tour complet la somme des tournants t(i) vaut toujours 2 pi ceci quelque soit le nombre de tournants réalisés. L’angle a(i) de chaque sommet est égale à pi moins t(i) et on a donc la somme des a(i) est égale à N*pi moins la somme des t(i) soit N*pi-2*pi. Cet exemple n’est pas anodin, car les tournants sont l’équivalent de la courbure en dimension 1.

Les coins alias les défauts d’angles

Considérons maintenant des polyèdre en 3 dimensions. Peut-on définir sur ses sommets une notion de coin? Quelque chose d’équivalent aux angles en 2 dimension et qui mesure de combien le sommet est pointu? Une réponse fut proposée par Descartes. Pour un sommet A, on considère les faces f du polyèdre adjacente à A et leur angle a(f) en ce sommet. On définit alors le coin c(A) (disons aussi le défaut d’angle) comme 2*pi moins la somme de ces angles a(f).

Exemples

  • Pour un cube, Les trois angles valent pi/2 et donc c(A)=2*pi-3*pi/2=pi/2.
  • Pour un tétraèdre régulier : les trois angles valent pi/3, et donc c(A)=2*pi-3*pi/3=pi.

 

Remarquez qu’il peut y avoir des coins négatifs. Cependant cela ne dépend pas si le coin est s’enfonce ou non dans la figure. Par exemple le coin ci dessous est bien positif. Pour voir si un coin est positif ou négatif on déplie le patron de la figure. Si sur le patron les faces autour du sommet ne se recouvrent pas alors la somme des angles est inférieur à 2 pi et au contraire si elles se recouvrent alors elle est supérieur à 2*pi.

 

Les coins et la caractéristique d’Euler

Quand est il de la somme des coins du polyèdre? On peut reprendre les exemples précédents:

  • Pour le cube, on a 8 sommets, chacun d’un coin égale à pi/2, la somme des coins vaut alors 8*pi/2=4*pi
  • Pour le tétraèdre, on a 4 sommets dont chacun a un coin égale à
    pi et donc la somme vaut 4*pi.

Remarquez que l’on retrouve bien à chaque fois la surface de la sphère. On peut montrer ce théorème de Gauss Bonnet simplifié :

Soit un polyèdre P, alors la somme de ses coins est égale à 2*pi fois sa caractéristique d’euler.

PREUVE:

Le deuxième terme est la somme de tous les angles du polyèdre, c’est donc aussi la somme sur toutes les faces f de la somme des angles de cette face et alors:

avec N(f) le nombre de cotés de la face f. Dans cette somme chaque arête du polyèdre est comptée 2 fois, et elle est donc égale à 2*A  (A le nombre d’arête du polyèdre). Et on peut conclure : la somme des coins vaut bien 2*pi*(F-A+S).

Des surfaces avec trous et sans trous

La caractéristique d’Euler est un des invariants topologique les plus connus, elle permet notamment de classifier les surfaces de dimension 2. Remarquez que pour les polyèdres, la caractéristique d’Euler est bien invariante si on les complexifie en découpant les faces, en ajoutant des sommets ou en déformant la figure. On peut énoncer le résultat suivant : la somme des coins d’un solide (sans trou) vaut toujours 4*pi. Dans le cas général la caractéristique d’Euler vaut 2 moins 2 fois le nombre de « trous ».

Par exemple sur les figures suivantes la somme des coins est égale à 0 et -4*pi:

 

Vers la version continue? Considérons une surface lisse. On peut tout à fait l’approximer par un polyèdre ayant de plus en plus de faces. La somme des coins se comporte alors comme une somme de Riemann qui converge vers l’intégrale de la courbure.

 …  … …  

(somme des coins = intégrale de la courbure = 4*pi)

Et le théorème remarquable de Gauss?}

Il est difficile de parler de Gauss et de courbure sans mentionner le « Theorema egregium » (théorème remarquable) qui affirme que la courbure est invariante par isométrie locale. Énonçons en une variante (très) simplifiée pour les coins :

Soit un polyèdre P qui ne possède que des faces triangulaires, Tout transformation en un polyèdre P’ qui conserve les longueurs des arêtes conserve également la valeur des coins.

La preuve est élémentaire: les longueurs sont conservées, donc les
angles des triangles sont conservés donc par définition les coins
sont conservés.
Par exemple les deux figures précédentes avec le coins qui s’enfonce dans le cube ont les mêmes coins.

Trois petites fables en économie

L’économie en tant que modélisation du monde réel semble souvent impossible à appréhender rigoureusement tant le nombre de paramètres est important et dépend facteurs sociaux ou politiques. Proposer un modèle en économie reviens plutôt à raconter une «fable» : une histoire simple, peut-être avec une morale à fin, et qui illustre le propos plutôt que de donner une argumentation très détaillée.

Ici je présente trois petites «fables» en lien avec des résultats mathématiques que je trouve intéressants.

 

L’algorithme hongrois, un argument néo-libéral ?

Une répartition optimale

Considérons un tableau N par N avec des entrées positives et choisissons N cases de telle sorte qu’il y en ait exactement une sur chaque ligne et chaque colonne. Comment trouver la configuration qui minimise la somme des cases choisies ? Il y a plusieurs illustrations/motivation à ce problème. Par exemple, on peut penser à un ensemble de travailleurs ayant des compétences différentes et une liste de taches à réaliser. On aimerait alors donner une répartition des taches qui correspond au mieux les compétences des travailleurs.


Bien sur il est possible ici de tester toutes les possibilités mais ce nombre devient vite trop important lorsque le tableau est un peu grand. Le but du jeu est donc de trouver un algorithme efficace. L’idée de l’algorithme hongrois repose sur les deux observations suivantes:

  • Si il est possible de choisir une configuration uniquement avec des cases de valeur nulle alors c’est terminé et le coût total est nul.
  • Si on modifie le tableau en ajoutant une même valeur sur toute une ligne ou sur tout une colonne alors on obtient un problème équivalent

En effet cela revient à ajouter une constante au coût total et on ne modifie donc en rien le problème de minimisation : la configuration minimale reste la même. Le principe de l’algorithme est d’ajuster ces valeurs P et Q de manière itérative de telle sorte à obtenir suffisamment de zéro dans le tableau pour se retrouver le premier cas. Sans entrer dans le détail des différentes étapes de l’algorithme voici juste faire quelques remarques. Ce qui rend l’algorithme intéressant d’un point de vue de l’économie est qu’il semble assez similaire au mécanisme de l’offre et la demande avec une fluctuation des prix. Chaque travailleur (=ligne) commence par postuler pour la(-es) taches qui lui conviendrait le mieux et de même pour chaque tache (ligne) une proposition est envoyée au(x) travailleur(s) le mieux qualifié pour la tache. Ensuite si un travailleur reçoit plusieurs propositions il augmente légèrement ses tarifs et inversement il les diminue si il ne voit proposer aucune tache. (=augmenter ou diminuer toute une ligne) De même on augmente ou diminue de prix pour une tache si elle est très demandée ou si au contraire ne trouve pas de travailleurs (=augmenter ou diminuer toute une colonne). Au bout d’un certain temps, on aboutit à une situation où chaque travailleur a bien une tache associée.

Une variante plus souple du problème

On peut s’intéresser à une variante “plus souple” du problème où on ne suppose pas que la répartition soit purement 0 ou 1 mais peut avoir une distribution continue. Formellement on a deux ensembles fini E, F et deux distributions
µ et ν. On cherche à minimiser parmi toutes les distribution π sur E × F le coût total donné par

Il s’agit ici d’un problème très classique qui a même plus ou moins créé tout le domaine de recherche du transport optimal. Comme exemple de motivation Il s’agit de transporter une certaine quantité de matière première initialement répartie dans différents entrepôts qu’il faut transporter vers différentes usines. Ici π(x, y) représente la quantité de matière transportée de x à y et c(x, y) représente le coût unitaire pour ce trajet. L’astuce ici est de relâcher les conditions sur π et de les remplacer par une pénalité de paramètre λ

Si la pénalité est suffisamment grande on retrouve le problème initiale. L’intérêt cependant est que ce problème est plus facile à résoudre. On écrit la
jacobienne

et on a bien ici les 2 points de l’algorithmes hongrois :

  • la répartition qui minimise C(λ, π) ne remplit que les cases telles que j(x, y) = 0.
  • j(x, y) = c(x, y) + P (x) + Q(y).

le tableau c et la distribution minimisant C(λ, π) pour λ = 10, 30 et 90.

Le message de ce post est le suivant : l’algorithme «offre et la demande» est mis en pratique tous les jours, souvent de manière inconsciente et que l’organisation de l’économie dans son ensemble repose en grande partie sur lui. Il faut reconnaître que celui ci est assez remarquable : à la fois très simple et décentralisé tout en étant très efficace dans le sens où il donne la solution optimale dans un temps très raisonnable au problème de la répartition. L’inconvénient par contre est que la matrice de coût reflète souvent les inégalités déjà existantes, inégalités se retrouvant alors dans la solution proposée. Aussi bien sur, il y a beaucoup d’autres questions que celui de la répartition à traiter et la solution ainsi proposée peut ne pas être du tout la meilleur selon ces autres critères.

 

Jeux d’argents et théorie des martingales

Dans une salle, N joueurs se réunissent et jouent au jeu d’argent suivant. À
chaque temps deux joueurs sont tirés au sort et ils parient l’un contre l’autre
sur un pile ou face (équilibré). La mise est fixé à r×l’argent du joueur le pauvre
avec 0 < r < 1. Au temps long comment évolue le système ?

Une martingale

Comme le jeu est équilibré, l’argent de chaque joueur est une martingale et on
a le très beau théorème

«Une martingale bornée converge presque surement».

Dans le cas présent, il n’y a qu’un seul comportement asymptotique possible :
tous les joueurs repartent ruinés sauf un qui rafle toute la mise.


Simulation numérique avec 6 joueurs, p = 0.3 et une quantité total d’argent initiale égale à 1.

De plus comme en espérance un joueur ne gagne rien ni ne perd rien, la
probabilité d’être celui qui repart avec toute la mise ne dépend que de sa mise
initiale argent initial.

Ce qu’il y a de très élégant dans ce résultat c’est qu’il est en fait complète-
ment indépendant du jeux de hasard considéré. La seule règle est que le jeu
soit équitable. On peut même proposer aux joueurs de changer de jeux, de
choisir leurs adversaires et leurs mises et de les laisser élaborer des «stratégies».
À la fin la conclusion reste la même : un seul gagnant et avec une probabilité
simplement proportionnelle à la mise initiale.

De l’inégalité parmi les hommes

Naïvement on pourrait affirmer que comme le jeu est équilibré il n’a pas d’influence
sur les inégalités. Ceci est bien sur faux au vu du paragraphe précédent mais
on peut proposer un argument plus général. Une manière usuelle de mesurer
les inégalités parmi n personnes est de construire un indicateur en utilisant une
fonction convexe f .

Pour un exemple réellement utilisé en pratique :

On a l’affirmation suivante : Pour des jeux équilibré, par Jensen

I(X) est une sous-martingale : en espérance elle augmente à chaque tirage aléatoire.

La morale de la fable pourrait donc être la suivante : tous les jeux : casino, paris
sportifs ou jeu en bourse s’il se disent «équilibrés» ont pour impact d’augmenter
les inégalités.

 

Une simple matrice pour l’inflation

On considère un modèle extrêmement simple pour représenter l’économie. Le
tout est un grand graphe orienté G = (S, A) où chaque «agent économique» est
représenté par un sommet, deux sommets sont connectés si il y a un «échange
commerciale» entre les deux et l’orientation indique qui est «client» ou «fournisseur».
À cela on ajoute une matrice de réponse R qui décrit le comporte-
ment de chaque agent lorsqu’il est subit à une hausse de prix. La règle est
simple : si l’agent voit ses frais augmenter il les répercute sur chacun de ses clients en augmentant ses prix proportionnellement et données par les entrées de la matrice R .
On peut regarder ce que donne ce modèle dynamiquement avec un temps discret. On part d’une situation à l’équilibre et la perturbe avec une augmentation. À chaque temps, les agents mettent à jour leurs prix et créent une nouvelle augmentation.

En cumulée, l’augmentation total par rapport à la situation initiale est alors

et la réponse au temps long dépend du rayon spectral de la matrice R.

  • Si celui ci est inférieur à 1, alors on a simplement la convergence vers

  • Si celui ci est égale à 1, alors asymptotiquement les prix augmentent de manière continue et régulière. Un cas particulier et très naturel est justement de supposé R une matrice stochastique : la somme sur chaque ligne est égale à 1 qui correspond au cas les agents répercutent l’augmentation complètement sur leur clients.
  • Un dernier cas est si R admet une valeur propre λ > 1 (si les agents anticipent la hausse des prix par exemple) on a alors une inflation qui explose de manière exponentielle.

Mécanique Bohmienne et potentiel vecteur

Le message de ce post est le suivant : Pour un electron, la Théorie de
De Broglie-Bohm est simplement un choix particulier de Jauge pour le groupe
d’invariance U (1) et dans ce cas l’onde pilote s’identifie avec le potentiel vecteur
de électromagnétisme.

Le groupe de Jauge U(1)

Écrivons l’équation de Schrödinger pour un electron avec le terme électromagnétique (avec e = h̄ = m = 1).

Cette équation est invariante par l’action du groupe de Jauge U (1). C’est à dire
qu’ avec le changement suivant

on retrouve l’équation de Schrödinger initiale

La mécanique Bohmienne

Pour obtenir la mécanique Bohmienne pour un électron, il suffit d’imposer la condition que ψ̂ est réelle. Sous cette condition on a

et on obtient une équation de continuité pour la densité de courant


Ici la densité de probabilité s’écoule le long des ligne du potentiel vecteur Â.
Celui ci cependant n’est pas fixe mais évolue avec le choix de Jauge. Cette image
est assez jolie : Par exemple pour une particule chargée dans un champs magnétique
puisque celle ci suit le vecteur potentiel et que B = rot( Â), la particule tourne
autour de l’axe du champs magnétique. Autre exemple, pour l’expérience de
Aharonov Bohm cela accentue encore la perspective : Le vecteur potentiel décrit
la dynamique de la particule mais est bien sur également sensible au champs
magnétique au centre de l’expérience.

Invariance de Jauge U(1)

On a

et ensuite

et finalement

Évolution pour la condition de Jauge

La condition de Jauge implique

et donc

Le terme qui apparaît à la fin de cette équation est appelé le « potentiel quantique de la mécanique Bohmienne ».

Un peu de probabilité en arithmétique

Tous les élèves de lycée connaissent le théorème fondamental de l’arithmétique
à savoir que l’on peut décomposer tout entier n en produit de puissance de nombres premiers

Ce que les lycéens n’apprennent pas par contre c’est “Comment choisir un entier
aléatoirement ?” Il est vrai qu’à première vue cette question semble ne pas avoir
de sens. D’un côté on peut arbitrairement construire une infinité de mesures de
probabilité mais par contre il n’existe pas de “loi uniforme” sur tous les entiers.
Le message de ce post est que malgré tout, si on veut faire de l’arithmétique,
une certaine famille de lois aléatoires est un peu préférables aux autres.

LES “LOIS ZETA”

La loi considérée est la suivante

où la fonction zêta de Riemann apparaît ici de tel sorte que la somme des
probabilités soit bien égale à 1. Sa propriété la plus remarquable est la suivante
Sous cette loi ci les valeurs p-adique de X sont indépendantes et de loi géométrique.

Il est possible de vérifier cette propriété directement par calcul mais je vais
plutôt présenter une analogie intéressante avec la physique statistique.
Sur les entiers on introduit le Hamiltonien définit simplement par le logarithme par et on considère l’ensemble canonique :

Cela redonne bien la loi précédente. On peut remarquer ici que H a
la forme d’une simple somme dans la décomposition en valeur p-adique. En physique on dirait qu’il n’y a pas d’interactions et donc que les sous systèmes associés à chaque valeur p-adique sont indépendants. On a aussi directement la factorisation de la loi et donc l’indépendance :


On peut calculer la fonction de partition du sous système associé au facteur
premier p :

Puisque les systèmes sont indépendants la fonction de partition du système
total est simplement le produit des fonctions de partition des sous systèmes.
On retrouve ici la forme du produit Eulérien pour la fonction zêta

Diviseur et PGCD

Une autre propriété remarquable est que pour la divisibilité, on a simplement

On peut également s’intéresser au PGCD de deux telles variables aléatoires indépendantes X et Y de paramètre β et γ. Dans ce cas, le PGCD est alors aussi
une “loi zêta” de paramètre β + γ. Preuve : Les valeurs p-adiques restent indépendantes et on a

Une dernière motivation que l’on peut mentionner est la limite lorsque β → 1.
L’heuristique est qu’elle devrait d’une certaine manière converger vers la “loi
uniforme sur tous les entiers”. Plus précisément, on aimerait pouvoir affirmer
qu’on obtient les mêmes asymptotiques que d’autres lois qui “convergent vers
la loi uniforme”, par exemple {1, 2, · · · , N } lorsque N → ∞, . Typiquement

Fonction multiplicative et indépendance

Comme autre exemple d’application de l’indépendance des valeurs p-adique pour les lois zêta, voici quelques formules assez surprenantes lorsque l’on les voit pour la première fois.


où φ et µ sont les fonctions indicatrice d’Euler et de Möbius.
En arithmétique on appelle “fonction multiplicative” les fonction qui satisfont
f (pq) = f (p)*f (q) pour tout p, q premiers entre eux. Avec la décomposition en
facteurs premiers on a directement

Comme pour une loi zêta les valeurs p-adique sont indépendantes, on a alors directement

Pour la fonction de Möbius on a

et donc

Pour la fonction indicatrice d’Euler on a

et donc

 

Convolution de Dirichlet comme produit de variables indépendantes

Le produit de convolution de Dirichlet donne la loi de la multiplication z=xy de deux variables entières x et y indépendantes.

Par indépendance on a

ce qui se réécrit

Cette ”Transformé de Fourier” sur les entiers se comporte vis à vis de la convolution de Dirichlet de la même manière que la transformé de Fourier et convolution usuelles sur les fonctions réelles . Plus généralement on a pour le produit de convolution de Dirichlet

Épilogue

Je termine ce post par une remarque : Tout ce que a été fait ici utilise la
décomposition en nombres premiers mais pas leurs valeurs particulières. On ne
donc pas utiliser ces outils pour estimer la répartition des nombres premiers…
à moins d’avoir d’autres moyen d’estimer la fonction ζ !

Une autre dessin pour la relativité générale ?

On a tous vu de nombreuse fois ces images pour illustrer les principes de relativité générale : la terre déforme l’espace-temps autour d’elle de la même manière qu’une boule de pétanque posée sur un drap élastique. L’analogie continue en ajoutant une petite bille dont la trajectoire est déviée, suivant la déformation du drap, lorsqu’elle passe à coté de la terre. C’est la gravitation.

Le but de ce poste est de proposer une autre image pour illustrer la théorie d’Einstein, un peu moins parlante mais plus fidèle d’un point de vue mathématique. De fait il est très difficile de dessiner la relativité générale. Il s’agit d’un espace courbé à 4 dimensions et l’équation possède 10 variables libres. Tout cela sera donc simplifier au maximum

L’équation d’Einstein

Une toupie Pour la dimension 1+1

Ici je me restreint à une dimension d’espace et à une dimension de temps (d=1+1). En dimension 2 ,il n’y a qu’un paramètre libre pour le tenseur de Riemann à savoir la K la courbure de Gauss et pour coller avec les équations d’Einstein on supposera que celle ci est proportionnelle à la densité de masse
Quel est alors l’influence d’une masse immobile dans l’espace que l’on nommera “terre”? Puisque l’on considère la dimension du temps, la terre n’est pas un point mais une droite en fixant le centre à 0 elle est décrite par T={(0,t),t ∈ R} .
La position de la terre décrite par x=0
La courbure est alors égale à m sur cette droite et nulle ailleurs. Paradoxalement le reste de l’espace est “plat” c’est à dire de courbure nulle. Si on cherche maintenant en géométrie une surface qui correspond on peux proposer une toupie formée de deux cônes identiques collés bout à bout.
La terre placée sur la couronne de la toupie représentant espace-temps.
En effet sur cette toupie la courbure vaut
 avec R le rayon du grand cercle au centre et α l’angle que forme les deux parties du cône au niveau de la couronne. Remarquer que la courbure sur chaque cône est bien nulle comme on peut l’aplatir sur une table. En oubliant les pointes on a ici une solution à notre équation d’Einstein 2D en faisant correspondre m ∼ 2α/R .
Concrètement une masse grande correspond à une toupie très aplatie et une petite masse correspond à une toupie très allongée jusqu’à la limite m=0 vers un cylindre (qui est une surface complètement plane.

Un exemple de dynamique

Maintenant que nous avons la géométrie (alias le champs de gravitation) nous pouvons nous intéresser à la dynamique. Regardons donc l’évolution d’une petite bille lâchée librement dans ce système. Il s’agit ici de tracer une géodésique sur la toupie. Pour cela il suffit de déplier le patron de la figure, la géodésique est alors une simple ligne droite.
Sur le patron de la toupie, la trajectoire de la bille partant de la terre puis retombant dessus.
En notant (r, θ ) la position sur le cône et R*=R/sin α le rayon du cône On obtient avec un peu de trigonométrie.
Si ce résultat n’est pas forcement très parlant on peut supposer R*-1t et β petits, faire un développement limité et le comparer avec le cas classique (accélération = g =constante)
et on peut donc bien identifier

La Température et le Théorème de Cramer

Lorsque l’on considère une sommes de variables indépendantes et identiquement distribuées, on pense d’abords à la loi des grands nombres puis au théorème centrale limite. En troisième position, bien que moins connus viennent les principes de grandes déviations qui affirment que la probabilité d’observer un écart significatif par rapport à la moyenne est exponentiellement petit. Les principes de grandes déviations sont également omniprésent en thermodynamique. Pour illustrer cela je refait ici pas à pas la démonstration du Théorème de Cramer.

Celle ci fait utilise plusieurs idées et notions qui ont leurs analogue en physique et que j’explicite ci dessous.

La borne supérieure et l’énergie libre

Par inégalité de Markov on a

et donc

Il convient ensuite de choisir le βE qui minimise le terme de droite pour obtenir la borne supérieure. Chaque terme ici a son importance et une signification physique. Je note

Quelques remarques :

  1. Boltzmann définit l’entropie comme kB log |Ω|. Ici on peut imaginer Ω comme un sous ensemble d’un plus grand ensemble Ω0 fixé et qu’il y a la probabilité associée  (Ω) = |Ω|/|Ω0|. La définition ci dessus = log (Ω) est alors essentiellement la même (aux constantes près).
  2. Le second principe de la thermodynamique : “le système maximise l’entropie” peut aussi être vu ici de manière quantitative comme “La probabilité d’observer un écart avec le maximum d’entropie est exponentiellement petite”.
  3. Le lien entre l’entropie et l’énergie libre via la transformé de Legendre apparait explicitement dans le Théorème de Cramer et on a bien la relation

La borne inférieure et la loi de Gibbs

L’idée ici consiste à modifier la loi aléatoire selon

avec une fonction positive. L’astuce ici est que les lois conditionnelles à la somme restent inchangées :

Ceci est bien sur une évidence mais cela signifie que si on s’intéresse à (X)i par exemple conditionnellement à ce que la somme soit égale à NE, on dispose d’une certaine liberté pour modifier la loi aléatoire. Un bon choix est alors

car alors les Xi restent alors des variables iid.

La deuxième astuce est de choisir β de telle sorte que pour cette nouvelle mesure, la moyenne de X soit égale à E. Cela correspond au même β βE que pour la borne supérieure. L’intérêt est qu’ici, par la loi des grand nombre, la somme des Xi  divisé par N converge vers E avec f-grande probabilité. On s’attend alors à ce que en conditionnant à l’égalité entre la somme et Non ne change pas trop la loi des (Xi):

D’un point de vue physique, ce changement de mesure de probabilité est ce qu’on appelle la distribution de Boltzmann (ou distribution de Gibbs). Cette dernière est omniprésente dans toute la physiques statistiques et décrit parfaitement le comportement de gaz ou de réactions chimiques. Elle peux même servir de définition à la notion de température : un système est à telle température ssi sa statistique obéit celle de Boltzmann avec le paramètre correspondant. Mathématiquement il semble que cela va beaucoup plus loin que juste la preuve du Théorème de Cramer et reflète quelque chose de plus fondamental à savoir comment est modifiée la loi de chacune des variables aléatoires lorsque l’on conditionne à un événement exceptionnel.

Si tout ceci n’est pas tout à fait rigoureux on a tout de même que

par le théorème centrale limite et que d’un autre coté

Ce qui termine la preuve de la borne inférieure.

De la cryptographie partagée

Je présente ici une idée très jolie signée Adi Shamir (le “S” dans “RSA”). Celle ci a déjà fait l’objet d’un article sur le site d’Images des Maths et comme elle est superbe je me permet de la réexpliquer ici.

Un groupe et un coffre fort

Un groupe de personnes partage un coffre fort (avec codes à chiffre) et décide d’organiser ensemble la sécurité. Le premier membre propose de simplement donner le code à chacun. Mais le reste du groupe n’est pas d’accord car la sécurité ne serait alors pas très élevée. Il suffit d’un membre soit malhonnête pour que tout soit compromis. Le deuxième membre propose de diviser la clef de sécurité en morceau et d’en donner un à chacun à la même manière des pirates découpant une carte au trésor. La seule façon d’ouvrir le coffre est alors que le groupe tout entier se réunisse. Mais cette idée est également rejetée car contre trop contraignante. Si un membre n’est plus là ou si il a oublié son code, le contenu du coffre est perdu. Un troisième membre ne propose pas de solution mais fait alors remarquer que plusieurs personnes du groupe (mais on ignore lesquelles mais moins que (k-1)) se mettraient volontiers ensemble pour partager leurs informations et ouvrir le coffre au détriment du reste du groupe.
Tout le monde se met alors d’accord sur le cahier des charges suivant:
Si au moins k membres du groupe se réunissent ils doivent toujours être capables d’ouvrir le coffre mais si il n’y a seulement que (k-1) personnes, alors il doit leur être impossible de deviner la combinaison.”
La difficulté ici est qu’il faut ces conditions doivent être valides quelques soient les sous ensembles de k ou (k-1) personnes. Une solution très élégante utilise de l’algèbre linéaire et je la présente maintenant.

Un simple système linéaire

Soit une famille de n vecteurs de dimension k : (a1,…,an) telle que pour toute sous famille de k vecteurs forme une base. Le code consiste maintenant en un vecteur c de de dimension k. À la i-ème personne du groupe on donne comme information le vecteur ai et le réel bi = (ai,c). Pourquoi cela fonctionne ? Pour tout sous ensemble L on a un système avec |L| équations dont l’ensemble des solutions est un espace affine de dimension k-|L| et qui admet donc une infinité de solution pour |L|<k. Par contre avec k personnes il suffit de résoudre (par exemple avec le pivot de Gauss) un système à k équations et k inconnus dont, avec la propriété des (ai), admet une unique solution.
Voici un exemple avec groupe de n=5 personnes A,B,C,D et E et k=3.
Si on suppose que B,C et E se réunissent, ils obtiennent ensemble le système suivant qu’ils peuvent facilement résoudre.
Mais bien sur avec seulement les équations de B et C ou seulement celles de C et E, le système admettrait une infinité de solution.
Il reste la question de comment construire une telle famille de vecteurs ai.
Une première méthode un peu bête mais très efficace et de simplement tirer des vecteurs aux hasards. Puisque sur l’ensemble des matrices k par k, det = 0 est une sous variété de dimension inférieur, la probabilité de toucher cet espace est nulle avec une probabilité continu.
Une deuxième méthode (et celle proposée initialement) et de se placer dans l’espace des polynômes de degré k-1. Le code consiste en les coefficients d’un polynôme P et on donne comme information à chacun « (x,P(x)) » pour des valeurs x différents. Si on revient à notre exemple à 5 personnes, on pourrait avoir
Ceci satisfait les conditions du problème car le déterminant de Vandermond est non nul dès que les x sont différents. Ici résoudre le système est également facile en utilisant les polynômes d’interpolation de Lagrange.

Dérivée extérieure et équations de Maxwell

La dérivée extérieure

La propriété la plus remarquable de la dérivée extérieure est sans aucun doute le théorème de Stokes :
”l’intégrale de la forme différentielle sur le bord de la sous variété est égale à l’intégrale de sa dérivée extérieure sur l’intérieur de cette sous variété”. Cela pourrait même être la définition de la dérivée extérieure et celle ci a l’avantage de donner immédiatement l’intuition et la motivation de cette notion. De même que pour la notion “vitesse” la définition intuitive serait “la quantité qui intégré sur le temps donne la distance parcourue”, pour la dérivé extérieure dω on aurait “la forme différentielle de degré supérieur qui satisfait le théorème de Stokes”. Malheureusement si il est clair que la dérivée extérieure est une notion naturelle et centrale en analyse, que ce soit en physique, en géoscience, en analyse numérique et dans pleins d’autres domaines, on manipule constamment des champs de vecteurs sur des variétés en ne les traitant que comme un ensemble de fonctions réelles sans se poser la question de leurs natures mathématiques. Je trouve donc dommage d’ignorer au passages des très belles notions de géométrie différentielle ou topologie algébrique.
Le but de ce poste est d’écrire toute la théorie de Maxwell avec des dérivées extérieurs. Outre le fait que cette construction est extrêmement élégante. Elle illustre le fait que les formes différentielles et la dérivée extérieure (et la cohomologie de De Rham) sont naturelles et devraient être utilisées plus souvent.
Pour rappel : soit M une variété de dimension n . L’algèbre des formes différentielles Λ(M) est une algèbre graduée où la dérivée extérieure d va des k-formes différentielles au (k+1)-formes différentielles
Ces espaces pouvant aussi être vu comme un champs de vecteurs de dimension k parmi n. La propriété algébrique principale est sans aucun doute d○d=0 : Pour tout espace des k -formes, l’image de d est incluse dans le noyau de d . En un mot, tout le jeu de la cohomologie de De Rham est de comprendre quand a t-on l’égalité entre l’image et le noyau et plus généralement quel est l’espace “manquant”.

La cohomologie de De Rham pour l’espace en trois dimension

Commençons par le cas simple de l’espace en trois dimension, la différentielle extérieure est bien connu mais sous des noms différents de gradient, divergence ou rotationnel:
Remarque: les dimension des espaces sont respectivement 1,3,3 et 1 . Ici la propriété d ○ d=0 n’est rien d’autre que les relations bien connues rot ○ grad =0 et div ○ rot =0 .
Dans le cas présent la cohomologie de De Rham est très facile car l’espace est homotope à un point:
  • pour les 0-formes : Ker ( d ) / Im ( d ) = R , c’est à dire on a grad ( f ) =0 ssi il existe une constante c telle que f =c ,
  • pour les 1-formes : Ker ( d ) / Im ( d ) =0 , c’est à dire rot ( u ) =0 ssi il existe une fonction f telle que u= grad ( f ) ,
  • pour les 2-formes : Ker ( d ) / Im ( d ) =0 , c’est à dire div ( v ) =0 ssi il existe une 1-forme u telle que v= rot ( u ) ,
  • pour les 3-formes Ker ( d ) / Im ( d ) =0 , il existe toujours une solution à div ( v ) =g .
Les équations de Maxwell
La théorie de Maxwell est donnée par le magnifique schéma suivant. Chaque flèche du diagramme n’est rien d’autre que la dérivée extérieure.
Le * ici est pour la dualité. En simplifiant la dualité * transforme les k formes et les n-k formes en remplaçant l’ensembles des coordonnées par celles manquante par exemple x,t devient y,z, z devient x,y,t. Ceci permet aussi de définir la dérivée duale ∂ =*d* allant des k formes au ( k-1 ) formes.
Remarquer que les espaces sont de dimension respectivement 1, 4, 6, 4 et 1 . On a noté ici
  • le 4- vecteur (V,A) : le potentiel et le potentiel vecteur,
  • Le 4 vecteur (ρ,j) : la densité de charge et de courant,
  • Le 6- vecteur ( E,B ) le champs électromagnétique.

Le premier avantage ici est que tout est énoncé à un niveau “géométrie” sans un choix particulier de paramétrage. On n’a donc pas à se préoccuper de changements de base (changement de référentielle pour un physicien, changement de carte pour un mathématicien). En particulier il est clair que les champs électriques et magnétiques sont indissociables. Le deuxième avantage est que les notions de k-forme ne sont pas arbitraires mais au contraire sont tout à fait naturelles d’un point de vu physique: Une densité de charge s’intègre sur un volume (3-forme), le courant de charge s’intègre sur une surface fois un temps (3-forme), le champs magnétique s’intègre sur une surface (2-forme) et le potentiel vecteur s’intègre sur un chemin (1-forme). En mécanique quantique ce dernier est lié à la phase de la fonction d’onde de l’électron

Voici maintenant le sens physique de chacune des dérivées extérieures (chaque flèche) du diagramme:

  1. C’est ici le choix de Jauge, on peut arbitrairement changer  sans changer les champs électromagnétiques, en effet ( 3 ) ○ ( 1 ) =0 .
  2. Un choix particulier de Jauge est ( 2 ) =0 appelée la Jauge de Lorentz: C’est la plus couramment utilisée en électromagnétisme.
  3. On peut exprimer le champs électromagnétisme en fonction du potentiel vecteur :
  4. On a ici les équations de Maxwell-Faraday et Maxwell-Thomson qui découlent bien sur de ( 4 ) ○ ( 3 ) =0 .
  5. C’est maintenant les équations de Maxwell-Gauss et Maxwell-Ampère
  6. C’est la loi de conservation de la charge qui est encore ( 6 ) ○ ( 5 ) =0 .

J’en profite pour une petite remarque historique, en 1865 l’idée géniale de Maxwell fut de remarquer que ( 6 ) ○ ( 5 ) ne donnait pas 0 avec l’équation d’Ampère dans la version où elle était énoncée à l’époque. Il la modifia alors en ajoutant le terme dE/dt rendant ainsi la théorie cohérente. Ce sont donc bien des considération de topologie algébrique qui ont mené à la théorie (classique) de l’électromagnétisme telle qu’on la connait aujourd’hui.

Le problème du collectionneur et la loi de Poisson

A-Un petit problème du collectionneur (généralisé)

Je souhaiterai apprendre une langue comme le chinois par exemple. Pour cela je procède de la façon suivante. J’ouvre un livre, la radio ou la Télé et au hasard, je choisis un mot que j’écris sur un cahier et je l’append. Puis je recommence plusieurs fois. Si je tombe sur un mot que je connais déjà tant pis, je n’apprend rien de nouveau. Pour ce problème on introduit naturellement la loi de probabilité p(i) sur les mots i qui est la fréquence d’utilisation du mot en question dans la langue courante. Au bout de N (grand) itérations combien de mots ai je appris? Soit S une phrase avec quelle probabilité suis je capable de comprendre tous les mots de S? Combien faut-il d’itérations pour que je connaisse enfin tous les mots (Problème du collectionneur généralisé)?

B-Astuce utilisant la loi de Poisson

Il est possible d’obtenir très facilement une solution en modifions un peu le problème de la manière suivante : on remplace le nombre déterministe N d’itérations par un nombre aléatoire tiré suivant une loi de Poisson de moyenne N. Ce changement ne modifie que très légèrement notre problème puisque l’on va tirer N caractères plus ou moins une erreur d’ordre racine de N (TCL). On utilise alors une propriété extrêmement utile de la loi de Poisson : “Soit P une loi de poisson de paramètre d et X(1),X(2),X(3),… des variables aléatoire discrète sur un ensemble A et indépendantes et identiquement distribuées. Alors les variables

pour a dans A forment une famille de variables aléatoires indépendante qui suivent une loi de Poisson de paramètre d fois Prob(X=a)”. On applique cette propriété à notre problème et on a que pour tout mot i, le nombre de fois que ce mot a été tiré est une loi de Poisson de paramètre Np(i). Je connais donc le mot avec proba 1-exp(-Np(i)). Qui plus est, le tirage de chaque mot est indépendant et donc par exemple je connaitrai la phrase ‘ijk’ avec probabilité [1-exp(-Np(i)][1-exp(-Np(j))][1-exp(-Np(k))] Et pour connaitre tous les mots avec proba

Remarquer que pour p(i)=1/|I| (problème du collectionneur usuel), log(p) vaux environ -|I|exp(-N/|I|) et donc p tend vers 1 si N plus grand que |I|log(|I|) et vers 0 si N plus petit que |I|log(|I|).

Pour un problème d’apprentissage élémentaire par ordinateur, ceci donne un idée grossière du nombre de données à utiliser.

C-Le modèle grand canonique en physique statistique

Le modèle grand canonique, universellement utilisé en physique statistique utilise plus ou moins la même astuce. Plutôt que d’étudier le système avec N particules (modèle canonique) on relâche cette contrainte et on laisse le nombre de particules aléatoire dont la loi est centré autour de N. Par exemple : soit un système ayant k états d’énergie E(1),…,E(k) et N particules. L’énergie total E du système est la somme des E(i)N(i) avec N(i) le nombre de particule dans l’état i. La probabilité de chaque état est proportionnel à eβE ce qui revient à dire que chaque particule se place en avec proba

de manière indépendant. Modifions le système en supposant que le nombre de particules est donné par une loi de Poisson de moyenne N. Alors le nombre de particules dans les états i, deviennent des loi de Poisson indépendantes et de paramètre Np(i) que l’on réécrit souvent introduisant le potentiel chimique eβμ qui vaut

D-Un petit modèle de serveur

Voici un troisième petit modèle où cette astuce simplifie considérablement de problème.

On dispose d’un arbre binaire de serveurs pour traiter des requêtes. Les requêtes arrivent à la racines. Si il n’y a qu’une requête, le serveur à la racine la traite. Si il y en a plus qu’une le serveur est saturé et ne fait rien. Par contre chaque requête est redirigée vers l’un des deux serveur fils de l’arbre et de manière aléatoire (Bernoulli p=1/2 ) et indépendante. Les deux serveurs fils se comporte alors exactement de la même manière, traitant une requête si elle est seule, ou redirigeant de manière aléatoire les requêtes vers les serveurs suivant dans l’arbre.

Question : on envoie N requêtes à la racine, quelle profondeur de l’arbre est nécessaire pour traiter ces requêtes.

Réponse : si on remplace le nombre de requêtes à la racine par une loi de poisson de paramètre N, alors après répartition le nombre de requêtes de chaque serveur fils est donné par une loi de Poisson de paramètre N/2 et indépendante. On retrouve ainsi deux copies identiques et indépendantes de notre problème. À la profondeur k il y a 2k copies de Poisson indépendantes de paramètre N∕2k . La probabilité à ce que aucun serveur à cette profondeur n’ai deux requêtes est bornée par 2k (N/2k)ce qui donne la profondeur ≈ 2log2(N).

Deux petits exemples en théorie des jeux

Je présente ici deux petits modèles de théorie des jeux que je trouve intéressant car ils mènent à des conclusions complètement contraire à ce qu’on aurait pu s’attendre à première vu.

Une route trop efficace qui mène à des embouteillages.

Une ville A est connectée à une ville C par deux routes, celle passant par B et celle passant par D. Chacune est composée de deux tronçons : une partie route de campagne  (trait plein) et une partie autoroute (pointillés) comme sur le schéma. Sur la route de campagne la vitesse est limité et le temps pour la parcourir est toujours le même 1 heure. Sur l’autoroute
on peut aller plus vite mais si il y a trop de monde, on doit ralentir à cause des bouchons. Pour la traverser, on met p heure où p entre 0 et 1 est la proportion de personnes circulant sur la route.

Les automobilistes cherchent toujours à mettre le moins de temps possible et choisiront une routes plus rapide si ils en ont l’occasion. Dans la situations présente si une proportion trop importante prennent la route, la deuxième devient plus rapide car moins fréquenté. Des automobilistes changeront alors de trajets les jours suivants. Les
fréquentations s’équilibrent avec la moitié des conducteurs sur chacune des routes. Au finals le temps pour aller de A à C sera 1+0,5=1,5.

Ajoutons maintenant une super-route entre B et D. Extrêmement rapide et sans bouchons, on peut la parcourir presque instantanément.

Dans cette nouvelle situation, les automobilistes peuvent si ils le souhaitent n’utiliser que des autoroutes et la super route. Comme c’est toujours le choix préférable, personne n’a intérêt à ne pas le faire. Au final tout le monde emprunte les autoroutes. Mais cela
provocant des embouteillages, le temps total est alors 2 heures qui est pire que la situation sans la super route.

Se mettre en difficulté est parfois préférable.

Ici c’est un simple jeux à deux joueurs Valérie et Thomas et qui se joue en un seul tour. Valérie commence et choisit entre deux possibilités a ou b, puis c’est au tour de Thomas de choisir entre deux possibilités X ou Y. C’est fini. Chacun des joueurs gagnent le nombre de point selon le tableau suivant.

Chaque joueur vise le plus de gain possible. Valérie est donc capable de prédire le coup de Thomas. Si elle joue a, Thomas aura intérêt à jouer X. Il gagnera alors 2 points et Valérie 4. Si maintenant Valérie joue b, alors elle doit s’attendre à ce que Thomas joue Y
avec pour résultat 2 point pour Valérie et 5 point pour Thomas. Pour Valérie, la meilleur stratégie est donc de choisir a. Résultat final : (4,2).

Changeons maintenant la grille de la manière suivante.

Remarquez que les score de Valérie n’ont pas changés, par contre quelque soit le résultat final Thomas gagne moins de point que la situation précédente.

Reprenons maintenant le jeu: Si Valérie joue a, Thomas choisira Y ce qui n’intéresse pas du tout Valérie. Elle jouera donc b en sachant que Thomas jouera Y. Ici le résultat final est (2,4). Mais alors Thomas gagne plus de points que précédemment.

Conclusion, bien que sur toutes les combinaisons possible le résultat de Thomas est inférieur dans le deuxième jeu que dans le premier, Thomas gagne plus de points dans le deuxième jeu.

La formule de la résolvante et un peu de théorie des perturbations

Formule de la résolvante

Soit A et B deux matrices, la formule de la résolvante est la relation algébrique suivante


Elle est également valables si A et B sont des opérateurs linéaires sur un espace de dimension infini. Si l’énoncé et la preuve sont élémentaires, cette formule peut se révéler incroyablement utile, en particulier pour faire des développements perturbatifs. On a en effet en réinjectant la formule dans son dernier terme :

et par itération on obtient le développement perturbatif suivant

Je donne ici quelques exemples d’application plus ou moins direct.

Le calcul perturbatif d’une valeur propre

Soit A une matrice ayant une valeur propre simple l(0) et B une autre matrice. On souhaiterai avoir le développement en série entière en t de l(t) la valeur propre
de A+t B. Pour cela on peut utiliser la formule de Cauchy


où on intègre sur un petit cercle dans le plan complexe autour de l(0) et alors, on peut utiliser le développement perturbatif. Par exemple avec A la matrice
diagonal lambda, le terme d’ordre 2 est donné par

Pour obtenir une formule à un ordre quelconque : EigenvaluePerturbationTheory

Exemple 2 : Une variante du principe Huygens Fresnel.

Une source lumineuse en un point x émet une onde de fréquence w et se propage dans un milieu selon un opérateur H. La lumière F(y) en tout point y est alors donnée par

Imaginons que le milieu est composé d’un espace fermé munie d’une ouverture. Dans notre opérateur, H=A si l’ouverture B est fermée et A-B si l’ouverture est ouverte. Lors que l’ouverture est fermée et que y se trouve à l’extérieur par rapport à x aucune lumière n’est reçue. Alors la formule de la résolvante lorsque l’ouverture est ouverte

peut s’interpréter ainsi : « les points z de l’ouverture se comportent comme des sources lumineuses secondaires d’intensité et de phase données par la résolvante lorsque l’ouverture est fermée. »

Exemple 3 : les diagrammes de Feynman.

C’est très certainement l’exemple le plus célèbre et probablement le plus impressionnant d’utilisation de la théorie de perturbation en physique. L’évolution d’un système quantique est décrit par un Hamiltonien H et l’équation de Schrödinger idf(t)=Hf(t)dt qui donne formellement la solution exp(-itH)f(t=0). Il est intéressant d’en étudier la transformé de Fourier (Laplace)

  1. La recette pour les diagrammes de Feynman est la suivante: Le Hamiltonien se décompose en un terme d’évolution libre des particules A et un terme d’interaction B qui en théorie quantique des champs s’exprime comme la création et annihilation de particules. On supposera l’interaction B est petit et on fera
    le développement perturbatif.
  2. Pour les calculs on travaillera dans la base de Fourier dans laquelle les termes d’évolutions libre A est diagonal. Les termes d’interaction sont ponctuels (local), dans la base de Fourier ils s’expriment sous forme d’intégrale.

Exemple 1: Une désintégration en deux particules

On considère une particule de masse M au repos qui se désintègre en deux particules m1 et m2 de masses plus petites. Le terme d’ordre 1 fait apparaît l’élément

avec a,b,c: les opérateurs de création/annihilation des particules M, m1, et m2 d’impulsion k. Il se dessine avec le diagramme de Feynman suivant

et permet de calculer le taux de désintégration en choisissant z0=M+it.

Exemple 2 : La diffusion Compton

La diffusion Compton, c’est le choc entre un électron et un photon. Initialement, on a  un photon d’impulsion k0 et un électron d’impulsion p0. Faire le développement à l’ordre 2 donne 4 termes mais seuls les termes

et

sont pertinents où a et c sont des opérateurs de création/annihilation
de l’électron et du photon. Ils correspondent aux diagrammes de Feynman
suivant