Accueil > Textes concernant la relation de l’un à l’autre > Le dilemme du prisonnier et autres possibilités

Le dilemme du prisonnier et autres possibilités

La théorie des jeux montre que la coopération est souvent préférable à l’affrontement, même si la première option n’est pas toujours facile à mettre en oeuvre

vendredi 27 mars 2009

par David Barash, professeur de psychologie à l’Université de Washington. Il est notamment co-auteur de l’ouvrage sur la paix et les conflits Peace and Conflict Studies.

Le problème semble simple au premier abord : pourquoi les gens ne coopèrent-ils pas ? Ou pourquoi ne coopèrent-ils pas davantage ? Après tout, ne sommes-nous pas tous deux gagnants si je vous aide et si vous m’aidez en échange ? De même, la non-violence n’est-elle pas de l’intérêt de tous ? En résumé, en quoi est-il si difficile de répondre à la question posée par un automobiliste de Los Angeles, Rodney King, après qu’il eut été violemment battu par des agents de police de cette ville : pourquoi ne pouvons-nous pas nous entendre, sans recourir à la violence ?

La question est plus difficile qu’il n’y paraît. Des techniques de prise de décision, connues sous le nom de théorie des jeux, jettent un éclairage sur les deux problèmes, y compris celui du choix entre la violence et la non-violence. Cette théorie fournit également des tactiques de réponse.

La théorie des jeux est une façon d’aborder des situations impliquant, dans les cas les plus simples, deux protagonistes (deux joueurs) et des résultats ou des gains qui ne sont pas déterminés exclusivement par le comportement de l’un des deux , mais par leur interaction. Ces jeux ne présenteraient guère de difficulté sans cette interaction : chaque joueur ferait tout ce qui est en son pouvoir pour obtenir le meilleur résultat pour lui-même, sans se préoccuper de l’autre joueur. S’il pleut, par exemple, la bonne stratégie est de prendre un parapluie, quelle que soit la décision prise par une autre personne. Le temps n’ayant aucune raison de varier en fonction de la décision prise par un tiers, chacun est libre d’effectuer son choix sans se préoccuper d’autrui.

Imaginons en revanche que deux personnes découvrent un trésor. Il est sans doute de leur intérêt de tenir chacune compte de l’autre, par exemple en partageant ce trésor plutôt qu’en essayant de tout garder au risque d’un conflit. La théorie des jeux intervient lorsque les gains ne sont pas uniquement fonction de ce que fait le protagoniste A, mais également de ce que fait le protagoniste B.

Malheureusement, les décisions sont souvent plus difficiles à prendre que le simple partage d’un trésor. Pire, les situations favorisent souvent la non-coopération, notamment lorsque le joueur qui décide de coopérer risque d’être exploité par l’autre. Les personnes et les groupes qui cherchent à prévenir les conflits et la violence connaissent bien ce genre de situation.

Bref, les adeptes de la non-violence qui choisissent la coopération plutôt que l’affrontement risquent fort d’être perdants, au profit de ceux qui sont plus agressifs ou qui disposés à la violence. Imaginons par exemple, dans le cas des deux personnes ayant découvert un trésor, que l’une d’elles décide de brandir un pistolet et d’en exiger la totalité, alors que l’autre est un adepte de la non-violence. Le résultat semble inévitable : le protagoniste violent va être récompensé pour son comportement (il conserve le butin), alors que le protagoniste non violent va partir les mains vides. Ou, comme l’a dit Machiavel, « l’homme qui en toutes choses veut faire profession de bonté ne saurait prospérer parmi ceux qui n’ont aucune bonté. »

Des solutions non violentes

Tout n’est pas perdu pour autant : la théorie des jeux ne sert pas seulement à comprendre les problèmes, elle suggère et valide également des solutions non violentes.

Le dilemme du prisonnier, dérivé de la théorie des jeux, est un modèle qui encourage la coopération plutôt que l’affrontement. Il tend à simplifier les choses, comme la plupart des modèles, mais il permet néanmoins d’organiser ses idées.

Supposons que deux personnes ? ou deux groupes, voire deux États ? aient le choix entre la non-violence et la violence (les théoriciens généralisent cette alternative en l’étendant à des concepts tels que la coopération plutôt que la « défection », ou le dialogue plutôt que l’affrontement, dans des domaines internationaux tels que les barrières tarifaires ou la course aux armements). Les deux parties seront récompensées si elles choisissent la non-violence : elles pourront résoudre leurs conflits de manière pacifique ou, dans l’exemple de la découverte du trésor, conserver chacune une partie des gains sans avoir à se battre. Le résultat sera très différent si les deux protagonistes choisissent la violence : ils risquent fort d’en subir les conséquences. Mais si l’un ne coopère pas et que l’autre coopère, le protagoniste violent qui choisit de ne pas coopérer obtient ce que l’on appelle le gain de « la tentation de l’égoïste » (la totalité du trésor dans notre exemple), alors que celui qui coopère (ou qui se comporte de manière non violente alors que l’autre choisit la violence) reçoit le « salaire de la dupe » : dans notre exemple, aucune partie du trésor.

Il y a dilemme du prisonnier lorsque les résultats se présentent comme suit : le gain de la tentation (T) est préférable à la récompense pour coopération mutuelle (R), la récompense est préférable à la punition de l’égoïste (P), et la punition de l’égoïste est préférable au salaire de la dupe (S). Dans un tel cas, les joueurs sont particulièrement motivés à obtenir le gain le plus élevé (le gain de la tentation) et ont peur de ne recevoir que le gain le plus faible (le salaire de la dupe).

Pour mieux comprendre ce qui suit, mettez-vous à la place de l’un des deux joueurs : « L’autre joueur peut coopérer avec moi (choix de la non-violence) ou refuser de coopérer. Dans le premier cas, la meilleure stratégie de mon point de vue est de menacer d’employer la violence afin d’obtenir le gain le plus important, alors que la dupe n’obtiendra rien. Mais si l’autre joueur refuse de coopérer et qu’il menace d’utiliser la violence, la meilleure stratégie de mon point de vue reste la même : en effet, même si je reçois la punition en cas de conflit, ce qui n’est effectivement pas souhaitable, cela vaut mieux que d’être la dupe et de tout perdre. »

Le résultat de cette stricte logique est que chaque partie est encline à rejeter la coopération et à choisir la voie de la violence. Il s’agit donc bien d’un dilemme, car chaque protagoniste est certain d’être puni - affrontement dans le cas d’individus, course aux armements ou guerre commerciale dans le cas d’États - alors que le gain optimal pour les deux partie aurait été de partager les fruits de la coopération et de la non-violence. Il faut en effet se rappeler que, dans le dilemme du prisonnier, le gain de la coopération et de la non-violence (récompense) est préférable au résultat de la non-coopération et de la violence (punition).

Le dilemme du prisonnier permet de modéliser un dilemme où chacun pense qu’il doit être agressif, de peur d’être à la merci de ceux qui font preuve d’agression (rappelons-nous Machiavel).

Toutefois, ces situations peuvent s’envisager d’une autre manière. Le jeu de la poule mouillée est ainsi parfois mieux adapté lorsque le débat porte sur le choix entre la violence et la non-violence. Ce jeu ressemble au dilemme du prisonnier, mais la punition de l’égoïste est alors le plus mauvais résultat. Le coût de l’affrontement mutuel, ou de la seule menace d’affrontement, est plus élevé que le manque à gagner de la dupe qui renonce à l’affrontement. Le jeu de la poule mouillée met en présence deux conducteurs de voiture qui foncent l’un vers l’autre, en cherchant à faire dévier l’adversaire de sa trajectoire. Celui qui quitte la route (l’équivalent de la coopération dans le dilemme du prisonnier) est considéré comme une poule mouillée (c’est-à-dire comme un froussard), la victoire allant à celui qui a maintenu sa trajectoire (l’équivalent de la défection dans le dilemme du prisonnier). Le problème, bien évidemment, est que les deux joueurs perdent si chacun d’eux choisit la défection, c’est-à-dire décide d’essayer de gagner au détriment de l’autre.

Parties répétées

Les modèles simples de théorie des jeux supposent que les gains sont fixes et que l’interaction ne se répète pas. Mais en situation réelle, les personnes et les groupes interagissent de manière répétée ; ils peuvent donc modifier leurs comportements en fonction des résultats obtenus au tour précédent. Les deux parties ont donc tout intérêt à favoriser une série d’interactions non violentes et la coopération : en effet, la récompense en cas de coopération non violente est toujours préférable à la punition qu’entraîne la violence mutuelle, qu’il s’agisse du dilemme du prisonnier ou du jeu de la poule mouillée. C’est la raison pour laquelle la coopération est à même de produire le meilleur résultat pour tous les intéressés.

Il est d’ailleurs intéressant de noter que, même lorsque l’interaction semble non répétée et qu’un calcul strictement rationnel suggère qu’un refus de coopération serait la réponse logique, la plupart des gens sont enclins à tenter de coopérer, en particulier s’ils comprennent que l’interaction a toutes chances de se répéter. En effet, les interactions continues laissent entrevoir non seulement des punitions répétées en cas de défections réciproques (violence), mais aussi la perspective de récompenses durables en cas de coopération mutuelle (non-violence).

Des modèles mathématiques et des simulations informatiques ont ainsi démontré qu’une simple stratégie d’imitation peut produire le meilleur résultat envisageable, même dans une situation classique de dilemme du prisonnier. Cette stratégie passe par un premier acte de coopération, après lequel chaque joueur se contente de répéter l’action entreprise par l’autre au tour précédent. Ainsi, la coopération amorcée par le joueur A engendre à l’infini la coopération du joueur B, les deux joueurs récoltant alors les fruits d’une coopération non violente. Inversement, la défection du joueur A entraînera la défection du joueur B, protégeant ainsi ce dernier contre le risque d’être la dupe plus d’une fois, tout en décourageant tout comportement de cette nature de la part de A.

Mohandas Gandhi n’était pas favorable aux mesures de rétorsion. Il croyait en revanche à la force du « satyagraha », c’est-à-dire à ce qu’il appelait la non-violence active, par opposition à l’acceptation passive ou au souhait d’éviter l’affrontement à tout prix. Il croyait également fermement que les « satyagrahis » pouvaient faire renoncer les adeptes de la défection et que, par leur exemple et leur acceptation des brimades (donc en étant la dupe au sens de la théorie des jeux), ils pouvaient accomplir ce que les spécialistes de la théorie des jeux n’envisagent généralement pas : modifier le comportement de l’autre protagoniste en faisant appel à son sens moral.

Le comportement d’une victime qui répond à la violence par la violence est prévisible, voire instinctif. Il tend donc à accroître l’acharnement de l’agresseur et peut même servir à justifier la violence initiale, ne serait-ce que du point de vue de l’agresseur initial. On peut en effet penser qu’une victime si violente mérite son sort ! La sphère sociale attend en outre souvent une réaction à l’usage de la force, un peu comme dans la troisième loi de Newton : toute action entraîne une réaction équivalente et de force opposée. Ainsi, si A frappe B, B frappera A, ce qui conduira presque toujours A à frapper à nouveau. Gandhi n’était pas un adepte du principe biblique « oil pour oil, dent pour dent » : il faisait remarquer que nous serions bientôt tous aveugles et édentés s’il se généralisait.

En revanche, si B répond de manière non violente, sa réaction va non seulement briser le cycle de la colère et de la haine, qui évoque le cycle de la naissance et de la réincarnation dans la religion hindouiste, mais aussi mettre A dans une situation à laquelle il ne s’attend pas. « Je cherche à émousser l’épée du tyran, a écrit Gandhi, non pas en la frappant avec une arme plus tranchante, mais en trompant son attente d’une plus grande résistance. » Cette stratégie de résistance n’est ni simple, ni sans douleur, mais elle peut être spectaculairement efficace. C’est bien ce que confirment, au-delà de la théorie des jeux, les expériences vécues de Gandhi en Afrique du Sud et en Inde et du chef du mouvement des droits civiques Martin Luther King et d’autres militants aux États-Unis.

L’homme politique et philosophe romain Cicéron demandait dans les lettres à ses amis : « Que peut-on faire contre la force sans avoir recours à la force ? » Les adeptes de la non-violence répondraient « beaucoup de choses ». Ils contesteraient également que le recours à la force permette de faire quoi que ce soit d’efficace, de durable ou de souhaitable contre la force. En effet, nous avons tous pu constater la façon dont la violence conduit à ce que les théoriciens des jeux appellent la « punition pour défection mutuelle », et ce au détriment de tous. Tout comme Gandhi, Martin Luther King était un réaliste orienté sur les résultats. Il a notamment écrit : « Rendre la violence par la violence multiplie la violence, comme si l’on renforçait l’obscurité d’une nuit sans étoiles. L’obscurité ne peut pas faire disparaître l’obscurité : seule la lumière le peut. Et la haine ne peut pas faire disparaître la haine : seul l’amour le peut. »

En conclusion, nous dirons que la théorie des jeux jette un éclairage sur les limites de la coopération, en révélant pourquoi il n’est pas si simple, ni même si naturel, de vivre en bon entendement comme tant d’entre nous le souhaitent. Cependant, elle montre également que les êtres humains ne sont pas condamnés à un monde hobbésien de défections et d’affrontements incessants si on peut les persuader d’envisager leur situation et leurs possibilités dans une perspective moins égoïste.

Voir en ligne : Bureau des programmes d’information internationale du département d’Etat U.S.