협력이 최고의 전략이다   

2009. 12. 21. 22:21
반응형

여러분이 얼굴 모르는 자와 '죄수의 딜레마' 게임을 한다고 상상해 보세요. 죄수의 딜레마란 '게임이론'에 감초처럼 등장하는 대표적인 딜레마죠. 많은 분들이 알겠지만, 요약해서 설명하면 다음과 같습니다.

나와 그가 동시에 협력하면         → 나는 3,  상대방도 3의 이익을 얻음
나는 협력했는데, 그가 배반하면   → 나는 0, 상대방은 5의 이익을 얻음
나는 배반하고, 그가 협력하면     → 나는 5, 상대방은 0의 이익을 얻음
나와 그가 모두 배반하면           → 나는 1, 상대방도 1의 이익을 얻음

이때, 나와 그는 서로 협력할지 배반할지 미리 알 수 없는 상황입니다. 둘이 동시에 협력하면 각각 3의 이익을 얻습니다. 하지만 '내가 협력했는데 그가 배반해 버리면', 졸지에 나는 이익이 하나도 없고 그가 5의 이익을 독차지할 가능성이 아주 높겠지요. 그도 나와 똑같이 생각하겠죠. 그래서 결국 '나와 그가 모두 배반해서' 고작 1의 이익만 얻는, 좋지 않은 상황에 빠집니다.

'나도 그도 배반한다'는 것이 최종적인 선택이 되는데, 이와 같은 균형점을 게임이론에서는 '내쉬 균형'이라고 부릅니다. 이 말은 게임이론을 발전시킨 공로로 노벨 경제학상을 수상한 수학자 존 내쉬의 이름을 땄습니다. 여기까지게임이론에 관심이 있는 분들이라면 익히 아는 내용일 겁니다.


죄수의 딜레마 게임을 한번이 아니라 여러 차례(예를 들어 200회 정도) 시행한다면, 여러분은 매번 협력할지 배반할지를 결정해야 합니다. 의사결정의 목적은 200회의 게임이 끝난 후에 누적된 점수를 최대화하기 위해서죠. 문제는 언제 협력하고 언제 배반할지를 결정하는 로직이 무엇이냐는 겁니다.

1980년에 정치학자인 로버트 엑설로드는 반복적인 죄수의 딜레마 게임에서 최대 이익을 얻기 위한 로직을 서로 겨루어 보자고 '대회'를 제안했습니다. 모두 15개의 프로그램들이 나름의 로직을 제시했는데, 최종적으로 1등을 차지한 로직은 겨우 4줄 밖에 안 되는 프로그램이었습니다.

그것은 '팃포탯(Tit-for-Tat)'이라고 불리는 로직이었습니다. 그대로 되갚아 준다는 뜻을 가진 팃포탯 전략은 캐나다의 심리학자인 아나톨 라포포트가 제안했는데, 로직을 풀어보면 다음과 같습니다.

1. 맨처음 게임에서는 무조건 협력한다.
2. 그 다음 게임부터, 이전 게임에서 상대방이 협력했으면 협력하고, 배반했으면 배반한다.

아주 간단하죠? 게임에 참가한 프로그램 중에는 77줄이나 되는 로직이 있었는데, 그에 비하면 너무나 단순한 논리입니다. 이런 로직이 경쟁에서 이겼다는 것이 놀라울 정도입니다.

로버트 액설로드는 1차 대회의 결과를 널리 알리고 보다 많은 사람들을 참가시켜 2차 대회를 열었습니다. 2차 대회 때는 모두 63개의 프로그램이 출품됐는데, 놀랍게도 팃포탯 로직이 또다시 1등을 차지했습니다. 두 번에 걸친 대회를 통해 액설로드가 내린 결론은 '최대 이익을 창출하는 가장 효과적인 행동은 상대방을 속이는 것이 아니라 서로 협력하는 것이다' 입니다. 그리고 '상대방이 협력하지 않으면 즉각적으로 보복에 나서는 의지를 있어야 협력 체계를 유지할 수 있다' 입니다.

지금까지 언급한 내용은 액설로드가 쓴 '협력의 진화'라는 책에 자세히 소개됐습니다. 그의 주장이 옳은지 그른지 비판적으로 따져볼 겸 꼭 한번 읽어보기를 '권합니다. ^^



'진짜로 팃포탯 전략이 우수한 전략일까?' 저는 이런 의문을 가지고 직접 실험을 해보기로 했습니다. 그래서 엑셀 파일에 몇 개의 전략을 서로 대결시켜 봤지요. 대진 방식이 '풀 리그'라서 1개 로직을 추가시킬 때마다 대진표가 기하급수적으로 커지더군요. 그래서 5개 로직만 참가시켰습니다.

아래의 표는 그 결과입니다. 각 로직이 무엇을 말하는지는 아래의 엑셀 파일을 다운로드하면 간략하게 설명이 나와 있습니다. 



'랜덤'이라는 전략에 쓰인 함수가 randbetween() 이라서 셀을 건드릴 때마다 표의 숫자와 랭킹이 바뀌기는 하지만, 팃포탯 전략은 대개 3위 정도를 랭크합니다. 로버트 액설로드가 행한 대회에서는 팃포탯 전략이 부동의 1위였는데, 제가 시행한 대회는 참가선수들이 적기 때문에 팃포탯이 3위 정도 밖에 못한 듯 합니다. 

하지만, 저의 '작은 대회'에서도 주목할 만한 시사점이 있습니다.

첫 번째, 협력과 배반을 맘대로 선택하는 랜덤 전략이 거의 꼴찌라는 겁니다. '아무 생각 없이' 의사결정하면 거지꼴을 못 면한다'는 뜻이 아닐까 생각합니다. ^^

두 번째, 상대방을 이용해 먹으려는 전략인 '요스 전략'의 성적이 좋지 않다는 겁니다. 상대방을 배반해서 5의 이익을 독차지하려는 심보로는 최대이익을 얻을 수 없다는 교훈을 줍니다.

세 번째는 가장 중요한 시사점인데요, 기본적으로 협력적이면서 상대방의 배반에는 철저하게 응징하는 '프리드먼' 전략과 '팃포투탯' 전략이 상위에 랭크됐다는 사실입니다. 팃포탯 전략도 3위이지만 1, 2위와의 격차가 그리 크진 않습니다.
(팃포투탯은 상대방이 두번 배반해야, 배반으로 응징하는 전략을 말함)

제가 시행한 대회는 고작 5개 팀이 참가한 거라서 팃포탯 전략의 우수성을 보이는 데엔 역부족이었지만, 좀더 많은 로직을 참여시키면 액설로드가 행했던 결과와 비슷하게 나오리라 생각됩니다. 여러분들 중에 관심이 있는 분들은 독특한 논리를 개발해서 적어도 16개 팀이 참여한 '풀 리그'를 벌여보기 바랍니다. 팃포탯이 1, 2위를 차지하지 않을까요? 혹시 팃포탯 전략보다 우수한 전략이 발견되면 저에게 알려주면 고맙겠습니다.

"성공은 상대방을 배반하고 눌러 이기는 데 있지 않고, 상대방으로부터 협력을 이끌어내는 데 있다" 평범하면서도 동시에 비범한 교훈을 팃포탯이 전합니다. 그래서 개인이나 집단이 악하거나 선하거나 협력은 자연선택된다는 것이 로버트 액설로드의 주장입니다. 기업이 경영활동을 하거나, 개인이 사회활동을 할 때 유념해야 할 교훈이겠지요. 여러분은 이에 동의합니까?


반응형

  
,