Don Ross
Lý thuyết trò chơi nghiên cứu những cách thức trong đó các tương tác chiến lược giữa những người chơi duy lý tạo ra các sản phẩm liên quan đến các sở thích (hoặc các tiện ích) của những người chơi mà không một sở thích hoặc tiện ích nào có thể được dự định trước bởi bất kỳ người nào trong số những người chơi. Ý nghĩa của đoạn văn này sẽ không thể rõ ràng đối với những ai không phải là chuyên gia chừng nào mỗi từ, mỗi cụm từ in nghiêng chưa được giải thích và nêu ra các đặc điểm bằng những ví dụ. Đây sẽ là nhiệm vụ chính của bài viết này. Tuy nhiên, trước hết chúng tôi xin đưa ra đôi chút ngữ cảnh triết học và lịch sử để tác động đến người đọc trong việc tìm hiểu toàn bộ những công việc mang tính kỹ thuật đang chờ chúng ta ở phía trước.
1. Động cơ lịch sử và Triết học
Lý thuyết toán học về các trò chơi được John von Neumann and Oskar Morgenstern [1944] sáng tạo ra. Vì một số nguyên do sẽ được thảo luận dưới đây, các giới hạn trong khuôn khổ toán học của họ lúc đầu đã tạo dựng một lý thuyết ứng dụng chỉ trong những điều kiện đặc biệt và hạn hẹp. Tình huống này đã dần dần thay đổi, theo những cách thức mà chúng ta sẽ thấy khi chính ta lướt qua một quãng đường dài trên 60 năm lúc mà bộ khung lý thuyết ấy đã trở nên sâu sắc hơn và khái quát hơn rất nhiều. Người ta vẫn không ngừng tiến hành gạn lọc và ở gần cuối bài viết chúng ta sẽ xem xét một số vấn đề triết học nổi bật thể hiện ngay ở tuyến đầu của sự phát triển. Tuy nhiên, chí ít là vào cuối những năm 1970 người ta đã có thể nói một cách chắc chắn rằng lý thuyết trò chơi là một công cụ quan trọng và hữu dụng nhất trong bộ công cụ phân tích ở bất cứ hoàn cảnh nào khi chúng ta phải đối diện với tình huống trong đó cái được coi là một tác nhân năng động nhất [đối với trò chơi đó] thì lại tùy thuộc vào những mong muốn mà một hoặc nhiều tác nhân khác sẽ làm, và cái được coi là những hành động tốt nhất [đối với họ] thì tương tự như vậy, lại phụ thuộc vào những mong muốn về nó.
Mặc dù trên thực tế thì lý thuyết trò chơi mới đây đã được biểu diễn dưới hình thức toán học và logic học một cách hệ thống, tuy nhiên tri thức về lý thuyết trò chơi thì lại có thể đã được phát hiện ra từ các nhà bình luận chính trị và các nhà triết học thời cổ đại. Chẳng hạn trong hai văn bản của Plato, Laches [Sao nhãng] và Symposium [Bàn trà], Socrates đã làm cho ta nhớ lại một đoạn từ cuốn Trận chiến Delium liên quan đến tình huống dưới đây. Hãy xem một người lính ở ngoài mặt trận đang đợi chỉ huy của anh ta ra lệnh đánh trả một trận tấn công của kẻ thù. Một điều có thể xảy ra đối với anh ta là nếu trận chiến thành công thì cũng rất có thể không phải công sức đóng góp của riêng cá nhân anh ta mang tính quyết định. Nhưng nếu anh ta trụ lại, anh ta nghĩ về sự kinh khủng của tình trạng bị thương, hay bị giết – hiển nhiên là không vì một lý do gì cả. Mặt khác, nếu kẻ thù sắp chiến thắng thì khả năng anh ta bị giết hoặc bị thương lại còn cao hơn, và giờ đây thì hoàn toàn rõ ràng là không vì nguyên cớ gì cả, vì trận tuyến đã bị áp đảo. Dựa trên lý do này, rõ ràng là tốt hơn hết, người lính nên bỏ chạy, bất kể người sắp chiến thắng là ai. Tất nhiên, nếu mọi người lính đều suy tính theo cách đó – vì tất cả họ hiển nhiên là nên, vì tất cả họ đều ở trong những tình huống giống hệt như nhau – thì điều đó chắc chắn sẽ đưa đến kết quả là cuộc chiến sẽ bị thất bại. Tất nhiên, vấn đề này xảy ra đối với chúng ta, những nhà phân tích, thì cũng có thể xảy ra đối với những người lính. Phải chăng điều đó đem lại cho họ một lý do để trụ lại ở vị trí chiến đấu của họ? Thực sự thì lại trái ngược: nỗi sợ lớn hơn của người lính là ở chỗ trận chiến sẽ thất bại, thì họ lại càng có nhiều động cơ để tránh cho mình khỏi bị hại. Và khi người lính càng tin rằng trận đánh của họ sẽ thắng lợi mà không cần bất cứ sự đóng góp đặc biệt nào của cá nhân thì họ lại càng có ít lý do trụ lại để chiến đấu. Nếu mỗi người lính đều biết trước loại suy lý này cũng có ở những người lính khác, thì tất cả họ sẽ nhanh chóng tự nghĩ về một nỗi sợ hãi, và người chỉ huy đáng sợ của họ sẽ chỉ còn có một đám đông hỗn độn để chỉ huy, ngay cả trước khi kẻ thù khai hỏa.
Từ rất lâu trước khi lý thuyết trò chơi xuất hiện để chỉ cho chúng ta thấy phải suy nghĩ như thế nào về loại vấn đề này một cách hệ thống, thì nó đã xảy ra với các nhà chỉ huy quân sự và tác động ảnh hưởng đến các chiến lược của họ. Vì vậy nhà chinh phục người Tây Ban Nha Cortez, khi đổ bộ lên đất Mexico với một lực lượng nhỏ là người có lý do chính đáng để sợ khả năng của họ khó mà đẩy lùi được cuộc tấn công của đội quân Aztecs đông hơn rất nhiều. Ông đã tránh được cuộc khủng hoảng – trong tình trạng đội quân của ông có thể nghĩ đến cuộc rút lui – bằng cách đốt hết những con tàu mà họ đã dùng để đổ bộ vào mảnh đất đó. Biết là không còn đường lui nữa, những người lính Tây Ban Nha đã không còn cách nào khác ngoài cách trụ lại chiến đấu, và họ lại chiến đấu quyết liệt hơn bao giờ hết. Hơn nữa, theo quan điểm của Cortez, hành động của ông đã có một hiệu quả làm nản lòng người Aztecs. Ông có ý định rõ ràng về việc đốt hết các con tàu của mình làm cho người Aztecs tin chắc rằng ông cương quyết chiến thắng. Vậy là họ suy luận như sau: bất cứ người chỉ huy nào có thể tự tin đến mức chủ tâm phá hủy con đường lui cuối cùng của bản thân mình thì là khôn ngoan. Nếu trận chiến trở nên bất lợi với ông ta thì vị chỉ huy đó phải có những lý do chính đáng mới có thể cực kỳ lạc quan đến mức như vậy. Vì vậy sẽ là không khôn ngoan khi tấn công vào một đối phương có những lý do chính đáng để đảm bảo rằng ông ta không thể bại trận. Chính vì vậy người Aztecs đã lui quân xuống những quả đồi xung quanh , còn Cortez thì đã giành được thắng lợi mà không đổ một giọt máu.
Các tình huống này, như Plato đã nhắc đến và như Cortez đã hành động có chung một logic ngầm và rất thú vị. Nên lưu ý rằng những người lính không có động cơ để chỉ rút lui, hoặc cho dù chủ yếu bằng cách đánh giá duy lý của họ về những hiểm nguy của cuộc chiến và bằng sự tư lợi của họ. Hơn nữa họ đã phát hiện ra một lý do chính đáng để chạy khi nhận rõ rằng cái tạo nên ý nghĩa cho hành động của họ thì lại phụ thuộc vào cái tạo nên ý nghĩa cho người khác để họ hành động và tất cả những người khác có thể cũng lưu ý đến điều đó. Ngay cả một người lính hoàn toàn dũng cảm thì cũng vẫn có thể thích bỏ chạy hơn là chết một cách anh hùng bằng cách cố ngăn cơn triều đang trào đến chỉ bằng có mỗi một bản thân mình. Vì vậy chúng ta có thể hình dung mà không có gì mâu thuẫn rằng một trạng huống mà một đạo quân, gồm tất cả các cá nhân đều rất dũng cảm lại chạy biến đi nhanh như gió trước khi kẻ thù tấn công. Nếu những người lính thực sự là người dũng cảm thì điều này thực sự không phải là kết quả mà bất kỳ ai trong số họ cũng muốn; mỗi người sẽ đều muốn rằng toàn bộ trụ lại và chiến đấu. Vậy thì trường hợp chúng ta đang đề cập ở đây trong đó mối tương tác của nhiều quá trình ra quyết định duy lý về phương diện cá nhân – mỗi người lính một quá trình – thì nó sẽ tạo ra một kết quả mà không ai dự định trước cả. Hầu hết các đạo quân đều cố tránh vấn đề này hệt như Cortez đã làm. Vì họ không thể thường xuyên làm cho việc rút lui về mặt thể chất trở nên không thể, nên họ đã làm cho nó không thể về phương diện kinh tế: họ bắn những kẻ bỏ trốn. Vậy thì việc trụ lại và chiến đấu là quá trình hành động duy lý cá nhân của mỗi người lính đã trở thành lựa chọn đúng đắn, vì cái giá của việc bỏ chạy chắc chắn tối thiểu cũng cao như cái giá của sự trụ lại.
Một câu truyện kinh điển khác gợi lên quá trình suy lý này được phát hiện trong vở kịch “Vua Henry V” của Shakespeare. Trong trận chiến Agincourt, Henry đã quyết định hành quyết các tù binh Pháp trong cái nhìn đầy căn hận của kẻ thù và trong sự ngạc nhiên của đoàn tùy tùng của ông. Họ mô tả hành động như vậy là vô đạo. Những lý lẽ Henry đưa ra ám chỉ đến việc xem xét tham số: ông sợ rằng tù binh có thể bỏ trốn và đe dọa đến địa vị của ông. Tuy nhiên một lý thuyết gia trò chơi có thể đã cung cấp cho ông một lý lẽ chiến lược bổ sung (cũng tương tự như một lý lẽ khôn ngoan chứ có lẽ không phải là đạo đức). Đội quân của ông đã nhìn thấy những tù binh kia đã bị giết, và thấy rằng kẻ thù cũng đã thấy điều đó, vì vậy họ biết số phận nào đang đợi họ trong bàn tay của kẻ thù nếu như họ không thắng. Chỉ là ẩn dụ, nhưng lại rất hiệu quả, các con thuyền của họ đã bị đốt cháy. Người hành quyết tù binh đã khôn khéo gửi một tín hiệu đến những người lính của cả hai bên, vì vậy đã làm thay đổi các động cơ của họ bằng cách chiều theo các viễn tượng chiến thắng của người Anh.
Các ví dụ này có thể được coi là chỉ phù hợp cho những ai tự thấy mình trong những tình huống bần cùng của cuộc cạnh tranh tàn khốc. Có lẽ người ta có thể nghĩ rằng điều đó chỉ hệ trọng đối với các vị tướng, các chính khách, các nhà kinh doanh, và những ai liên quan đến việc điều hành những người khác, còn nhà triết học chỉ nên xót xa cho tính chất đạo đức đáng sợ của nó mà thôi. Tuy nhiên một kết luận như vậy có lẽ còn quá sớm. Công việc nghiên cứu logic thống trị các mối quan hệ trong những động cơ, các tương tác chiến lược và các kết quả là cơ bản trong triết học chính trị hiện đại vì nhiều thế kỷ trước bất kỳ ai cũng đặt được một cái tên rõ ràng cho loại logic này.
Leviathan của Hobbes thường được coi là một công trình đặt nền móng cho triết học chính trị hiện đại, luận văn bắt đầu cái vòng phân tích liên tục về chức năng và tính chính đáng của nhà nước và những hạn chế mà nó áp đặt lên quyền tự do cá nhân. Hạt nhân duy lý của Hobbes có thể tóm gọn như sau. Tình trạng tốt nhất cho tất cả mọi người là một trạng huống mà trong đó mỗi người được tự do làm điều gì mình muốn. Thông thường những người tự do như vậy mong muốn hợp tác với những người khác để tiến hành những dự án mà một cá nhân hành động đơn độc không thể làm được. Nhưng nếu có bất cứ một tác nhân vô đạo hoặc phi đạo đức nào đó xung quanh thì họ sẽ nhận ra ngay lợi ích của họ dễ kiếm được nhất bằng cách thu được lợi ích từ việc hợp tác và không hoàn trả cho người khác. Chẳng hạn chúng ta hãy giả sử là bạn đồng ý giúp tôi xây dựng ngôi nhà của mình, đến lượt mình, tôi hứa giúp bạn xây ngôi nhà của bạn. Sau khi ngôi nhà của tôi hoàn thiện, tôi không còn cần đến sức lao động của bạn nữa và thế là tôi chỉ xử sự đơn giản bằng cách bội ước. Tuy nhiên sau đó tôi nhận ra rằng nếu điều đó làm cho bạn trở nên không nhà thì bạn sẽ có động cơ chiếm ngôi nhà của tôi. Điều đó đẩy tôi đến tình trạng luôn luôn sợ bạn và buộc tôi phải tiêu thời gian, tiền bạc, của cải vào việc bảo vệ tôi chống lại bạn. Cách tốt nhất để tôi giảm đi tối đa khoản chi phí này là bằng cách đánh bạn trước, sau đó thì giết bạn lúc thuận tiện. Tất nhiên bạn có thể biết trước tất cả sự suy lý ấy của tôi, vì vậy mà bạn cũng có lý do chính đáng để đánh tôi. Vì tôi có thể đoán trước được suy lý này của bạn, nên nỗi sợ ban đầu của tôi đối với bạn đã trở nên không còn hoang tưởng nữa; bạn cũng như vậy khi nghĩ về tôi. Trong thực tế thì chúng ta không cần phải trở nên vô đạo đức để rơi vào cái chuỗi suy lý liên miên ấy; chúng ta chỉ cần nghĩ rằng có một khả năng nào đó để người khác có thể cố gian lận chỉ nhằm mặc cả. Khi đã có một nghi ngờ nhỏ xuất hiện trong đầu bất cứ ai, thì động cơ được suy diễn bởi nỗi hoảng sợ về những hậu quả bị chơi trước – bị đánh trước bằng cú đánh phủ đầu – nỗi sợ đó nhanh chóng xâm chiếm cả hai bên. Nếu cả hai chúng ta đều có một chút của cải riêng nào đó mà người khác có thể muốn chiếm, thì cái logic giết người ấy sẽ xâm chiếm chúng ta trước khi chúng ta có thể thẹn thùng nhận ra rằng chúng ta thực sự có thể giao thiệp để giúp đỡ nhau xây dựng những ngôi nhà ngay từ đầu. Trừ những phương thức riêng của mình, các tác nhân duy lý sẽ không bao giờ thu được lợi lộc trong sự hợp tác, và thay vào đó sẽ sống tách biệt khỏi tình trạng ban đầu trong một nhà nước của cuộc chiến của “tất cả mọi người chống lại tất cả mọi người”, theo cách nói của Hobbes. Trong trạng huống đó, toàn bộ cuộc sống của con người như ông đã mô tả một cách sinh động, sẽ là một cuộc sống “đơn độc, nghèo nàn, hiểm ác, hung dữ và đoản mệnh”.
Giải pháp do Hobbes đề xuất cho vấn đề này là chuyên chế. Người ta có thể thuê một tác nhân – một chính phủ để chuyên trừng phạt bất cứ ai bội ước. Chừng nào sự trừng phạt để răn đe trở nên đủ mức tàn khốc – Hobbes nghĩ việc chém đầu nói chung là thích đáng – thì chi phí cho việc bội ước sẽ vượt quá chi phí cho việc giữ đúng lời hứa. Trong trường hợp này rõ ràng logic ấy giống hệt như cái logic do quân đội sử dụng khi nó dọa bắn những người đào ngũ. Nếu tất cả mọi người đều biết rằng các động cơ này là để giữ cho những người khác thì việc hợp tác sẽ không chỉ là có thể mà nó sẽ trở thành một chuẩn mực đáng mong ước, và cuộc chiến của mọi người chống lại tất cả mọi người sẽ trở thành một cuộc thái bình.
Hobbes đã đẩy lập luận lôgic này đến một kết luận rất mạnh mẽ khi cho rằng nó ám chỉ không chỉ một chính phủ có đủ quyền và quyền lực để cưỡng bức hợp tác, mà còn là một chính phủ “không bị chia sẻ” trong đó ý chí độc đoán của một vị thủ lĩnh duy nhất phải ấn định các nghĩa vụ tuyệt đối lên tất cả. Một số lý thuyết gia chính trị hiện đại cho rằng những bước đi đặc biệt mà nhờ đó Hobbes đề xuất con đường đi đến kết luận này của ông vừa hợp lý, vừa có giá trị. Tuy nhiên nếu chỉ bàn về những vấn đề này thì có lẽ chúng ta đã đi chệch ra khỏi để tài chính để dấn sâu vào một vấn đề rất phức tạp của triết học chính trị khế ước. Điều quan trọng trong ngữ cảnh hiện nay là các chi tiết này, như chúng luôn được bàn đến trong các cuộc tranh cãi hiện nay, tất cả đều liên quan đến việc lý giải một cách tinh xảo các vấn đề ấy bằng cách sử dụng các nguồn của lý thuyết trò chơi hiện đại. Hơn nữa, vấn đề cơ bản nhất của Hobbes, cái lý lẽ cơ bản cho cái quyền lực cưỡng bách và những họat động thực tiễn của chính phủ là nhu cầu riêng để tự bảo vệ họ khỏi cái mà các lý thuyết gia trò chơi gọi là “các nan đề xã hội” được nhiều, nếu không nói là tất cả các nhà lý thuyết chính trị chấp nhận. Cần phải lưu ý rằng Hobbes đã không cho rằng chuyên chế là một cái gì tự thân nó là đáng khao khát. Cấu trúc lập luận của ông là ở chỗ logic của các tương tác chiến lược chỉ để lại hai kết quả chính trị khả thể: chuyên chế và vô chính phủ. Vậy là các tác nhân duy lý chọn chuyên chế như là một thứ đỡ xấu hơn trong hai cái xấu.
Suy lý của Cortez, của Henry V và của Hobbes về các tác nhân chính trị có một logic chung, một thứ logic xuất phát từ các tình huống của họ. Trong mỗi trường hợp, khía cạnh môi trường là quan trọng nhất đối với việc tác nhân đạt được các kết quả ưa thích của họ là một tập hợp những mong muốn phản động lực khả thể đối với các chiến lược của các tác nhân khác. Sự khác biệt giữa cách hành động theo thông số về một thế giới thụ động và cách hành động không theo thông số về một thế giới cố gắng hành động bằng sự tiên liệu trước về những hành động này thì sự khác biệt đó là rất cơ bản. Nếu bạn muốn bẩy một hòn đá lăn xuống chân đồi thì bạn chỉ cần quan tâm đến cái khối lượng của hòn đá tương quan với sức bẩy của cơ thể bạn, ở mức độ nào thì nó được đẩy đi với sự trợ giúp của bề mặt đồi, độ dốc của quả đồi, bề mặt của hòn đá, và lực tác động mà chân bạn đẩy hòn đá đi. Các giá trị của toàn bộ các biến số đó đều độc lập với các kế hoạch và ý định của bạn, vì hòn đá không có những lợi ích tự thân của nó, nó không thể hành động để cố gắng trợ giúp cho bạn hoặc cản trở bạn. Ngược lại nếu bạn muốn đẩy một người xuống đồi, trừ khi người ấy không có ý thức, bị trói hoặc bị thiểu năng còn thì bạn sẽ không thể làm được trừ khi bạn che giấu các kế hoạch của mình cho đến khi quá muộn cho người đó để tránh bạn hoặc ngăn chặn hành động của bạn. Vấn đề logic gắn liền với tình huống thứ hai phức tạp hơn nhiều khi chúng ta đưa ra một ví dụ giả định đơn giản để minh họa.
Giả sử bạn muốn đi ngang qua một con sông có ba chiếc cầu (Giả sử việc bơi, lội, đi thuyền đều không thể được). Bạn biết rằng chiếc cầu đầu tiên an toàn và không có trở ngại gì; nếu bạn cố đi qua đó, bạn sẽ thành công. Chiếc cầu thứ hai nằm dưới chân một mỏm đá trên đó có những tảng đá lớn thỉnh thoảng vẫn rơi xuống. Chiếc cầu thứ ba thì có những con rắn hổ mang rất độc sống ở đó. Giờ đây giả sử bạn muốn phân hạng ba chiếc cầu đó theo mức độ ưa thích của bạn. Nhiệm vụ của bạn hoàn toàn là ở phía trước. Chiếc cầu đầu tiên rõ ràng là tốt nhất, vì nó an toàn nhất. Để xếp hạng hai chiếc cầu còn lại bạn cần có thông tin về các cấp độ liên quan đến mức nguy hiểm của nó. Nếu bạn có thể nghiên cứu được tần xuất đá rơi và sự họat động của các con rắn hổ mang thì thì bạn có thể tính được bạn bị đá rơi trúng ở chiếc cầu thứ hai là 10% và bị rắn hổ mang tấn công là 20%. Sự suy lý của bạn ở đây là một sự suy lý thông số chặt chẽ vì không phải là những tảng đá, cũng không phải là những con rắn hổ mang đang cố tác động đến hành động của bạn, bằng cách chẳng hạn như che giấu các mô thức hành vi điển hình có lẽ chúng biết bạn đang nghiên cứu chúng.Cái mà bạn nên làm ở đây là hoàn toàn rõ ràng: đi qua chiếc cầu an toàn. Bây giờ chúng ta hãy phức tạp hóa tình huống lên một chút. Giả sử cây cầu có đá lăn ở ngay trước mặt bạn, trong khi cây cầu an toàn lại ở cách xa một ngày đường đi bộ về phía thượng nguồn. Tình huống ra quyết định của bạn ở đây lại phức tạp hơn một chút. Bạn lại phải quyết định xem liệu chi phí cho cuộc đi bộ ấy có đáng để đổi lấy khoản phạt 10% cơ hội bị đá rơi vào người không. Tuy nhiên đây là toàn bộ những gì mà bạn phải quyết định, và khả năng vượt sông thành công của bạn là hoàn toàn phụ thuộc vào bạn; môi trường không hề quan tâm gì đến kế hoạch của bạn cả.
Tuy nhiên nếu giờ đây chúng ta lại phức tạp hóa tình huống theo hướng phi tham số thì tình hình sẽ trở nên rắc rối hơn nhiều. Giả sử bạn là một loại người trốn chạy nào đó và một người có một khẩu súng đang đợi bạn một bên bờ sông. Bà ta sẽ đuổi kịp, và bắn bạn, chúng ta giả định như vậy, nếu chỉ khi bà ta đợi ở chiếc cầu mà bạn cố vượt qua; nếu không thì bạn đã thoát. Vì bạn suy lý thông qua việc lựa chọn một cây cầu, nên điều xảy đến với bạn là bà ta cứ ở đấy vì đã đoán biết được ý định của bạn. Chắc chắn vấn đề xảy ra là việc lựa chọn cây cầu an toàn để vượt qua sẽ là một sai lầm, vì bà ta chỉ đợi bạn ở đó, và cơ hội chết của bạn là chắc chắn. Vì vậy có lẽ bạn sẽ mạo hiểm với những tảng đá vì lựa chọn này vẫn ổn hơn nhiều. Nhưng chờ đợi…nếu bạn có thể đi tới gần đến kết quả thì người đuổi bạn là một người duy lý và có thông tin chính xác hệt như bạn có thể đoán biết rằng bạn sẽ đến đó và sẽ đợi bạn nếu bạn lẩn tránh những tảng đá.Vì vậy có lẽ bạn phải chớp lấy cơ hội với những con rắn hổ mang. Đó là nơi mà bà ta ít ngờ nhất. Nhưng sau đó, không…nếu bà ta hy vọng rằng bạn sẽ trông mong một điều mà bà ta ít chờ đợi nhất ấy, thì bà ta lại hy vọng vào điều đó nhất. Nan đề này bạn nhận ra với một sự kinh hoàng là như sau: bạn phải làm cái công việc mà người săn đuổi bạn ít trông chờ nhất: nhưng bất cứ cái gì bạn cho là bà ta ít hy vọng nhất thì tự nhiên cái đó bà ta lại hy vọng nhất. Dường như bạn đã bị rơi vào một cái bẫy tình huống không thể quyết định được. Toàn bộ những gì an ủi bạn chỉ là một chút xíu: ở bờ sông bên kia người săn đuổi bạn cũng bị mắc chính vào cái bẫy khó xử đó, không thể quyết định được nên đợi ở cây cầu nào,vì ngay khi bà ta hình dung phải đợi ở cây cầu này thì bà ta lại nhận ra rằng nếu bà ta có thể tìm ra một lý do tốt hơn để chọn được một cây cầu, thì bạn có thể đoán trước được đúng cái lý do đó và để rồi lại tránh bà ta.
Từ kinh nghiệm chúng ta biết được rằng trong các tình huống như thế này, người ta không phải luôn luôn chịu đựng và run sợ vĩnh viễn trong những vòng tròn. Dưới đây chúng ta sẽ thấy có một giải pháp duy lý đó là một hành động duy lý nhất – có sẵn cho cả hai người chơi. Tuy nhiên cho đến những năm 1940s vẫn chưa có nhà triết học hay nhà kinh tế nào biết cách phát hiện ra nó bằng các thuật toán. Kết quả là các nhà kinh tế học buộc phải xử lý các tác động phi-tham số hệt như chúng là những biến tướng của các tác động tham số vậy. Điều này có vẻ như tác động mạnh vào độc giả, vì như ví dụ của chúng ta về vấn đề qua cầu để muốn chỉ ra những đặc trưng phi tham số thường là những đặc trưng cơ bản của các vấn đề ra quyết định. Một phần của lý giải này cho việc tiếp cận tương đối muộn của lý thuyết trò chơi đối với các lĩnh vực nằm trong các vấn đề mà các nhà kinh tế đã quan tâm về phương diện lịch sử. Các nhà kinh tế học cổ điển như Adam Smith và David Ricardo, chủ yếu quan tâm đến vấn đề các tác nhân trong các thị trường rộng lớn – toàn bộ các quốc gia – có thể tương tác sao cho nảy sinh ra sự thịnh vượng tiền tệ tối đa cho chính bản thân các quốc gia đó. Hiểu biết cơ bản của Smith, cái hiệu quả đó đã được tối đa hóa bởi các tác nhân tự do tìm kiếm những thương thảo lợi thế chung, trong thế kỷ XX về phương diện toán học là rất đa dạng. Tuy nhiên biểu hiện của sự kiện này lại chỉ nằm ở các điều kiện của “cạnh tranh hoàn hảo”, nghĩa là khi các công ty đối diện với không phải là những khoản chi phí vào hoặc ra đối với các thị trường, khi không có hiệu quả kinh tế một cách qui mô, và khi không có hành động của các tác nhân có những hiệu ứng phụ không định trước đối với sự thịnh vượng của các tác nhân khác. Các nhà kinh tế luôn luôn nhận ra rằng tập tiền đề này thuần túy là một sự lý tưởng hóa vì các mục đích phân tích mà không phải là một thực trạng sự việc mà bất cứ ai cũng có thể cố (hoặc nên cố thử) để đạt tới. Nhưng cho đến khi toán học về lý thuyết trò chơi chín muồi vào gần cuối những năm 1970s thì các nhà kinh tế học đã phải hy vọng rằng một thị trường càng gần giống với một thị trường cạnh tranh hoàn hảo thì nó càng hiệu quả. Tuy nhiên không phải một hy vọng như vậy về phương diện toán học hay logic có thể được minh xác nói chung; thực sự thì như là một sự khái quát hóa chặt chẽ có thể được chứng tỏ là giả.
Bài viết này không phải để nói về những cơ sở của triết học, nhưng việc tìm hiểu về các nguồn gốc và phạm vi của lý thuyết trò chơi lại rất quan trọng để biết được rằng những thị trường cạnh tranh hoàn hảo đã biến chúng thành một đặc điểm miêu tả chúng là nhậy cảm đối với phép phân tích hình tháp. Vì các tác nhân không có cách tiếp cận chi phí đối với thị trường nên họ phải mở cửa hàng ở bất cứ thị trường nhất định nào họ đến khi cạnh tranh biến tất cả các lợi nhuận thành số không. Điều này ẩn ý một khoản tiền thưởng nếu các khoản chi phí và nhu cầu là cố định thì các tác nhân không có sự lựa chọn về vấn đề phải sản xuất bao nhiêu nếu họ cố tối đa hóa các khác biệt giữa chi phí và doanh thu của họ. Các mức sản xuất này có thể được xác định riêng biệt đối với mỗi tác nhân, vậy là không có tác nhân nào cần chú ý đến cái mà những tác nhân khác đang thực hiện; mỗi tác nhân cư xử với các đối tác của mình như là những đặc điểm thụ động của môi trường. Loại tình huống khác mà các phân tích kinh tế cổ diển có thể ứng dụng mà không cần trông cậy vào lý thuyết trò chơi là tình huống độc quyền. Trong trường hợp này hoàn toàn rõ ràng là những xem xét phi tham số phải bỏ dở chừng, vì chỉ có một tác nhân được nghiên cứu. Tuy nhiên kể cả cạnh tranh độc tài lẫn hoàn hảo đều là những sắp xếp thị trường rất đặc biệt và khác thường. Vì vậy, trước khi xuất hiện lý thuyết trò chơi các nhà kinh tế học đã bị giới hạn một cách chặt chẽ vào lớp các trường hợp mà đối với nó họ có thể áp dụng các mô hình của họ một cách gọn gàng.
Các nhà triết học có chung với các nhà kinh tế một mối quan tâm về các điều kiện và kỹ thuật cho việc tối đa hóa phúc lợi của con người. Hơn nữa các nhà triết học lại có mối quan tâm đặc biệt đối với những lý lẽ logic của các hành động, và thông thường các hành động phải được biện hộ bằng cách qui chiếu vào các kết quả đáng mong đợi của chúng. Không có lý thuyết trò chơi tất cả các vấn đề này đều ngược lại với sự phân tích mà bất cứ ở đâu các khía cạnh phi tham số cũng đều thích hợp. Chúng ta sẽ thể hiện điều này một cách vắn tắt bằng cách qui chiếu vào trò chơi nổi tiếng nhất (mặc dù không phải là điển hình nhất), đó là trò chơi Nan đề của hai người tù, và qui chiếu vào những trò chơi điển hình hơn. Bằng cách làm như vậy, chúng ta sẽ cần phải giới thiệu, định nghĩa và minh họa những yếu tố cơ bản và các kỹ thuật của lý thuyết trò chơi. Chúng ta sẽ quay trở lại với vấn đề này ngay dưới đây.
2. Các Định đề của Lý thuyết Trò chơi
2.1. Tiện ích
Theo định nghĩa, một tác nhân là một thực thể có các sở thích. Các lý thuyết gia trò chơi, như các nhà kinh tế học và triết học khi nghiên cứu việc ra quyết định, mô tả những sở thích này bằng một phương tiện khái niệm được gọi là tiện ích. Điều này gắn liền với một số “phúc lợi” mà một tác nhân thu được từ một đối tượng hoặc một sự kiện. Bằng khái niệm phúc lợi, chúng tôi muốn nói đến một chỉ số định chuẩn nào đó của tình trạng hạnh phúc tương đối, được biện hộ bởi việc viện tới một khung cơ sở nào đó. Chẳng hạn chúng ta có thể đánh giá phúc lợi tương đối của các nước (mà chúng ta có thể xây dựng mô hình như là một tác nhân cho những mục đích nào đó) bằng cách xem xét các khoản thu nhập tính trên đầu người của họ, và chúng ta có thể đánh giá phúc lợi tương đối của một động vật trong bối cảnh tiên liệu trước và lý giải cấu trúc hành vi của nó, bằng cách xem xét tình trạng sức khỏe đáng mong muốn của nó. Trong trường hợp con người, điển hình nhất là trong kinh tế học và các ứng dụng lý thuyết trò chơi để đánh giá phúc lợi tương đối của họ bằng cách xem xét những phán đoán ẩn hoặc hiện về nó. Vì vậy một người rất mê vị của các loại dưa chua, nhưng lại không thích hành nên kết hợp tiện ích cao hơn với các quốc gia trên thế giới trong đó tất cả mọi thứ khác đều tương đương, ở đó bà ta tiêu thụ nhiều loại dưa chua hơn và ít hành hơn so với các quốc gia mà bà ta tiêu thụ nhiều hành, nhưng lại ít dưa chua hơn. Những ví dụ như vậy gợi ý rằng “tiện ích” bao hàm một cách đo mức độ thực hành tâm lý của chủ thể, và đó thực sự là cách thức lý giải chung (mặc dù không phải luôn luôn như vậy) khái niệm này trước những năm 1930s. Tuy nhiên trong thập kỷ này các nhà kinh tế và các nhà triết học chịu ảnh hưởng của hành vi luận đã phản đối việc sử dụng một cách lý thuyết các thực thể không thể quan sát được là “các thương số thực hành tâm lý”. Vì vậy nhà kinh tế học Paul Samuelson (1938) đã bắt đầu định nghĩa tiện ích với tư cách là một khái niệm thuần túy kỹ thuật. Tức là khi chúng ta nói rằng một tác nhân hành động sao cho có thể tối đa hóa cái tiện ích của tác nhân đó, chúng tôi muốn nói rằng bằng khái niệm “tiện ích” đơn giản là bất cứ cái gì mà hành vi của tác nhân gợi lên cho mình khiến cho tác nhân đó mong muốn một cách thích hợp. Các lý thuyết gia theo Samuelson có ý định tuyên bố “các tác nhân hành động sao cho có thể tối đa hóa tiện ích của họ” như một lặp thừa. Giống như những phép lặp thừa khác đang xuất hiện trong các cơ sở của các lý thuyết khoa học, nó là hữu dụng không phải tự thân nó, mà vì nó giúp cố định các ngữ cảnh của chúng ta về vấn đề đặt ra.
Mặc dù chúng ta có thể không còn bị ảnh hưởng bởi những đắn đo cân nhắc xuất phát từ hành vi luận tâm lý, thì nhiều lý thuyết gia vẫn tiếp tục theo cách của Samuelson trong việc tìm hiểu tiện ích vì họ nghĩ nó quan trọng đến mức là lý thuyết trò chơi áp dụng vào bất cứ tác nhân nào – một con người, một con ong, một công ty, hoặc một quốc gia – và không chỉ vào các tác nhân có tư duy của con người. Khi những lý thuyết gia ấy nói rằng các tác nhân hành động sao cho có thể tối đa hóa tiện ích của họ thì có nghĩa là họ muốn điều này trở thành một bộ phận của cái định nghĩa về một tác nhân, mà không phải là một khẳng định về những tình trạng và động cơ khả thể bên trong. Quan niệm của Samuelson về tiện ích được định nghiã theo cách của Thuyết ưa chuộng bộc lộ (RPT – Revealed Preference Theory) được đưa ra trong một bài viết kinh điển của ông (Samuelson 1938) đã thỏa mãn được yêu cầu này. Một số lý thuyết gia khác hiểu về lý thuyết trò chơi theo những cách khác nhau. Họ nhìn lý thuyết trò chơi như là một nguồn cung cấp một cách lý giải về sự suy lý chiến lược. Vì tư tưởng này có thể áp dụng nên chúng tôi phải giả định rằng các tác nhân đôi khi ít nhất cũng làm cái điều mà họ làm trong những môi trường phi tham số vì logic lý thuyết trò chơi khuyến cáo về bất cứ một hành động nào với tư cách là những hành động duy lý. Vẫn có một số lý thuyết gia giải thích lý thuyết trò chơi theo cách định chuẩn, khi khuyên các tác nhân cần làm gì trong các bối cảnh chiến lược để họ có thể tối đa hóa tiện ích của mình. Rất may cho các mục đích của chúng ta là toàn bộ những cách suy nghĩ như vậy về những cách có thể sử dụng lý thuyết trò chơi đều tương hợp với sự giải thích theo phép lặp thừa về việc tối đa hóa các tiện ích. Tuy nhiên những khác biệt triết học không phải là vô ích nhìn từ quan điểm của một lý thuyết gia trò chơi đang thao tác. Như chúng ta sẽ thấy trong phần dưới đây, những ai hy vọng sử dụng lý thuyết trò chơi để lý giải sự suy lý chiến lược khi đối diện với một hành vi chiến lược duy nhất lại phải đương đầu với một số vấn đề thực tiễn và triết học đặc biệt.
Vì lý thuyết trò chơi liên quan đến sự suy lý hình thức nên chúng ta phải có một phương cách tư duy về sự tối đa hóa các tiện ích bằng các thuật ngữ toán học. Phương cách như vậy được gọi là hàm tiện ích. Bản đồ tiện ích cho một tác nhân được gọi là một “hàm” vì nó mô tả những sở thích theo trật tự những con số thực. Giả sử tác nhân x thích chùm a trên chùm b và chùm b trên chùm c. Sau đó chúng ta vẽ bản đồ các chùm này theo một trật tự các con số, mà ở đó hàm mô tả chùm có trật tự cao nhất lên trên con số lớn nhất trong trật tự, chùm cao thứ hai lên trên con số lớn nhất tiếp theo trong trật tự, vv…, vậy là
Chùm a >>3
Chùm b >>2
Chùm c >>1
Thuộc tính duy nhất được mô tả bằng hàm này là trật tự. Giá trị tuyệt đối của những con số này là không liên quan; có nghĩa là người ta nhất định không thể suy luận được rằng x nhận được tiện ích nhiều tới 3 lần từ chùm a cũng như bà ta đã nhận được từ chùm c. Vì vậy chúng ta có thể thể hiện một cách chính xác cùng một hàm tiện ích như ở trên bằng
Chùm a >>7,326
Chùm b>>12.6
Chùm c>>1,000,000
Vì vậy những con số mô tả đặc điểm trong một hàm tiện ích theo thứ tự không đo đếm bất cứ một định lượng của bất cứ cái gì cả. Một hàm tiện ích trong đó các giá trị tuyệt đối tạo ra vấn đề thì được gọi là hàm “bản số”. Bất cứ khi nào một ai đó qui chiếu vào một hàm bản số mà không xác định muốn đề cập đến loại nào thì bạn có thể cho rằng đó là dãy số thứ tự. Đó chính là loại mà chúng ta cần, một tập trò chơi đầu tiên mà chúng ta xem xét. Sau đó, khi chúng ta bắt đầu xem phải giải quyết những trò chơi ngẫu nhiên hóa này như thế nào – trò chơi qua sông của chúng ta ở Phần I ở trên chẳng hạn – chúng ta sẽ cần phải xây dựng các hàm tiện ích bản số. Kỹ thuật để thực hiện trò chơi này đã được von Neumann & Morgenstern (1947) đưa ra và là một thuộc tính thiết yếu của sự can thiệp trong lý thuyết trò chơi của họ. Tuy nhiên trong lúc này chúng ta chỉ cần các hàm thứ tự mà thôi.
2.2. Trò chơi và Thông tin
Toàn bộ các trạng huống trong đó ít nhất là một tác nhân có thể hành động đơn độc để tối đa hóa tiện ích của ông ta thông qua việc đoán biết trước (có thể có ý thức hoặc vô thức trong hành vi của ông ta) thì những phản ứng đối với hành động của ông ta bởi một hoặc nhiều tác nhân khác được gọi là một trò chơi. Các tác nhân tham gia vào trò chơi được gọi là các tay chơi. Nếu tất cả các tác nhân đều có những hành động tối ưu bất chấp cái mà tác nhân khác thực hiện như trong các tình huống hoặc điều kiện thuần túy tham số của sự độc quyền hoặc cạnh tranh hoàn hảo (xem phần 1 ở trên) thì chúng ta có thể xây dựng mô hình này mà không cần viện đến lý thuyết trò chơi; nếu không thì chúng ta lại cần tới nó.
Chúng ta cho rằng các tay chơi là những người duy lý về phương diện kinh tế. Có nghĩa là một tay chơi có thể (i) đánh giá các kết quả, (ii) tính toán các con đường để đến được với các kết quả; và (iii) chọn các hành động để đạt được những kết quả ưa thích nhất, những hành động nhất định của các tay chơi khác. Trong một vài trường hợp, tính duy lý này có thể được tác nhân tự tính toán. Trong những trường hợp khác, nó đơn giản được bao hàm trong những cấu trúc hành vi được tạo dựng bởi sự chọn lọc kinh tế, văn hóa hoặc tự nhiên. Đặc biệt, trong khi tìm kiếm một hành động “được lựa chọn” chúng tôi ngụ ý về một sự thận trọng không cần thiết, dù có ý thức hay không. Chúng tôi chỉ muốn nói rằng hành động đó được thực hiện khi có sẵn một hành động thay thế, theo một nghĩa nào đó của từ “có sẵn” được thiết lập một cách chính thường bởi bối cảnh của sự phân tích đặc biệt. Trong một trò chơi mỗi tay chơi đối diện với một lựa chọn giữa hai hay nhiều chiến lược khả dĩ hơn. Một chiến lược là một “chương trình chơi” được quyết định trước, chương trình đó nói với tay chơi cần phải thực hiện hành động nào để đáp trả mỗi chiến lược có thể mà tay chơi kia sử dụng. Ý nghĩa của cụm từ in nghiêng trên đây sẽ trở nên rõ ràng khi chúng ta đưa ra một số mẫu trò chơi dưới đây.
Một khía cạnh quyết định của việc xác định một trò chơi liên quan đến thông tin mà các tay chơi có khi họ lựa chọn các chiến lược. Những trò chơi đơn giản nhất (theo quan điểm cấu trúc logic) là những trò chơi mà các tác nhân có một nguồn thông tin hoàn hảo, có nghĩa là tại mỗi điểm, mỗi chiến lược của tác nhân nói cho tác nhân biết cần phải hành động, tác nhân đó biết mọi thứ xảy ra trong trò chơi cho đến thời điểm đó. Một trò chơi lớn tiếp theo trong đó tất cả các tay chơi đều quan sát toàn bộ hành động (và biết các luật chơi chung), chẳng hạn như luật chơi cờ, là một ví dụ về một trò chơi như vậy. Ngược lại, ví dụ về trò chơi qua cầu ở phần I đã minh họa một trò chơi có thông tin hoàn hảo, vì người trốn chạy phải chọn một chiếc cầu để qua mà không biết rằng chiếc cầu nào có người săn đuổi đang vác súng đợi anh ta ở đó, cũng tương tự như vậy, người săn đuổi thực hiện các quyết định mà không hề biết các động thái đá rơi ở mỏ đá. Vì lý thuyết trò chơi đề cập đến các hành động duy lý mà những hành động nhất định có ý nghĩa chiến lược của những tác nhân khác, bạn sẽ không ngạc nhiên khi người ta nói rằng cái mà các tác nhân trong trò chơi biết hoặc không biết, về mỗi hành động của tác nhân khác tạo ra một sự khác biệt đối với logic của các phân tích của chúng ta như chúng ta sẽ thấy dưới đây.
2.3. Hình cây và Ma trận
Sự khác biệt giữa các trò chơi có thông tin hoàn hảo và không hoàn hảo gắn liền với (mặc dù chắn chắn không giống hệt) sự khác biệt giữa những cách thể hiện các trò chơi dựa trên trật tự của trò chơi. Chúng ta hãy bắt đầu bằng cách phân biệt giữa những trò chơi vận động đồng thời và vận động theo trật tự trong khuôn khổ thông tin. Cũng rất tự nhiên khi chúng ta nghĩ về những trò chơi vận động theo trật tự là những trò chơi mà trong đó các tay chơi lựa chọn các chiến lược của họ theo thứ tự, và nghĩ về những trò chơi vận động đồng thời mà trong đó các tay chơi lựa chọn các chiến lược cùng một lúc. Tuy nhiên điều này không hoàn toàn đúng vì cái có tầm quan trọng chiến lược thì về bản chất lại không phải là trật tự thời gian của các sự kiện, nhưng liệu có phải, và khi nào thì các tay chơi biết về các hành động của những tay chơi khác liên quan đến việc lựa chọn của riêng họ. Chẳng hạn nếu hai doanh nghiệp cạnh tranh đều đang xây dựng kế hoạch các chiến dịch marketing thì một doanh nghiệp có thể cam kết với chiến lược của nó nhiều tháng trước khi doanh nghiệp kia thực hiện; nhưng nếu doanh nghiệp này không biết doanh nghiệp kia cam kết hoặc sẽ cam kết cái gì khi họ ra các quyết định thì đó là một trò chơi vận động đồng thời. Ngược lại cờ tướng thường được chơi một cách chính thường như một trò chơi vận động theo trình tự: bạn thấy hết nhưng gì mà đối thủ của bạn đã thực hiện trước khi bạn lựa chọn hành động tiếp theo của mình. (Đánh cờ có thể trở thành một trò chơi vận động đồng thời nếu như mỗi tay chơi đưa ra một vận động trên một bàn cờ chung; nhưng đây là một trò rất khó đối với cách chơi cờ truyền thống).
Như đã nói ở trên, sự khác biệt giữa những trò chơi vận động đồng thời và những trò chơi vận động theo thứ tự không hoàn toàn giống với sự khác biệt giữa các trò chơi có thông tin hoàn hảo hay không hoàn hảo. Việc lý giải tại sao điều này lại là như vậy là một việc rất thú vị trong cách tạo lập được một sự hiểu biết đầy đủ về tất cả các tập khái niệm đó. Vì các trò chơi vận động đồng thời được xác định đặc trưng ở đọan trước nên sự thật là toàn bộ những trò chơi vận động đồng thời là những trò chơi thuộc loại thông tin không hoàn hảo. Tuy nhiên một số trò chơi lại có thể bao gồm cả vận động đồng thời lẫn vận động theo thứ tự. Chẳng hạn hai công ty có thể cam kết thực hiện các chiến lược marketing của họ một cách độc lập và bí mật đối với nhau, nhưng sau đó họ lại cam kết cạnh tranh giá cả một cách công khai với nhau. Nếu các chiến lược marketing tối ưu phụ thuộc một cách bộ phận hoặc toàn thể vào cái hy vọng sẽ xảy ra trong trò chơi giá cả tiếp theo thì cần phải phân tích hai giai đoạn như là một trò chơi độc lập trong đó một giai đoạn chơi theo thứ tự tiếp theo bằng một giai đoạn chơi đồng thời. Toàn bộ các trò chơi liên quan đến các giai đoạn hỗn hợp như vậy là những trò chơi thuộc loại thông tin không hoàn hảo, tuy nhiên chúng cũng có thể được phân đọan một cách tạm thời. Các trò chơi thuộc loại thông tin không hoàn hảo (như tên gọi đã ẩn ý) thể hiện những trường hợp trong đó không có vận động nào là đồng thời (và ở đó không có tay chơi nào đã từng quên cái diễn ra trước đó).
Như đã nói ở trên, các trò chơi thuộc loại thông tin hoàn hảo về mặt logic là loại trò chơi đơn giản nhất. Nó là đơn giản nhất bởi vì trong các trò chơi đó (chừng nào các trò chơi kết thúc, tức là hoàn thành sau một số hành động đã biết) những tay chơi và các nhà phân tích có thể sử dụng một thủ tục minh bạch để dự đoán kết quả. Trong một trò chơi như vậy, một tay chơi duy lý chọn hành động đầu tiên của bà ta bằng cách suy tính mỗi loạt phản ứng và những loạt phản ứng lại xuất hiện từ mỗi hành động mở đối với bà ta. Sau đó bà ta tự hỏi mình xem những kết quả cuối cùng nào sẽ đem lại cho bà ta tiện ích cao nhất, và lựa chọn hành động bắt đầu chuỗi dẫn đến kết quả. Quá trình này được gọi là qui nạp ngược (vì sự suy lý diễn ra ngược lại từ các kết quả cuối cùng đến những vấn đề quyết định hiện tại).
Chúng ta cần phải dừng lại lâu hơn với vấn đề qui nạp ngược và những thuộc tính của nó trong phần sau (khi chúng ta bắt đầu thảo luận về sự cân bằng và những chọn lựa cân bằng). Đến đây chúng tôi đã mô tả nó theo trật tự để sử dụng nó nhằm giới thiệu một trong hai loại đối tượng toán học được sử dụng để thể hiện các trò chơi: cây trò chơi. Một cây trò chơi là một ví dụ về cái mà các nhà toán học gọi là một đồ hình có hướng. Đó là một tập các nút liên thông từ đỉnh trang đến đáy hoặc từ bên trái sang bên phải. Trong trường hợp thứ nhất các điểm nút ở đỉnh trang được lý giải là xuất hiện sớm hơn trong chuỗi hành động. Trong trường hợp của một cây được vẽ từ trái qua phải thì các nút phía trái xuất hiện trước trong chuỗi rồi đến các nút phía phải. Một cây không dán nhãn có cấu trúc kiểu loại sau:
Hình 1
Vấn đề thể hiện trò chơi bằng cách sử dụng hình cây có thể được hiểu một cách dễ dàng nhất bằng việc hiển thị cách sử dụng chúng trong việc trợ giúp sự suy lý qui nạp ngược. Hãy tưởng tượng một tay chơi (hay một nhà phân tích) bắt đầu ở cuối của cái cây, nơi đó các kết quả được hiển thị và sau đó hành động ngược trở lại từ đó bằng cách tìm kiếm các tập chiến lược mô tả tuyến đường dẫn đến các kết quả đó. Vì một hàm tiện ích của người chơi chỉ rõ những kết quả nào bà ta ưa thích hơn, chúng ta có thể biết con đường nào bà ta sẽ thích hơn. Tất nhiên không phải tất cả các đường dẫn sẽ đều khả thể vì một tay chơi khác cũng có vai trò chọn lựa những đường dẫn và sẽ không thực hiện các hành động dẫn đến những kết quả ít được ưa thích hơn đối với ông ta. Chúng ta sẽ đưa ra một số ví dụ về việc lựa chọn đường dẫn tương tác này, và các kỹ thuật chi tiết cho việc suy lý cho chúng, sau khi chúng ta đã mô tả một tình huống có thể sử dụng một cái cây để mô tả.
Những hình cây được sử dụng để thể hiện các trò chơi theo trật tự, vì chúng chỉ ra cái trật tự trong đó các hành động được những người chơi thực hiện. Tuy nhiên các trò chơi đôi khi cũng được thể hiện bằng các Ma trận chứ không phải là những hình cây. Đây là loại đối tượng toán thứ hai được sử dụng để thể hiện các trò chơi. Các ma trận không giống với những hình cây đơn giản chỉ ra các kết quả, được thể hiện trong các thuật ngữ của những hàm tiện ích của người chơi mà đối với mỗi kết hợp chiến lược khả thể tay chơi có thể phải sử dụng. Chẳng hạn có thể tạo thành ý nghĩa để hiển thị trò chơi qua sông trong phần I trên một ma trận, vì trong trò chơi này cả người chạy trốn lẫn kẻ truy đuổi đều chỉ có một vận động và mỗi người lựa chọn vận động của họ mà không hề biết người kia lựa chọn vận động nào. Vậy thì ở đây là phần của ma trận:
Hình 2
Chú thích hình 2:
– Cobra Bridge = cầu có rắn hổ mang
– Rocky Bridge = cầu có đá rơi
– Safe Bridge = cầu an toàn
– Fugitive = kẻ chạy trốn
– Hunter = người săn
Ba chiến lược khả thể của người chạy – qua chiếc cầu an toàn, những tảng đá có nguy cơ bị rơi và nguy cơ gặp rắn hổ mang – tạo thành các hàng của ma trận. Tương tự như vậy ba chiến lược khả thể của người săn đuổi – đợi ở chiếc cầu an toàn, đợi ở chiếc cầu có đá rơi, và đợi ở chiếc cầu có rắn hổ mang – tạo thành cột của ma trận. Mỗi ô của ma trận chỉ rõ hoặc sẽ chỉ rõ nếu ma trận của chúng ta hoàn thiện – một kết quả được xác định trong khuôn khổ những khoản được trả của người chơi. Một khoản được trả của người chơi đơn giản là một con số được ấn định bởi hàm tiện ích thứ tự của bà săn đuổi cho hiện trạng của các sự kiện phù hợp với kết quả. Đối với mỗi kết quả, khoản được trả của Hàng luôn luôn được kê trước hết, sau đó đến khoản được trả của Cột. Vì vậy chẳng hạn như góc trái ở trên cùng cho thấy rằng khi người chạy trốn đi qua chiếc cầu an toàn còn người săn đuổi cũng đang chờ ở đó thì người chạy trốn nhận được một khoản được trả bằng 0, và người săn đuổi nhận được khoản được trả bằng 1. Chúng ta lý giải điều này bằng cách qui chiếu vào hàm tiện ích của họ mà trong cuộc chơi này là rất đơn giản. Nếu người chạy trốn qua sông được an toàn thì anh ta nhận được một khoản được trả là 1; nếu không an toàn thì anh ta được 0. Nếu người chạy trốn không thực hiện được vì anh ta bị bắn hoặc bị đá rơi vào hoặc bị rắn hổ mang tấn công thì người săn đuổi nhận được khoản được trả là 1 và người chạy trốn là 0.
Chúng tôi sẽ giải thích vắn tắt các phần của ma trận đã được ghi số, và sau đó nói rõ tại sao chúng ta vẫn không thể hoàn thiện được các ô còn lại. Bất cứ khi nào người săn đuổi đợi ở chiếc cầu mà người chạy trốn lựa chọn thì người chạy trốn sẽ bị bắn. Tất cả những kết quả này tạo ra vector của khoản được trả là (0, 1). Bạn có thể tìm ra chúng bằng cách vạch chéo xuống qua ma trận từ góc phía trên bên trái xuống. Bất cứ khi nào mà người bỏ trốn chọn chiếc cầu an toàn nhưng người săn đuổi lại đợi ở chỗ khác thì người chạy trốn qua sông được an toàn, bằng cách nhận được khoản được trả theo vector (1, 0). Hai kết quả này được chỉ rõ trong hai ô thứ hai của hàng đầu. Đến lúc này toàn bộ những ô còn lại được đánh dấu bằng dấu hỏi. Tại sao? Vấn đề ở đây là nếu người bỏ trốn qua sông ở chỗ cây cầu đá rơi hoặc chỗ cây cầu có rắn hổ mang thì anh ta đã đưa các yếu tố tham số vào trò chơi. Trong những trường hợp này anh ta đã hứng lấy rủi ro bị giết, và vì vậy mà tạo ra vector khoản được trả là (0, 1), có nghĩa là độc lập với bất cứ cái gì người săn đuổi làm. Chúng ta vẫn chưa giới thiệu đủ khái niệm để có thể chỉ rõ phương thức thể hiện các kết quả này như thế nào trong khuôn khổ của các hàm tiện ích – nhưng đã đến lúc chúng ta phải kết thúc cái điều mình cần kết thúc và điều đó sẽ cung cấp cho ta chiếc chìa khóa để giải vấn đề rắc rối ở phần I.
Các trò chơi ma trận được qui vào những trò chơi “dạng – chiến lược” hay “dạng – thông thường”, và các trò chơi như những hình cây được qui vào “dạng- mở rộng”. Hai loại trò chơi ấy không tương đương với nhau, vì những trò chơi dạng mở rộng bao gồm thông tin – về những trật tự chơi và các cấp độ thông tin về cấu trúc trò chơi của tay chơi – các trò chơi dạng chiến lược lại không có. Nhìn chung một trò chơi dạng chiến lược có thể thể hiện bất cứ một vài dạng trò chơi mở rộng nào, vì vậy một trò chơi dạng chiến lược được coi là một tập trò chơi mở rộng tốt nhất. Khi trật tự của trò chơi không liên quan đến một kết quả của trò chơi thì bạn nên nghiên cứu dạng chiến lược của nó, vì đó là toàn bộ cả tập mà bạn muốn biết về nó. Chỗ nào mà trật tự của trò chơi có liên quan thì dạng mở rộng của nó phải được xác định hoặc các kết luận của bạn sẽ không đáng tin cậy.
2.4. Nan đề người tù như là một ví dụ về dạng chiến lược
Những khác biệt được mô tả ở trên sẽ khó nắm bắt được đầy đủ nếu tất cả những gì mà người ta phải làm là những mô tả trừu tượng. Chúng được minh họa tốt nhất bằng một ví dụ. Với mục đích này chúng ta sẽ sử dụng trò chơi nổi tiếng nhất: trò chơi PD [Nan đề của người tù]. Nó thực sự cho chúng ta một logic về vấn đề mà những người lính của Cortez và của Henry V phải đối mặt, và kể cả các tác nhân của Hobbes cũng vậy trước khi họ tăng cường tính chuyên chế. (Phần I ở trên). Tuy nhiên đối với những lý do sẽ được làm rõ ngay dưới đây, bạn sẽ không coi PD như là một trò chơi điển hình; nó không hề điển hình. Chúng tôi sử dụng nó như một ví dụ mở rộng chỉ vì nó đặc biệt hữu ích cho việc minh họa mối quan hệ giữa các trò chơi loại hình chiến lược và những trò chơi loại hình mở rộng (và sau đó để minh họa cho các mối quan hệ giữa các trò chơi duy nhất một lần và được lặp lại; xem Phần 4 dưới đây).
Tên của trò chơi nan đề người tù được bắt nguồn từ tình huống sau điển hình được sử dụng để làm thí dụ cho nó. Giả sử viên cảnh sát đã bắt hai người mà họ biết là có tham gia vào một vụ cướp có vũ khí. Nhưng không may họ lại thiếu bằng chứng có thể chấp nhận một cách đầy đủ để thành lập một ban hội thẩm để xử án. Tuy nhiên họ lại có đủ bằng chứng để bắt những người tù này trong hai năm vì tội ăn trộm xe ô tô để chạy trốn. Giờ đây chánh thanh tra thực hiện một đề nghị như sau đối với mỗi người tù: nếu anh nhận tôi ăn cướp khi dính líu đến cả người cùng hành động với anh , mà cô ta lại không nhận thì anh sẽ được tự do, còn cô ta sẽ phải chịu 10 năm tù. Nếu cả hai cùng nhận tội thì anh sẽ phải chịu 5 năm tù. Nếu cả hai không nhận tội thì mỗi người sẽ phải chịu 2 năm vì tội ăn trộm xe. Bước đầu tiên chúng ta cần lên mô hình tình huống của bạn với tư cách một trò chơi là thể hiện nó dưới dạng các hàm tiện ích. Cả bạn và các hàm tiện ích của đối tác của bạn là giống hệt như nhau:
Được thả >>4
2 năm tù >>3
5 năm tù >>2
10 năm tù >> 0
Các con số trong hàm trên giờ đây được sử dụng để thể hiện cái khoản phải trả của đối tác của bạn bằng những kết quả khác nhau có thể xảy ra đối với tình huống của bạn. Chúng ta sẽ coi bạn là “Người chơi I” và đối tác của bạn là “người chơi II”. Giờ đây chúng ta có thể thể hiện toàn bộ tình huống trên một ma trận; đây là loại hình chiến lược trong trò chơi của bạn.
Hình 3
Chú thích hình 3:
– Confess = thú tội
– Refuse = từ chối
– Player = người chơi
Mỗi ô của ma trận để ghi những khoản phải trả cho cả hai người chơi đối với mỗi kết hợp các hành động. Khoản phải trả của người chơi I thể hiện bằng số đầu tiên của mỗi cặp; người chơi II là số thứ hai. Vì vậy nếu cả hai đều nhận tội thì mỗi người nhận được một khoản phải trả là 2 (năm 5 tù cho mỗi người). Điều này thể hiện trong ô phía trên, bên trái. Nếu cả hai người đều nhận tội thì mỗi người nhận được khoản phải trả là 3 (mỗi người 2 năm tù). Điều này được thể hiện ở ô thấp bên phải. Nếu bạn nhận tội và đối tác của bạn không nhận thì bạn sẽ nhận được khoản phải trả là 4 (được trả tự do) và cô ta sẽ nhận được một khoản phải trả là 0 (10 năm tù). Điều này được thể hiện ở ô phía trên, bên phải. Tình huống đảo ngược khi cô ta nhận tội còn bạn thì từ chối, thể hiện ở ô thấp bên trái.
Bạn đánh giá hai hành động khả thể của mình bằng cách so sánh những khoản phải trả của bạn trong mỗi cột, vì điều này sẽ chỉ cho bạn thấy những hành động nào của bạn được ưa thích đối với mỗi hành động có thể mà đối tác của bạn sẽ thực hiện. Vì vậy hãy quan sát: nếu đối tác của bạn nhận tội thì bạn sẽ nhận một khoản phai trả là 2 bằng cách nhận tội và một khoản phải trả là 0 bằng cách từ chối. Nếu đối tác của bạn từ chối bạn sẽ nhận một khoản phải trả là 4 bằng cách nhận tội và một khoản phải trả là 3 bằng cách từ chối.
Vì vậy tốt hơn hết là bạn nhận tội bất kể cô ta hành động như thế nào. Trong khi đó đối tác của bạn đánh giá các hành động của cô ta bằng cách so sánh các khoản phải trả của cô ta dưới mỗi hàng, và cô ta bắt đầu đi tới cùng một kết luận hệt như bạn. Bất cứ ở đâu một hành động cho một người chơi đều được xếp cao hơn so với những hành động khác của cô ta cho mỗi hành động có thể bởi đối phương thì chúng ta nói rằng hành động đầu tiên thống trị một cách nghiêm nhặt hành động thứ hai. Vậy thì trong trò chơi PD, hành động nhận tội thống trị một cách nghiêm nhặt hành động chối tội đối với cả hai người chơi. Cả hai người chơi đều biết tình huống này đối với người kia, vì vậy việc hoàn toàn bỏ đi bất cứ sự cám dỗ nào đi trệch khỏi con đường thống trị một cách nghiêm nhặt. Vì vậy cả hai người chơi sẽ đều nhận tội, và cả hai sẽ đều ngồi tù 5 năm.
Những người chơi và các nhà phân tích có thể dự đoán được kết quả này bằng cách sử dụng một thủ tục cơ giới, gọi là sự loại bỏ lặp lại các chiến lược thống trị nghiêm nhặt. Bạn với tư cách là người chơi I có thể thấy bằng cách xem xét cái ma trận mà những khoản phải trả của bạn trong mỗi ô của hàng trên cùng là cao hơn những khoản phải trả của bạn trong mỗi ô tương ứng của hàng dưới cùng. Vì vậy có thể là không bao giờ duy lý đối với bạn để thực hiện cái chiến lược hàng dưới cùng của bạn, tức là từ chối nhận tội, bất kể đối tác của bạn làm gì. Vì chiến lược hàng đáy của bạn sẽ không bao giờ được chơi nên cách đơn giản nhất đối với chúng ta là bỏ hàng đáy khỏi ma trận. Giờ đây rõ ràng là người chơi thứ hai sẽ không từ chối nhận tội vì cái khoản phải trả từ sự từ chối của ông ta trong hai ô vẫn cao hơn khoản phải trả vì chối tội. Vì vậy một lần nữa chúng ta lại có thể xóa bỏ cột một ô ở bên phải khỏi ma trận trò chơi. Giờ đây chúng ta chỉ còn một ô tương ứng với kết quả nảy sinh bởi cả hai cùng nhận tội. Khi sự suy lý dẫn chúng ta tới xóa bỏ toàn bộ những kết quả có thể khác, ở mỗi bước chỉ tùy thuộc vào cái tiên đề là cả hai người chơi đều duy lý về phương diện kinh tế – nghĩa là cả hai đều thích những khoản trả cao hơn cho những kết quả thấp hơn – có những cơ sở rất chắc chắn cho việc coi hành động cùng nhận tội là giải pháp đối với trò chơi, mà kết quả trò chơi phải hội tụ vào nó. Bạn nên lưu ý rằng cái trật tự mà trong đó các hàng và các cột thống trị một cách nghiêm nhặt bị xóa đi là không có vấn đề gì. Chúng ta đã bắt đầu bằng việc xóa cột tay phải và sau đó xóa hàng đáy thì chúng ta sẽ đạt tới được cùng một giải pháp.
Điều đó nói lên rằng một cặp số lần mà trò chơi PD không phải là một trò chơi điển hình theo nhiều phương diện. Một trong những phương diện này là ở chỗ tất cả các hàng và các cột đều được thống trị một cách nghiêm nhặt, và là những hàng và cột thống trị một cách nghiêm nhặt. Trong bất cứ trò chơi loại hình chiến lược nào mà ở đó điều này là thật thì sự xóa bỏ lặp lại của các chiến lược thống trị được đảm bảo để đạt được một giải pháp duy nhất. Tuy nhiên sau đó chúng ta sẽ thấy rằng đối với nhiều trò chơi thì điều kiện này không áp dụng được, vậy thì nhiệm vụ phân tích của chúng ta là ít tính minh bạch.
Có lẽ bạn đã nhận thấy một điều gì đó bối rối về kết quả của trò chơi PD. Cả hai người bạn đã từ chối nhận tội thì bạn sẽ đạt tới một kết quả ô bên phải phía dưới trong đó mỗi người chỉ đi tù hai năm, do đó cả hai khi đạt được tiện ích cao hơn bạn nhận được khi nhận tội. Đây là sự kiện quan trọng nhất về trò chơi PD, và ý nghĩa của nó đối với lý thuyết trò chơi là hoàn toàn tổng quát. Vì vậy chúng ta sẽ còn tiếp tục đề cập đến nó dưới đây khi chúng ta thảo luận về những khái niệm cân bằng trong lý thuyết trò chơi. Còn bây giờ chúng ta vẫn cần phải tiếp tục dừng lại ở việc sử dụng trò chơi đặc biệt này để minh họa cho sự khác biệt giữa các loại hình chiến lược và mở rộng.
Khi người ta đưa trò chơi PD vào các thảo luận đặc biệt thì đôi khi bạn sẽ nghe thấy người ta nói rằng thanh tra cảnh sát cần nhốt những người tù vào những phòng khác nhau để cho họ không thể giao tiếp với nhau. Việc suy lý đàng sau ý tưởng này dường như đã rõ ràng, nếu bạn có thể giao tiếp thì chắn chắn bạn sẽ thấy rằng tốt hơn hết là cả hai đều chối tội, và họ có thể thỏa thuận với nhau để làm điều đó được không? Điều này, người ta có thể đoán chừng là, sẽ gỡ bỏ việc thú tội của bạn là thứ mà bạn phải nhận vì đàng nào thì bạn cũngđược đối tác của mình nhường sạch toàn bộ con sông. Tuy nhiên thực tế thì cái cảm nhận này là sai lầm và kết luận của nó là giả.
Khi chúng ta thể hiện trò chơi PD như một trò chơi dạng chiến lược, thì có nghĩa là chúng ta đã ngầm tuyên bố rằng những người tù không thể cố gắng thỏa thuận theo kiểu thông đồng vì họ chọn các hành động của họ một cách đồng thời. Trong trường hợp này việc thỏa thuận trước sự kiện đó là không thể. Nếu bạn được thuyết phục rằng đối tác của bạn sẽ gắn kết với việc mặc cả thì bạn có thể nắm bắt được cơ hội để không phải trả giá bằng việc nhận tội. Tất nhiên bạn nhận ra rằng sự cám dỗ sẽ đến với cô ta, nhưng trong trường hợp đó bạn lại muốn đảm bảo rằng bạn thú tội, vì đó chỉ là cái cách của bạn để tránh những kết quả xấu nhất. Thỏa thuận của bạn trở nên vô tích sự vì bạn không có cách gì để biến nó thành hiệu lực; nó tạo ra cái mà các nhà lý thuyết trò chơi gọi là “chuyện vặt”.
Nhưng bây giờ chúng ta giả sử rằng bạn không vận động đồng thời. Có nghĩa là giả sử rằng một người trong số bạn có thể chọn sau khi quan sát hành động của người kia. Đây là loại tình huống mà người ta nghĩ là phi giao tiếp quan trọng phải có trong đầu. Giờ đây chúng ta có thể thấy rằng đối tác của bạn vẫn kiên định khi nó bắt đầu đối với lựa chọn của bạn, và bạn không cần quan tâm đến việc bị lừa. Tuy nhiên điều đó không thay đổi được gì, một vấn đề được thực hiện tốt nhất bằng việc tái thể hiện trò chơi dưới dạng mở rộng. Điều đó cho chúng ta cơ hội để giới thiệu cây trò chơi và phương pháp phân tích phù hợp với chúng.
Tuy nhiên trước hết đây là những định nghĩa về một số khái niệm sẽ trở nên hữu dụng trong việc phân tích các cây trò chơi;
Điểm nút: là một điểm mà ở đó một người chơi thực hiện một hành động.
Nút khởi đầu: là một điểm mà ở đó hành động đầu tiên trong trò chơi xuất hiện.
Nút đầu cuối: là bất kỳ nút nào nếu đạt tới thì kết thúc trò chơi. Mỗi nút đầu cuối đều tương hợp với một kết quả.
Trò chơi phụ: là bất kỳ tập điểm nút nào và các nhánh chỉ đi xuống từ một nút.
Khoản phải trả: là một số tiện ích trật tự được chỉ định cho một người chơi tại một kết quả.
Kết quả: là việc chỉ định một tập các khỏan phải trả của người này cho người kia trong trò chơi.
Chiến lược: là một chương trình chỉ dẫn cho người chơi cần thực hiện hành động nào trong mỗi điểm nút trong hình cây đó nơi mà cô ta có thể được đề nghị để thực hiện một chọn lựa.
Các định nghĩa nhanh này không thể có quá nhiều ý nghĩa đối với bạn đến khi nào mà chúng được đưa vào sử dụng trong các phân tích của chúng ta về những hình cây ở dưới. Có lẽ sẽ là tốt nhất nếu bạn cuộn ngược và hướng về phía trước giữa chúng và những ví dụ khi chúng ta thực hiện với chúng. Cho đến khi bạn hiểu ra mỗi ví dụ , bạn sẽ phát hiện ra những khái niệm và các định nghĩa về chúng một cách hoàn toàn tự nhiên và trực giác.
Để làm cho bài tập này mang tính chỉ dẫn, chúng ta hãy giả định rằng bạn và đối tác của bạn đã nghiên cứu ma trận trên và khi nhận ra rằng cả hai bạn đều trở nên khá hơn trong kết quả được thể hiện ở ô dưới bên phải đã làm nên một thỏa thuận để hợp tác. Trước hết bạn cam kết vào việc từ chối mà ở điểm đó cô ta sẽ đáp lại. Chúng ta sẽ xem xét một chiến lược giữ vững thỏa thuận như một sự “hợp tác”, và sẽ gộp nó vào trong hình cây phía dưới bằng ký hiệu “C”. Chúng ta sẽ xem xét một chiến lược đột phá vào thỏa thuận đó như một sự “đảo ngũ”, và sẽ đưa nó vào hình cây phía dưới với ký hiệu “D”. Như trước, bạn là I và đối tác của bạn là II. Mỗi nút được đánh số 1,2,3…vv, từ đỉnh đến đáy cho dễ thảo luận. Vậy là ở đây là hình cây:
Hình 4
Trước hết hãy nhìn vào mỗi điểm nút đầu cuối (là những nút dọc theo đáy hình). Các nút này thể hiện những kết quả có thể. Mỗi nút được xác định bằng một ấn định khoản phải trả, hệt như trong trò chơi loại hình chiến lược với khoản phải trả của người chơi I thể hiện trức hết trong mỗi tập và người chơi II thể hiện ở tập thứ hai. Mỗi cấu trúc đi xuống từ nút 1, 2 và 3 tương ứng là một trò chơi phụ. Chúng ta bắt đầu việc phân tích qui nạp ngược – bằng cách sử dụng một kỹ thuật được gọi là thuật toán Zermelo – với các trò chơi phụ xuất hiện cuối cùng trong chuỗi chơi. Nếu trò chơi phụ nghiêng xuống từ nút 3 được chơi thì người chơi II sẽ phải đối mặt với một lựa chọn giữa một khoản phải trả 4 và một khoản phải trả 3. (Tham khảo số thứ hai thể hiện khoản phải trả của cô ta trong mỗi tập ở một nút đầu cuối đi xuống từ nút 3). Người chơi thứ hai thu được một khoản phải trả bởi trò chơi D. Vì vậy chúng ta có thể thay toàn bộ trò chơi nhỏ bằng một chỉ định về khoản phải trả (0,4) trực tiếp cho nút 3, vì đây là kết quả sẽ được thực hiện nếu như trò chơi đạt tới được nút đó. Giờ đây hãy xem trò chơi phụ đi xuống từ nút 2. Trong trường hợp này người chơi II phải đối mặt với khoản phải trả 2 và khoản phải trả 0. Cô ta đạt được khoản phải trả cao hơn của mình là 2 bằng trò chơi D. Vì vậy chúng ta có thể ấn định khoản phải trả (2,2) trực tiếp cho nút 2. Giờ đây chúng ta chuyển đến trò chơi phụ đi xuống từ nút 1.(Trò chơi phụ này tất nhiên hoàn toàn giống với toàn bộ trò chơi; toàn bộ các trò chơi đều là những trò chơi phụ của bản thân chúng). Bạn (người chơi I) giờ đây phải đối mặt với chọn lựa giữa kết quả (2,2) và (0,4). Bằng cách tham khảo những con số đầu tiên trong mỗi tập trò chơi này bạn thấy rằng bạn đã nhận được khoản phải trả cao hơn của mình – 2 – bằng cách chơi D. Tất nhiên D là chọn lựa nhận tội. Vì vậy bạn nhận tội và sau đó đối tác của bạn cũng nhận tội bằng cách nhận được cùng một kết quả như trong sự thể hiện dạng trò chơi chiến lược. Cái đã xảy ra ở đây là bạn nhận ra rằng nếu bạn chơi C (từ chối nhận tội) ở nút 1 thì đối tác của bạn sẽ có thể tối đa hóa tiện ích của cô ta bằng cách lừa gạt bạn và chơi D.(Trên hình cây, điều này xảy ra ở nút 3). Trò chơi này để lại cho bạn khoản phải trả là 0 (10 năm trong tù), là thứ mà bạn có thể tránh chỉ bằng cách bắt đầu chơi D. Vì vậy mà bạn đã từ bỏ thỏa thuận.
Vì vậy chúng ta đã thấy rằng trong trường hợp Nan đề người tù thì những phiên bản theo trật tự thời gian và những phiên bản đồng thời đều đạt được cùng một kết quả. Tuy nhiên điều này thường không phải là thực. Đặc biệt chỉ có những loại trò chơi mở rộng hữu hạn (theo trật tự thời gian) thuộc loại thông tin hoàn hảo mới có thể được giải quyết bằng cách sử dụng thuật toán Zermelo.
Như đã lưu ý từ đầu chương này, đôi khi chúng ta phải thể hiện những vận động đồng thời bên trong các trò chơi theo trật tự thời gian. (Như đã nói ở trên, trong tất cả các trường hợp như vậy thì trò chơi như một tổng thể sẽ thuộc loại thông tin không hoàn hảo, vì vậy chúng ta sẽ không thể giải quyết nó bằng cách sử dụng thuật toán Zermelo). Chúng ta thể hiện những trò chơi như vậy bằng cách sử dụng phương pháp các tập thông tin. Hãy xem hình cây dưới đây:
Hình 5
Hình oval được vạch ra xung quanh các nút b và c đã chỉ ra rằng chúng nằm bên trong một tập thông tin chung. Điều ấy có nghĩa là ở các nút này người chơi không thể suy luận ngược trở lại con đường mà từ đó họ xuất phát; trong khi lựa chọn chiến lược của mình, người chơi II không biết liệu cô ta đang ở b hay c. (Vì lý do đó cái chính xác chứa đựng những con số trong các trò chơi dạng mở rộng chính là những tập thông tin, được coi là các “điểm hành động” chứ không phải là bản thân các nút. Vì thế mà các nút bên trong hình oval được dán nhãn bằng các từ chứ không phải bằng các con số). Chúng ta đưa ra một cách khác, người chơi II khi chọn đã không biết cái mà người chơi I đã làm ở nut a. Nhưng bạn sẽ nhớ lại ngay ở đầu chương này đó chỉ là cái xác định hai vận động đồng thời. Vì vậy chúng ta có thể cho rằng phương pháp thể hiện những trò chơi hình cây là hoàn toàn khái quát. Nếu không có nút nào sau nút ban đầu là duy nhất trong một tập thông tin trên hình cây của nó sao cho trò chơi chỉ có một trò chơi phụ (tự thân nó) thì toàn bộ trò chơi là một trò chơi đồng thời. Nếu ít nhất một nút có chung tập thông tin của nó với nút khác, trong khi những nút khác lại đơn độc thì trò chơi liên quan đến cả cách chơi đồng thời lẫn cách chơi theo trật tự., và vì vậy đó vẫn là trò chơi thuộc loại thông tin không hoàn hảo. Chỉ khi toàn bộ các tập thông tin chỉ có duy nhất một nút đóng ở đó thì chúng ta mới thực sự có một trò chơi thuộc loại thông tin hoàn hảo.
Còn nữa, kỳ sau đăng tiếp…
Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu:Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).
Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010
References
Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.
Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.
Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge, MA: MIT Press.
Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.
Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.
Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.
Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.
McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.
Nash, J. (1950a). Equilibrium Points in n-Person Games. In PNAS 36:48-49.
Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.
Ross, D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics.In Politics, Philosophy and Economics, forthcoming.
Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.
Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.
Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.
Samuelson, P. (1938). A Note on the Pure Theory of Consumers’ Behaviour. In Econimica 5:61-71.
Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.
Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.
Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.
Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.
Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.
Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.
Người dịch: Hà Hữu Nga