生活中的博弈

兩難選擇,合作還是背叛

1950年,由就職於蘭德公司的梅裏爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出一種相關困境的理論,後來由顧問艾伯特,塔克(AlbettTucker)以囚徒方式闡述,並命名為“囚徒困境”。這也是關於博弈論流傳最廣的一個故事,在哲學、倫理學、社會學、政治學、經濟學乃至生物學等學科中,獲得了極為廣泛的應用。

故事有很多版本,大意是這樣的:

有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發現富翁被殺,然後隻是順手牽羊偷了點兒東西。於是警方將兩人隔離審訊。檢察官說:“你的偷盜罪確鑿,所以可以判你1年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我隻判你3個月的監禁,但你的同夥要被判10年刑。如果你拒不坦白,而被同夥檢舉,那麽你就將被判10年刑,他隻判3個月的監禁。但是,如果你們兩人都坦白交代,那麽,你們都要被判5年刑。”

顯然最好的策略是雙方都抵賴,結果是大家都隻被判1年。但是由於兩人處於隔離的情況下無法串供。那麽,囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方的選擇;而即使他們能交談,還是未必能夠盡信對方不會反悔。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何做出選擇:

若對方沉默,背叛會讓我獲釋,所以會選擇背叛。

若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。

兩人麵對的情況一樣,所以兩人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的平衡,就是雙參與者都背叛對方,結果兩人同樣服刑5年。

這樣兩人都選擇坦白的策略以及因此被判5年的結局,被稱為“納什均衡”,也叫非合作均衡。從這裏可以引出一個悖論:從利己的目的出發,結果卻損人不利己。兩個囚徒的命運就是如此。從這個意義上說,我們還可以悟出一條真理:合作是有利的“利己策略”

但它必須符合以下黃金律:也就是我們常說的“己所不欲,勿施於人”,且前提是“人所不欲,勿施於我”o

納什均衡的貢獻是,證明了在這一類的競爭中,在很廣泛的條件下是有穩定的解存在,隻要是別人的行為確定下來,競爭者就可以有最佳的策略。他的這項理論工作使得博弈論從此成為經濟學家用來分析從商業競爭到貿易談判種種現象的有力工具。

現實中,無論是人類社會或大自然都可以找到類似囚徒困境的例子:

在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩選擇:增加軍備(背叛)、或是達成削減武器協議(合作)。兩國都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的“理性”行為,但結果卻顯得“非理性”(例如會對經濟造成損害等)。這可視作遏製理論的推論,就是以強大的軍事力量來遏製對方的進攻,以達到和平。

學中,表現為關稅戰。兩個國家,在關稅上可以有兩個選擇:

提高關稅,以保護自己的商品。(背叛)

與對方達成關稅協定,降低關稅以利各自商品流通。(合作)

當一國因某些因素不遵守關稅協定,獨自提高關稅(背叛),另一國也會做出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後兩國又重新達成關稅協定。(重複博弈的結果是將現共同合作利益最大)

商業中,以廣告戰為例:兩個公司互相競爭,它們的廣告互相影響,即一個公的廣告較被顧客接受則會奪取對方的部分收入。但若兩者同時期發出質量類似(廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被對方奪走。

這兩個公司可以有兩個選擇:

互相達成協議,減少廣告的開支。(合作)

增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛)

若兩公司不信任對方,無法合作,背叛成為支配性策略時,兩公司將陷入廣告戰,而廣告成本的增加損害了兩公司的收益,這就是陷入囚徒困境。在現實中,要兩個互相競爭的公司達成合作協議是較為困難的,多數都會陷入囚徒困境中。

除了上述領域,在生活中,往往也有很多囚徒博弈的例子,比如有這樣一個故事:兩個旅行者麥克和約翰從一個以出產瓷器的著名旅遊勝地回來時,他們各買了一個瓷花瓶。提取行李時,發現花瓶被碰破了,他們向航空公司索賠。

航空公司估計花瓶的價格在80—90元左右,但不知道這兩位旅客購買的準確價格。航空公司要求兩位旅客在100元以內,自己寫下花瓶價格。若兩人寫的相同,說明他們說了真話,就照他們寫的數額賠償;如果兩人寫的不一樣,那就認定寫得低的旅客講的是真話,按這個低的價格賠償,但是對講真話的旅客獎勵2元錢,對講假話的旅客罰款2元。

如果兩人都寫100元,他們都會獲得100元。但是,假定約翰寫100元,麥克改寫99元,則他會獲得IOI元。約翰又想,若麥克寫99元,他自己寫98元,比寫100)c好,因為這樣他獲100元,而自己寫100元當麥克寫99元時自己卻隻獲97元。而給足約翰寫98元,麥克又會寫97元…oo。這樣,最後落得兩個人隻寫1元的境地。雙輸,這就是囚徒困境帶來的結果。

再有,一個小鎮政府有一個為期一年的采購計劃,每個月采購一批飲料。如果小上的兩家飲料公司的報價一致,那麽政府就把訂單一分為二。否則,政府會把更多的訂單給報價低的那個公司。顯然,這兩家公司都報出同樣的高價,才符合其利益。在這種多次博弈中,他們會聯合起來出高價嗎?如果會,那麽在一年12次的博弈中他們會合作幾次呢?

如他們開始簽訂了合約,都報出一個比較高的價位。不過,顯然最後一次他們不需要遵守合約,因為反正以後沒有采購計劃了,違約也不會有什麽壞處。如果是這樣,倒數第二次也不需要遵守合約,因為不論怎樣倒數第一次都是要違約的,那就不存在是否有懲罰的問題。所以倒推下來,一次合約都不用遵守。兩家公司最後可能還是兩敗俱傷。

如果你有興趣,還可以做一個實驗:選定幾個人,讓他們都猜一個數字,必須是1或100之間的整數。條件是誰最接近所有實驗者的所猜數字平均值的1乃,誰就可以得到100塊錢。

這個時候,每一個人都會想:如果一開始其他人都是隨機地選擇數字,50就會是所有人的猜測。這個時候,猜50的1/3也就是大約17可能會贏。然而,每一個人都會猜到17這個數字的時候,大家就會猜測17的1/3,也就是6左右。依此類推,這個遊戲中的每一個人最終猜測的結果是唯一最小的數字,那就是1。

們可以看到,在“囚徒困境”中,每一方在選擇策略時,都隻是選擇對自己最有利的策略,而並不顧及其他對手的利益和社會效益。表麵上看,這種策略組合是由當事雙方各自認為的最佳策略構成。實際上,雙方都選擇拒絕招供才是真正的最佳策略,因為這樣才會使兩個人都無罪釋放,雙方都獲得最大利益。但是,沒有人會主動改變自己的策略以便使自己獲得最大利益,因為,這種改變會給自己帶來不可預料的風萬一對方沒有改變策略呢?

就是“囚徒困境”中的兩難境地,生活中如果遇到類似困境該怎麽辦?有什麽解決的辦法嗎? ?下麵來談。