2025年9月8日 星期一

思辨賽局

  •  十個策略故事
    • 在賽局中, 需要思考其他參與者如何行動, 以及那些決策如何影響自身的決策
      • 如果不是平均分布, 那麼二元搜尋就不是能降低熵值的最好方法
    • 當其他參與者需花費資源, 針對自身的最佳策略作應對, 那麼次優策略將主導競爭
      • 如同ban/pick
    • 在只在意排名的競爭中, 進行模仿常常是領先方的好選擇
    • 減少選項, 讓眾人得知自己沒有其他選擇, 有時會改變決策邏輯
    • 缺少溝通和互信的囚徒困境, 會讓個體和群體無法走向最有利選擇
    • 隨機策略為對手帶來不可預測的風險, 讓部分項目的期望值從0變成非0, 而改變決策
    • 資訊不對稱的交易需要額外的規則設定, 才能達到公平
    • 策略性思考時, 要考慮其他參與者的想法和相互影響

  • 逆推可解的賽局
    • 序列賽局: 參與者輪流出招, 互動逐步發生, 可選選項和選擇公開於所有參與者, 且不受機率影響, 如象棋
    • 決策和分支形成決策樹, 多人的決策樹又稱為賽局樹
      • 參與者必須推測其他參與者接下來的反應, 並據此盤算當前的最佳行動
      • 要決定你現在該怎麼走,你必須先看清賽局的終點,然後一步步往回推算,在每一個決策點上,預判下一位行動者將會做出對他自己最有利的選擇。
    • 選擇多不一定有利
      • 單人決策中, 越多選擇意味更多自由, 不會對決策者造成傷害
      • 多人決策中, 參與者新增的選項, 會影響其他參與者, 改變整個賽局
        • 舉例來說, 如果彩券開獎後, 買家多了可以無條件退款的選擇, 那麼不會有商家選擇販售彩券
    • 當參與者知道其他參與者的目標時, 這種賽局可以逆推求解
    • 實務上,  參與者並不知道其他參與者的目標
      • 換言之, 並不是所有參與者都是數學上的理性--只考慮自己最大利益
      • 賽局是否只有一次? 決策會不會影響自己形象? 是否匿名
      • 社會文化的影響, 公平與慷慨是不是美德, 值得用部分利益去交換, 讓自己順心
      • 是否會激怒其他參與者, 而憤怒不理性的對方會有什麼選項
      • 另一方面, 在匿名, 去責任化的場合, 好比股市交易, 這是常態

  • 囚徒困境及其解方
    • 優勢策略
      • 對某個參與者而, 無論其他參與者如何選擇, 他的同一種策略總是優於其他所有可以選策略, 則此策略為優勢策略
    • 囚徒困境
      • 同步賽局, 參與者不知道其他人的選擇
      • 對於單一參與者來說,「背叛」是一個無懈可擊的優勢策略——無論對方合作或背叛,自己選擇背叛的結果都更好。
        • 當所有參與者都選擇優勢策略時, 卻讓整體無法達到最大利潤
    • 人類演化的方向鼓勵互惠, 即使純粹自利的人, 也知道維持互惠者形象的好處
      • 自利的人容易遭受報復
      • 在長期的賽局中, 兩個自利的人一樣可能因此保持合作關係
        • 只要參與者足夠在乎未來的利益,短期的背叛就不再那麼誘人
      • 當匿名性增加, 人們會傾向不合作
    • 達成合作的條件
      • 適用在公有地悲劇等場合
      • 事後的獎勵或是懲罰, 可以視為在原先賽局外, 又加入了更大的賽局與條件
      • 對於不合作的行為, 是否有清晰的界定和足以嚇阻的懲罰
      • 降低匿名性
        • 能夠覺察不合作, 越迅速越準確越好
        • 所有人都能清楚的知道誰選擇了不合作
        • 成員變動低, 增加彼此互信
      • 個體策略:清晰的以牙還牙態度
        • 在多次的重複賽局中,  對方上一輪選擇合作, 自己就合作, 上一輪選擇背叛, 自己就選擇背叛
        • 策略是清晰, 善意但具備報復性
        • 潛在問題是使用同樣策略的人, 如果因誤解造成一方合作一方不合作, 之後會陷入報復循環
        • 在現實中, 需要一個"到此為止"的方法
    • 如何避免合作
      • 適用在避免廠商壟斷市場等場合
      • "禁止"懲罰機制, 好比最惠顧客條款
        • 最惠顧客條款類似於被動觸發的"不合作", 當對方降價, 己方會自動降價, 從而嚇阻對方進行降價

  • 美麗均衡
    • 同步賽局
      • 目的是解決"我認為他認為", 這種探討別人怎麼選的循環
    • 找出一個狀態, 參與者都會選擇最符合自己利益的選項, 以回應其他參與者的策略
      • 每個參與者的行動都是對其他人行動的最佳回應, 而且人人都這樣想
      • 類似區域極值, 單一參與者在這狀態下, 修改選項都只會導致利益下降


      • 40000, 40000是這圖表的奈許均衡
      • 只要某個參與者擁有優勢策略,那麼在這個賽局中任何可能存在的奈許均衡裡,該參與者所採用的策略,必定是他的那個優勢策略。
    • 一個賽局可以有多個納許均衡
      • 讓人留下印象的焦點, 常常可以成為參與者的選擇
      • 這讓文化, 歷史, 天性喜好成為潛在影響
        • 好比顏色的喜好, 幸運數字
      • 不同奈許均衡給不同參與者的利益不等同, 參與者如何溝通和分配以協調賽局又成了新的課題
    • 尋找奈許均衡的方式 
      • 剔除劣勢策略
        • 如果選項A在任何情況都比選項B好, 那麼選項B 相對於A是劣勢策略
      • 劣勢策略排除後, 得到新的賽局表, 進行同樣的操作
        • 換言之, 只能針對劣勢策略的最佳選項, 這時候被排除
      • 如果不存在劣勢策略, 尋找所有參與者皆為最佳回應的狀態
    • 奈許均衡與現實
      • 參與者少, 越是熟練的參與者, 匿名性高都會讓現實賽局走向奈許均衡
      • 當價值觀滲透進賽局, 則會偏離
        • 如果參與者想像的是"分配", 那麼公平的價值觀就會產生效應, 在最終通牒賽局產生更慷慨的分配
        • 如果參與者想像的是群體, 那麼"我們對抗他們"就會產生效應, 在囚犯困境賽局產生出更多合作
      • 奈許均衡考慮的是"我認為你認為..."在無限循環下的固定狀態, 現實生活中, 如果人們無法發現循環結構, 多半只會想到兩到三層

  • 選擇與機會
    • 混和策略
      • 參與者選擇固定時, 稱為單純策略
      • 參與者的選擇是機率分布時, 則為混和策略
    • 奈許均衡可以發生在純粹策略, 也可以發生在混合策略
      • 在奈許均衡下, 任何單一參與者, 無法藉由更改自己策略的機率分布而獲得額外利潤
      • 每個參與者的機率分布都是針對其他參與者機率分布的最佳回應, 而且人人皆這樣想
    • 極大極小定理
      • 零和賽局, 參與者利益完全對立
      • 在最壞的情況中, 尋求最好的結果:
        • 對手會採取行動, 讓我方收益期望值極小化
        • 我方預期對方的上述行動, 選擇這極小化前提下, 能最大化收益的可能
    • 玩家1 / 玩家2策略 A策略 B
      策略 13-2
      策略 215
      • 純粹策略
        • 玩家1
          • 選擇策略1的最壞情況收益是-2
          • 選擇策略2的最壞情況是1
          • 為了讓最小收益最大化, 玩家1的極大極小策略是策略2, 來自(2, A) 這組合
        • 玩家2
          • 選擇策略A的最壞情況收益是-3
          • 選擇策略2最壞情況收益是-5
          • 為了讓最小收益最大化, 玩家2的極大極小化策略是策略A, 來自(1, A)這組合
        • (2,A)不等於(1,A) , 這賽局不存在純粹策略的奈許均衡
      • 混合策略
        • 假設玩家1 以p機率選擇策略1
        • 假設玩家2 以q機率選擇策略A
        • 玩家2的機率, 由玩家一的期望值決定
          • 策略1的期望值: 3q + -2(1-q) = 5q-2
          • 策略2的期望值: 1q + 5(1-q) = 5-4q
          • 若玩家2要讓玩家1的兩個選擇具備相同期望值, 即玩家1的選擇對賽局無影響
            • 令兩者相等 5-4q = 5q-2 
            • q = 7/9
        • 同理, 玩家1的機率, 由玩家二的期望值決定
          • 策略A的期望值:3p+(1-p) = 1+2p
          • 策略B的期望值: -2p + 5(1-p) = 5-7p
            • 令兩者相等 1+2p = 5-7p
            • p = 4/9
        • 奈許均衡發生在
          • 玩家1以4/9的機率選策略1, 5/9的機率選策略2
          • 玩家2以7/9的機率選策略A, 2/9的機率選策略B
          • 這時兩方單方面改變機率, 都無法讓自己獲利更多(也不會更少)
        • 直觀的觀察
          • 如果玩家1強化自己的強項, 好比(1,A)從3變成6
            • 玩家2會降低A的選擇 7/9 -> 7/12
            • 玩家1會降低1的選擇 4/9 -> 4/12
            • 但是整體而言, 玩家1的期望值上升了
              • 5-4q : 1.888 變成 2.666
            • 強項的威脅性變大,迫使對手改變了防守佈局,從而讓我整體的期望收益上升
    • 現實生活的考量
      • 隨機並非完全隨機
        • 賭徒謬誤: 會對隨機有補償的期待
        • 可得性偏誤: 對於好想像的最糟情況, 人類會想避開
          • 隨機到最冒險的選項時, 可能因為潛在後果而不願意執行
          • 這次不算,再來一次

  • 策略行動
    • 優秀的策略家,不僅僅是賽局的參與者,更是賽局的設計者。
    • 賽局理論告訴我們, 在理性下該做的選擇, 應該做什麼
    • 策略行動的目標是改變賽局
      • 參與者採取行動, 改變賽局, 讓其他參與者進行其他選擇
    • 承諾
      • 參與者創造有利條件, 改變其他參與者的選擇
        • 創造承諾者無條件的先行動作
      • 好比定期定額或定存, 是現在的自己讓未來的自己的財務規劃必須做更保守的選擇
    • 威脅與約定
      • 參與者提前確定一個回應規則, 穩定有條件的對其他人的選擇進行反映
        • 威脅懲罰不遵守的其他參與者
        • 約定獎勵那些願意遵守的參與者
      • 目的可以是嚇阻其他人不進行某些動作, 或是強迫其他人進行某項動作
      • 重點在清晰性與確定性, 以此確立可信度
        • 對方要能清楚知道觸發的條件
        • 懲罰或獎勵要有可行性和合理
    • 邊緣策略
      • 故意創造並操縱一個雙方都不想要的, 失控的風險
        • 也可讓災難發生的機率逐步升高, 迫使對手因為無法承受這個風險而先行讓步

  • 讓策略可信
    • 如果承諾, 威脅和約定不可信, 就無法藉此影響其他參與者
    • 如何提高可信度
      • 建立聲譽, 由過去表現來支持
      • 簽訂合約, 提高違背承諾的代價
        • 留意是否讓"再談判"有可趁之機
          • 當違背合約所支付的懲罰期望值, 小於進行合約行為的成本時
          • 假設違背合約, 有5%的機會要支付100的罰金, 那違反者可能提出以10為代價, 讓監督者忽略這次行為的再承諾
          • 如果監督者不會因為違反合約受到任何傷害, 那麼他可能會接受
      • 切斷退路, 破釜沉舟
        • 透過眾人皆知的沉沒成本, 讓選擇消失
        • 切斷聯繫, 停止資訊交流也是可行方式之一
          • 好比沒有人會和自動販賣機殺價
        • 邊緣策略是這種策略的極端應用, 但過分利用可能破壞關係
      • 自動化回應, 設立一個會自動觸發的機制, 如最惠條款
        • 授權代理人也有同樣效果, 讓別人代表你的利益, 但不代表你的選擇
          • 代理人可以靈活地採用各種策略, 也不至於傷害各方關係
      • 將單一賽局轉化成重複賽局
        • 如分期支付的工程款

  • 解讀和操縱資訊
    • 賽局中, 某些參與者的資訊比其他參與者多, 而這些資訊將影響所有參與者的報酬
      • 擁有資訊的參與者想要隱藏資訊
      • 其他參與者
        • 有時希望資訊公開, 而進行訊號傳遞, 如無罪的被告
          • 由「擁有資訊方」主動發起,目的是「證明自己」
        • 有時希望資訊隱藏, 而進行訊號隱藏, 如真正的犯人
        • 有時希望知道資訊(如法官), 
        • 有時希望知道資訊, 但不希望資訊公開(如被告律師)
    • 訊號篩選
      • 由「缺乏資訊方」主動設計,目的是「分辨他人」。
      • 設計一個環境, 區分出擁有不同資訊的參與者
        • 擁有不同資訊的參與者, 進行同一行動有不同的報酬
        • 理性的參與者有不同的行動, 從而得到額外資訊
      • 行為勝於語言, 或是更廣泛的說, 有支出代價的行動為勝於沒支出代價的行動
        • 當屬性非二元, 而是有中間值的可能時, 強烈具備屬性的參與者可能拒絕參加代價太小的行動, 因為那些行動屬於稍微具備屬性的人
        • 非常有錢的人可能拒絕以普通的名牌展演其身分, 因為普通的名牌屬於普通有錢的中產
        • 這和社會學的階級展演有點類似
    • 訊號干擾
      • 當所有參與者都選擇同種行動時, 這行動就變成完全沒有資訊
        • 又稱為訊號傳遞賽局的混和均衡
      • 當一種類型的訊號者傳遞了訊號, 另一種沒有傳遞, 則是分離均衡
      • 多數場合處於半分離狀態, 我們使用條件機率和貝式定理, 根據現狀不斷更新參與者屬性的機率分布
    • 利用資訊篩選進行差別定價
      • 不同參與者對於不同商品有不同的接受價格
      • 為了讓利潤最大化, 要考慮參與約束(讓參與者的最高價) 和激勵相容約束(一個商品對參與者特別划算, 那麼即使其他商品的價格能被接受, 也不會被選擇)
        • 必須巧妙地讓「高支付意願的顧客」自己覺得購買高價版,比購買低價版更划算

  • 合作與協調
    • 當競爭的是相對成績而非絕對成績時, 參與者協調, 降低對賽局的投入, 反而有利於整體利益上升
      • 參與者利潤來自於減少了對賽局的資源投入
      • 這常形成商業聯盟, 好比OPEC 協調產出
      • 往往需要有嚇阻力的懲罰, 才能促成聯盟成立
    • 賽局的不同選項收益比, 有時會因為參與者的選擇而改變
      • 負向網絡外部性, 擁擠賽局:被選擇越多, 則效率越低, 如道路和交通時間, 越多人在路上開得越慢
      • 正向網絡外部性: 被選擇越多, 則效益越強, 如社區的居民種族組成, 越多白人的社區越容易成為新白人住民的選擇
      • 有些選項不論怎麼被選擇, 效應不變化, 如選擇捷運和交通時間
    • 一個賽局由那些選項構成, 決定其均衡點和發展趨勢
      • 由選項1和選項3構成的賽局, 常見的均衡點發生在兩個選項的效率等同的分布
        • 如果捷運和開車是通勤選項, 均衡點發生在兩者時間花費的分布


        • 這時總通勤時間不是最低
        • 通過第三方的政策, 補貼捷運或是收過路費, 讓選擇開車的總成本(時間+錢)上升, 使均衡落在更高的捷運使用率, 從而讓總時間成本下降
      • 由兩個選項2構成的賽局, 有機會發生從眾效應
        • 這時兩個選項的優劣並不是決定參與者選擇的唯一條件, 還要考慮現有的分布


        • 均衡點一般有三個
          • 兩個在端點的穩定均衡,和一個在中間的不穩定均衡。
          • 一旦組成比例稍微偏離中間那個脆弱的平衡點,從眾效應就會像滾雪球一樣,將整個系統推向其中一個極端
        • 如果目標是從一端移動到另一端, 第三方可以透過強迫改變初始分布的方式, 一口氣推過中間均衡點
        • 如果目標是保持平衡, 則需要透過懲罰或獎勵, 在均衡點附近創造回歸均衡的誘因
      • 多選項構成的賽局, 可能不存在均衡狀態
    • 滑坡效應
      • 一個選項可能不是最佳解, 但是若將它拆成諸多細分的選項, 可能是各階段下的最佳解
      • 每個參與者在每個階段都選了最佳解, 最終反而走不到最好的選項

  • 拍賣, 競標與競爭
    • 如果商品唯一, 且每個參與者都有獨立判斷的可接受價格, 拍賣系統往往有著優勢策略
      • 可以不斷出價的場合, 只要目前喊價低於你的『真實估價』,就繼續跟進;一旦價格超過你的估價,就立刻收手。
      • 密封只能一次出價的場合:優勢是選擇以自己認為的第二高價競標
      • 維克里拍賣
        • 價高者支付次高價得到商品
        • 優勢策略是以自己心目中的價位競標
        • 線上競標的委託出價可以視為變形
    • 現實生活中, 商品可能不唯一, 且參與者沒有明確的估價
      • 如果商品不唯一, 即使我接受300的價格, 也不願意我出250, 別人卻用200買到
      • 一個參與者的出價會給予其他參與者估價的資訊, 這讓參與者需要隱藏自己的出價, 傾向在最後時刻才進行競標
    • 贏家的詛咒
      • 在買家提價格, 賣家決定是否接受的場合, 賣家只有在商品價值低於出價的時候才會答應
        • 換言之, 若商品價值是個隨機變數, 那麼賣家只有在商品價值小於出價的時候會答應交易, 而與商品價值期望值無關
    • 收益等值定理
      • 如果估價是私密, 且賽局對稱, 不論是價格上升的拍賣, 價格下降的拍賣, 或是次價拍賣, 賣家通常獲得同樣的金額
      • 優勢策略:抱持自己出價最高的信念, 以第二高估價來出價
      • 換言之, 有些場合, 需要考慮有多少參與者來決定怎麼出價
        • 對於一個在 [a,b] 區間內均勻分布的隨機變數,取 n 次獨立樣本,其最大值的期望值公式為:
        • E[Maxn]=a+(b−a) * (n/(n+1))
      • 改變賽局規則不一定能達到效果, 參與者會適應規則, 採取不同方法競標
    • 當參與者少的時候, 有機會進行默契合作, 尤其當規則複雜時
      • 當參與者不繼續競爭的利潤大於競爭的利潤時, 參與者可能會停止競爭, 而賣家承受損失
      • 好比輪流得標的圍標場合

  • 討價還價
    • 大原則一樣是向前預測, 向後推理
    • 常見場合: 合作利益分配
      • 談判者雙方合作有額外利益
      • 常見的方式是將合作造成的額外利益公平分配
      • 假設麥當勞買大麥克套餐送大麥克
        • 大麥克套餐150, 大麥克80
        • A想要大麥克套餐, B只想要大麥克
        • A,B合購創造了(150+80-150)= 80的利潤, 均分得40
        • A出110, B出40
      • 參與者如果降低合作的額外收益, 則可在談判中佔優勢
        • 好比B如果有大麥克折價券, 只需要60 就可以買大麥克
        • A,B和夠創造了(150+60-150) = 60的利潤
        • 這時A出120, B出30
        • 如果折價券是A擁有的, 則不影響賽局
      • 參與者也可以透過傷害其他參與者利益的方式來得到收益
        • 好比到有低消和服務費的麥當勞, 這時大麥克套餐155, 大麥克100
        • 這時合作利潤為100, A只要支付105
      • 換言之, 有著最佳協議替代方案的參與者, 越有談判優勢
    • 當利潤隨著合作無法達成衰減, 則形成邊緣策略
      • 好比勞資衝突下的罷工, 罷工越久傷害越高
      • 有時候, 協議無法達成, 利益損失最大的是不再參與者中的第三者, 如公有地悲劇
    • 一般而言, 先提議的一方有優勢
      • 當時間成本越低, 還價成本越低, 這優勢越小
      • 極端情況, 沒有任何時間成本,則利益趨向均分
      • 另一種極端, 最後通牒, 那利益則是單方面通吃
      • 時間成本可以是單方的, 一邊很急一邊不急, 則有耐性的一方獲得優勢
        • 最常見的時間成本是利率
        • 利率分別是1%與2%的A,B, 那麼A的最終報酬會是B的兩倍
      • 魯賓斯坦談判模型 (Rubinstein Bargaining Model)」。
        • 該模型在數學上證明了,在一個輪流出價的談判中,最終利益的分配比例,會與雙方的「貼現率 (Discount Rate)」(可以理解為不耐煩的程度或時間成本)成反比

  • 投票
    • 理想的投票中, 參與者只要坦承的投下自己最佳選擇就好
      • 在一對一的投票中, 最高票一定是最佳解, 參與者也沒有坦承投票之外的優勢策略
      • 在多人投票中, 即使所有選民的個人偏好都是理性的(具有遞移性),由多數決匯總出的「群體偏好」卻可能是非理性的(沒有遞移性)。  甚至能讓多組候選人能在一對一的投票對決中形成閉環
        • 有時, 投票制度成為誰當選的關鍵
        • 要選出最少人討厭的?還是最多人第一喜歡的?
    • 康多賽投票規則
      • 參與者給予喜好的順序, 利用排名模擬各種一對一的對決,
      • 選舉的勝出者是獲得最少的最大反對票數的人
      • 可以視為大家最能勉強接受的選擇
    • 當一個組合結果, 將透過多輪投票決定時, 投票程序將大幅影響結果
      • 參與者將向後推理, 在決策樹上導向自己喜好的結果
    • 立場選擇
      • 在一個多維度分布的凸集中, 考慮坐落於重心的點A, 和任一競爭點B, 那麼至少有1/e ~= 36%的點靠更近點A而非點B
      • 直觀的說, 一個基於所有選民的平均立場, 跟其他任意立場, 至少有著36%的支持度
        • 2/3 的同意門檻可以保護平均立場
    • 策略性投票
      • 當參與者認為自己的一票將改變現狀時, 容易造成策略性投票, 讓參與者投下第一喜好者以外的選擇
        • 如棄保效應
  • 激勵
    • 出資方與受雇者的關係中, 出資方無法知道受雇者努力的程度, 只能知道最終結果
      • 類似道德風險, 受雇方獲得保障(薪資)後, 減少其行為的謹慎程度(不努力工作), 進而提高風險(增加失敗機率)
      • 目標是在固定薪酬和論件計酬之間尋找一個平衡點
    • 帶有激勵的合約
      • 一般而言, 如果工作結果和努力程度的相關性越大, 激勵能帶來的努力誘因越多
      • 獎勵一般是非線性的, 成果越好, 激勵越多
      • 門檻制的條件容易造成"到這就好"或是"放棄"的心態
      • 激勵合約包含兩個面向:薪資期望值和好壞結果的報酬利差
        • 薪資期望值太低, 有逆選擇的風險
        • 報酬利差越大, 激勵作用越大
    • 激勵制度的各種面向
      • 非一次性的常態工作中, 未來加薪/升職是有效的激勵
        • 尤其是對剛進入勞動市場者, 但對即將退休者無效
      • 工作結果有隨機性但可重複, 則統計成為出資方的工具
      • 激勵合約基本上考量兩個數字: 員工努力付出的代價 和 員工不努力要付出的代價
        • 兩者皆以期望值表示
        • 好比, 一次性支付X的激勵給員工, 而員工努力要付出100的代價, 員工不努力有50%的機會被抓包
          • 員工努力的代價:100
          • 員工不努力的代價: 0.5 * X
          • 0.5X > 100 : X = 200, 最終一次支付300
        • 如果修改條件, 變成每年支付, 每年檢查, 因此每年都有10%機會被抓包, 當今利率5%, 每年X相當於20X的現值
          • 員工努力的代價:100
          • 員工不努力的代價: 0.1 * 20X
          • 2X > 100 : X = 50, 最終一次支付150
        • 這又稱效率溢價
          • 支付更多, 但會在失敗時懲罰受雇者, 讓理性受雇者努力工作
      • 多任務的場合, 要留意不同任務的激勵是互相加成或是互相抵消
        • 也有可能是不同受雇者的激勵互相抵銷
      • 多受雇者的場合, 可以受雇者之間的優劣做為績效
      • 金錢的激勵是外在的, 現實場合要多留意內在的激勵效果
        • 當工作有報酬, 受雇者想的是數字和最佳化
        • 當工作沒有報酬, 受雇者想的也許是義務和慈善
    • 如何計算激勵
      • 先計算薪資期望值
      • 接著計算激勵報酬差, 這應當讓受雇者願意努力工作
      • 已知報酬差, 調整基本薪資讓薪資期望值符合需求

沒有留言: