從“先預(yù)估后分配”的判別式方法,到直接面向最終拍賣結(jié)果的生成式方法,生成式模型能否為在線廣告的拍賣機(jī)制優(yōu)化帶來持續(xù)增量?
本文介紹阿里媽媽展示廣告機(jī)制策略團(tuán)隊(duì)在 AIGA(AI-Generated Auction)方向的前沿探索-生成式拍賣研究工作。
基于該項(xiàng)工作整理的論文已被KDD’25 Research Track接收。
摘要
廣告拍賣機(jī)制設(shè)計(jì)作為在線廣告系統(tǒng)的重要一環(huán),在持續(xù)優(yōu)化廣告主和平臺(tái)收益方面起著至關(guān)重要的作用。傳統(tǒng)的廣義二價(jià)拍賣(GSP)等拍賣機(jī)制依賴于點(diǎn)擊率分離假設(shè)(將廣告點(diǎn)擊率拆分為廣告自身質(zhì)量分和廣告位曝光權(quán)重的乘積),忽略了頁面中同時(shí)展示的其它商品的影響,即外部性影響。
近年來,基于深度學(xué)習(xí)的拍賣機(jī)制顯著增強(qiáng)了對高維上下文特征的編碼能力,但是現(xiàn)有方法仍受限于“先預(yù)估后分配”的設(shè)計(jì)范式。這種范式只能建模參競廣告集合內(nèi)的外部性,無法捕捉最終分配結(jié)果的整頁上下文信息(即排列外部性),因此難以收斂到全局最優(yōu)解。本文系統(tǒng)分析了在排列外部性影響下的最優(yōu)拍賣機(jī)制,在理論最優(yōu)解的基礎(chǔ)上,研究團(tuán)隊(duì)提出了首個(gè)使用生成式模型建模排列外部性的廣告拍賣機(jī)制-生成式拍賣(Contextual Generative Auction, CGA)。
該框架通過自回歸模型生成廣告分配結(jié)果,并將激勵(lì)兼容(Incentive Compatibility, IC)條件量化為最小化事后后悔(ex-post regret),實(shí)現(xiàn)端到端學(xué)習(xí)最優(yōu)計(jì)費(fèi)規(guī)則。大規(guī)模離線實(shí)驗(yàn)和在線 A/B 實(shí)驗(yàn)表明 CGA 能顯著提升平臺(tái)收入等關(guān)鍵指標(biāo),同時(shí)有效逼近理論最優(yōu)拍賣的結(jié)果。
論文:Contextual Generative Auction with Permutation-level Externalities for Online Advertising
作者:Ruitao Zhu, Yangsu Liu, Dagui Chen, Zhenjia Ma, Chufeng Shi, Zhenzhe Zheng, Jie Zhang, Jian Xu, Bo Zheng, Fan Wu
下載:https://arxiv.org/abs/2412.11544
引言
在線廣告系統(tǒng)的最優(yōu)拍賣機(jī)制旨在最大化平臺(tái)期望收入,同時(shí)滿足經(jīng)濟(jì)學(xué)性質(zhì),包括激勵(lì)兼容和個(gè)體理性(Individual Rationality, IR),并且需要滿足系統(tǒng)在線部署的計(jì)算時(shí)延要求。IC 條件要求廣告主真實(shí)報(bào)價(jià)最大化其自身效用,IR條件要求廣告主的效用非負(fù)。
在典型的點(diǎn)擊計(jì)費(fèi)(Cost-per-Click, CPC)多坑廣告場景下,廣告拍賣機(jī)制的效果依賴于對廣告點(diǎn)擊率(CTR)的預(yù)估準(zhǔn)度。廣泛使用的 GSP 等機(jī)制使用精排階段的單點(diǎn)預(yù)估 CTR,忽略了頁面展示的其它商品的影響。而實(shí)際場景中,用戶瀏覽的頁面包括多個(gè)商品,用戶在決策前通常會(huì)對不同商品進(jìn)行比較,因此同時(shí)曝光的其它商品會(huì)對目標(biāo)廣告的 CTR 產(chǎn)生影響,稱為“外部性” [1]。
基于深度學(xué)習(xí)的拍賣機(jī)制,如 Deep Neural Auction(DNA [2])和 Score Weighted VCG(SW-VCG [3])等工作考慮使用深度網(wǎng)絡(luò)刻畫外部性影響以提升平臺(tái)收入。然而無論是 DNA 采用的先預(yù)估廣告 rankscore 再進(jìn)行排序,還是 SW-VCG 使用的先預(yù)估單調(diào)性分?jǐn)?shù)再求解二部圖最大匹配,這些方法本質(zhì)上都受到“先預(yù)估后分配”(allocation-after-prediction)范式的局限,預(yù)估時(shí)的上下文信息與分配后的最終上下文信息不一致,因此模型只能捕捉到粗粒度的廣告候選集層面的外部性。另一方面,Neural Multi-slot Auction(NMA [4])等機(jī)制采用類似 VCG 拍賣的方式,遍歷所有可能的排列結(jié)果以求解最優(yōu)分配,但是極高的計(jì)算復(fù)雜度使其難以應(yīng)用于在線場景。
根據(jù) Myerson 拍賣理論 [5],拍賣機(jī)制的 IC 條件要求廣告主獲得的期望價(jià)值關(guān)于其出價(jià)滿足非遞減關(guān)系。大多數(shù)現(xiàn)有方法通過保證排序公式中出價(jià)的權(quán)重為正,使得廣告主提高出價(jià)能獲得相同或更前置的廣告位。但是在排列外部性的影響下,即使廣告候選集保持不變,將廣告分配到的坑位前置反而可能導(dǎo)致其期望價(jià)值下降。圖 1 給出了不同廣告的分坑位 [點(diǎn)擊率 * 曝光率](表示 CPC 機(jī)制下的廣告主期望價(jià)值)的實(shí)驗(yàn)數(shù)據(jù),二者的關(guān)系并不滿足單調(diào)性。因此,在排列外部性影響下,如何設(shè)計(jì)滿足激勵(lì)兼容條件的分配規(guī)則是一個(gè)非平凡的問題。
△圖1:廣告分坑位 [點(diǎn)擊率 * 曝光率]
本文旨在探索在排列外部性影響下,滿足 IC 和 IR 約束的收入最大化廣告拍賣機(jī)制的基本形式和高效實(shí)現(xiàn)。我們首先給出系統(tǒng)性的理論分析,證明最優(yōu)解保留 Myerson 最優(yōu)拍賣的基本形式,即分配規(guī)則和計(jì)費(fèi)規(guī)則可以進(jìn)行解耦。在理論最優(yōu)解的基礎(chǔ)上,引入經(jīng)典的生成器-評估器(Generator-Evaluator)架構(gòu),構(gòu)建感知排列外部性的生成式拍賣。最后,進(jìn)行工業(yè)數(shù)據(jù)集上的離在線實(shí)驗(yàn),在多維度指標(biāo)上對比現(xiàn)有的拍賣機(jī)制研究工作。
問題建模與理論分析
在線廣告場景可以抽象成一個(gè)典型的多坑拍賣問題。對于每條用戶請求,由
個(gè)廣告主(可以是手動(dòng)調(diào)整出價(jià)或者自動(dòng)出價(jià)代理)對 個(gè)廣告位進(jìn)行出價(jià)。廣告主根據(jù)自身的私有估值 提交出價(jià) , 其中服從價(jià)值分布 。給定出價(jià)向量, 用戶特征向量 以及所有參競廣告的特征向量 ,平臺(tái)的拍賣機(jī)制決定分配方案 以及廣告主的計(jì)費(fèi) ,其中 表示廣告 分配到廣告位
廣告拍賣中的外部性指的是競勝廣告主的效用會(huì)受到其它競勝廣告的影響 [1]。對于 CPC 多坑拍賣,外部性影響主要反映在廣告 CTR 上。我們用
表示任意感知排列外部性的 CTR 模型,廣告 的 CTR 可以表示為 ,可以簡化表示為
在上述排列外部性的拍賣機(jī)制建模下,廣告主
的期望效用為
拍賣機(jī)制的激勵(lì)兼容(IC)條件要求真實(shí)報(bào)價(jià)
最大化其期望效用
,個(gè)體理性(IR)條件則要求廣告主效用非負(fù)。廣告拍賣機(jī)制目標(biāo)為最大化平臺(tái)期望收入
且滿足IC和IR約束。
求解收入最大化機(jī)制的直觀想法是遵循經(jīng)典的 Myerson 拍賣,我們將排列外部性引入 Myerson 拍賣,可以寫成如下形式,其中
表示經(jīng)過 iron 操作后的虛擬價(jià)值函數(shù)(確保函數(shù)單調(diào)性):
- 分配規(guī)則:
- 計(jì)費(fèi)規(guī)則:
需要注意的是,由于排列外部性的引入,在最終分配結(jié)果中其它廣告的影響下,廣告主提高出價(jià)不一定會(huì)提高最終的 CTR,因此 Myerson 理論中的“單調(diào)分配”性質(zhì)在排列外部性影響下是否成立需要重新論證。我們理論證明了上述“單調(diào)分配”的性質(zhì)仍然保持,具體表述為如下引理 1,完整證明請參考論文原文附錄 A.1。
引理1:在排列外部性建模下,若拍賣機(jī)制的分配規(guī)則
最大化期望虛擬福利,則對于任意廣告主以及其它廣告主的出價(jià)向量,關(guān)于出價(jià)單調(diào)不減,或者稱分配規(guī)則
為單調(diào)的。
結(jié)合引理 1 和 Myerson 拍賣理論,可以證明上述引入排列外部性的 Myerson 拍賣為滿足IC、IR約束且最大化平臺(tái)期望收入的最優(yōu)拍賣機(jī)制,完整推導(dǎo)過程請參考論文原文 2.2 節(jié)。
直接求解上述最優(yōu)分配結(jié)果需要枚舉參競廣告的所有可能排列結(jié)果,再進(jìn)行選優(yōu),枚舉過程的計(jì)算復(fù)雜度為
,線上場景下,,枚舉過程的高復(fù)雜度無法滿足線上推理實(shí)驗(yàn)要求。因此我們考慮將拍賣機(jī)制進(jìn)行參數(shù)化,通過數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行學(xué)習(xí)。為了在端到端學(xué)習(xí)的過程中滿足 IC 約束并保持優(yōu)化過程的可微性,類似多物品拍賣的研究工作 RegretNet [6],我們將機(jī)制偏離 IC 條件的程度量化為每個(gè)廣告主的 ex-post regret,即廣告主通過虛報(bào)出價(jià)
可以獲得的最大效用增加值:
給定價(jià)值分布
中的 條采樣,則廣告主
的經(jīng)驗(yàn) ex-post regret 為
拍賣機(jī)制設(shè)計(jì)問題可以進(jìn)一步改寫成如下約束優(yōu)化問題:
生成式拍賣
前文提到,現(xiàn)有的基于深度學(xué)習(xí)的拍賣機(jī)制受限于“先預(yù)估后分配”的設(shè)計(jì)范式,無法感知排列級外部性。我們提出的生成式拍賣引入了生成器-評估器的基本架構(gòu),模型整體架構(gòu)如圖 2 所示。生成器采用自回歸模型,逐坑位感知已經(jīng)決策完成的序列信息,生成廣告序列。評估器捕捉廣告序列中的商品相互影響,對精排階段的單點(diǎn) pCTR 結(jié)合序列上下文信息進(jìn)行校準(zhǔn),在訓(xùn)練時(shí)為生成器提供獎(jiǎng)勵(lì)信號。在線推理時(shí),僅部署生成器,以保證線上推理時(shí)延。此外,我們構(gòu)建了 PaymentNet 模塊,通過優(yōu)化 ex-post regret 學(xué)習(xí)最優(yōu)計(jì)費(fèi)規(guī)則。
△圖2:感知排列外部性的生成式拍賣整體框架
1、生成器
根據(jù)理論推導(dǎo)的最優(yōu)分配形式,生成器的目標(biāo)為根據(jù)
個(gè)參競廣告,生成長度為的廣告序列
,以最大化期望虛擬福利。我們構(gòu)建的生成器包括兩部分:滿足排列不變性(permutation-invariant)的集合編碼器,以及滿足排列同變性(permutation-equivariant)的自回歸解碼器。排列不變性指的是改變模型輸入元素的排列順序不會(huì)改變模型輸出的結(jié)果,排列同變性指的是輸入元素的排列順序改變會(huì)引起輸出結(jié)果的排列順序產(chǎn)生相同的改變。前者保證輸入模型的參競廣告順序不影響分配結(jié)果,后者在自動(dòng)機(jī)制設(shè)計(jì) [7-9] 的研究工作中廣泛應(yīng)用,[10] 進(jìn)一步論證了排列同變性可以提升機(jī)制的泛化性。
集合編碼器旨在通過建模參競集合粒度的外部性來增強(qiáng)每個(gè)廣告的表征。編碼器首先通過 self-attention layer 編碼廣告 embedding 序列:
再經(jīng)過 sum-pooling 層和 MLP 層得到集合粒度上下文編碼:
解碼器使用自回歸模型建模長度為
的廣告序列的聯(lián)合概率分布:
我們使用 GRU 單元建模參競廣告在坑位的條件概率:,第
個(gè) GRU 單元迭代式地定義為:
其中
為可學(xué)習(xí)的參數(shù),始終非負(fù),確保更高的虛擬價(jià)值獲得更大的分配概率,與最大化虛擬福利的目標(biāo)保持一致。我們接下來對在坑位之前分配的廣告進(jìn)行 mask 操作,并基于概率進(jìn)行采樣以決策分配到當(dāng)前坑位的廣告。重復(fù)次采樣過程,得到長度為
的廣告序列即為最終分配結(jié)果。注意到生成器中的 MLP 和 GRU 單元作用在每個(gè) state-ad 對,且編碼器滿足排列不變性,因此解碼器滿足排列同變性。
2、評估器
評估器的目標(biāo)為預(yù)估分配結(jié)果
中每個(gè)廣告的 CTR ,進(jìn)一步在訓(xùn)練過程中為生成器提供獎(jiǎng)勵(lì)信號。為了復(fù)用精排階段從用戶行為序列中提取的用戶興趣信息,避免冗余建模,評估器在精排單點(diǎn) pCTR的基礎(chǔ)上,預(yù)估排列外部性校準(zhǔn)向量,再將二者進(jìn)行逐元素相乘得到最終預(yù)估的 CTR:
。模型結(jié)構(gòu)上同時(shí)引入了雙向 LSTM 和 self-attention 模塊提取序列上下文信息,最終將聚合用戶 embedding 后的表征送入 MLP 層得到外部性校準(zhǔn)向量:
具體實(shí)現(xiàn)細(xì)節(jié)請參考論文原文。
3、計(jì)費(fèi)模塊
注意到第 2 節(jié)中理論推導(dǎo)的最優(yōu)計(jì)費(fèi)規(guī)則包括積分項(xiàng)
通過蒙特卡洛采樣近似計(jì)算積分時(shí),每次采樣都需要調(diào)用生成器
和評估器,在實(shí)時(shí)推理時(shí)的計(jì)算開銷過大。在前文中,我們將 IC 條件改寫為每個(gè)廣告主的經(jīng)驗(yàn) ex-post regret 等于 0,這使得我們可以通過數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建計(jì)費(fèi)模塊學(xué)習(xí)上述最優(yōu)計(jì)費(fèi)規(guī)則。計(jì)費(fèi)模塊輸入包括廣告分配序列的表征,出價(jià)矩陣 ,以及期望價(jià)值向量,其中表示生成器輸出的廣告分配概率,表示評估器輸出的外部性校準(zhǔn)后的 CTR。為了滿足 IR 條件,計(jì)費(fèi)模型通過 sigmoid 激活函數(shù)輸出計(jì)費(fèi)比
,再與出價(jià)相乘得到最終計(jì)費(fèi)
4、訓(xùn)練流程
根據(jù)第 2 節(jié)中推導(dǎo)的結(jié)論,最優(yōu)分配最大化虛擬福利,與計(jì)費(fèi)規(guī)則無關(guān),因此我們在訓(xùn)練時(shí)將基于生成器-評估器架構(gòu)的分配求解模塊與計(jì)費(fèi)模塊的優(yōu)化進(jìn)行解耦。
我們首先使用列表級的廣告點(diǎn)擊數(shù)據(jù)訓(xùn)練評估器,交叉熵?fù)p失函數(shù)定義為:
其中
表示用戶是否點(diǎn)擊列表 中的第 個(gè)廣告,
表示評估器的外部性校準(zhǔn)后的預(yù)估 CTR。
在評估器訓(xùn)練收斂后,我們凍結(jié)其參數(shù),指導(dǎo)生成器訓(xùn)練。類似推薦系統(tǒng)重排工作 GRN [11] 的損失函數(shù)設(shè)計(jì)思路,我們將獎(jiǎng)勵(lì)函數(shù)拆解為兩部分。Self-Reward 直接刻畫每個(gè)分配的廣告帶來的虛擬福利增量,即
External-Reward 刻畫每個(gè)分配的廣告帶來的外部性影響,即
類似 VCG 拍賣中的邊際貢獻(xiàn)的概念。二者相加即可得到分配廣告
的整體獎(jiǎng)勵(lì)函數(shù):
其中
表示排除廣告
后的廣告序列。最后,我們使用 Policy Gradient 定義生成器的損失函數(shù)為:
在生成器-評估器架構(gòu)訓(xùn)練收斂后,我們凍結(jié)其參數(shù),使用增廣拉格朗日方法求解第 2 節(jié)最后定義的約束優(yōu)化問題以優(yōu)化計(jì)費(fèi)模塊,對違反 IC 條件施加懲罰項(xiàng),增廣拉格朗日函數(shù)定義為:
計(jì)費(fèi)模塊的優(yōu)化過程包括以下兩個(gè)過程的迭代:
(1)更新計(jì)費(fèi)模塊的參數(shù)
(2)更新拉格朗日乘子
實(shí)驗(yàn)
我們在淘寶展示廣告場景的真實(shí)數(shù)據(jù)集上以及線上環(huán)境中評估生成式拍賣的有效性。對比的基線方法按照外部性建模的粒度可以分為三類:
- 無外部性建模:GSP 廣義二價(jià)拍賣。
- 集合粒度外部性建模:DNA [2];SW-VCG [3]。
- 排列級外部性建模:基于枚舉實(shí)現(xiàn)的 VCG 拍賣;EdgeNet [12];理論推導(dǎo)的最優(yōu)拍賣機(jī)制。
1、離線實(shí)驗(yàn)
離線實(shí)驗(yàn)使用的訓(xùn)練集和測試集分別包括不同日期隨機(jī)采樣的 50 萬條和 10 萬條拍賣日志,每次拍賣約有30個(gè)廣告參競。我們考慮廣告主出價(jià)的條件分布分別服從均勻分布(uniform)和指數(shù)分布(exponential),在兩種條件下分別進(jìn)行評估。評估指標(biāo)包括平臺(tái)收入指標(biāo) RPM(Revenue Per Mille),CTR 以及評估機(jī)制 IC 條件的指標(biāo)
衡量廣告主通過非真實(shí)出價(jià)能夠獲得的效用相對增量。
實(shí)驗(yàn)結(jié)果如表 1 所示。可以觀察到隨著外部性建模從不考慮外部性到集合粒度外部性,再到排列級外部性,三個(gè)指標(biāo)均趨向更優(yōu)。此外,注意到與基于枚舉法實(shí)現(xiàn)的理論最優(yōu)上界相比,生成式拍賣(CGA)達(dá)到了95%的平臺(tái)收入以及極低的
值,表明生成式拍賣可以高效近似理論最優(yōu)機(jī)制。
△表1:離線對比實(shí)驗(yàn)。指標(biāo)后的百分比增減量表示基線方法相比 CGA 的相對值
2、在線實(shí)驗(yàn)
我們在展示廣告場景進(jìn)行了線上 A/B 實(shí)驗(yàn),基線為線上使用的 DNA [2] 機(jī)制。實(shí)驗(yàn)結(jié)果表明,生成式拍賣在推理時(shí)延僅增加 1.6% 的情況下,平臺(tái)收入指標(biāo) RPM 提高了 3.2%,CTR 提升 1.4%,成交 GMV 提升6.4%,廣告主 ROI 提升 3.5%。實(shí)驗(yàn)結(jié)果表明生成式拍賣帶來的收入提升不是由于直接抬高廣告主計(jì)費(fèi),而是通過感知排列級外部性優(yōu)化廣告分配,實(shí)現(xiàn)更精準(zhǔn)的廣告觸達(dá),反映于 CTR、GMV 以及廣告主 ROI 的提升。
總結(jié)
本文從廣告拍賣機(jī)制中的排列級外部性影響出發(fā),打破“先預(yù)估后分配”的設(shè)計(jì)范式,針對在線廣告場景提出了感知排列外部性的生成式拍賣。結(jié)果表明,經(jīng)典的 Myerson 拍賣在遷移到排列級外部性的形式后,仍然保持其最優(yōu)性。
基于這一結(jié)論,團(tuán)隊(duì)設(shè)計(jì)的生成式拍賣架構(gòu)將分配和計(jì)費(fèi)模塊解耦。在具體實(shí)現(xiàn)上,構(gòu)建了基于生成器-評估器的自回歸生成式結(jié)構(gòu)來優(yōu)化分配,并將 IC 約束量化為最小化期望事后后悔來學(xué)習(xí)最優(yōu)支付規(guī)則。工業(yè)級場景的離在線實(shí)驗(yàn)驗(yàn)證了生成式拍賣的有效性。值得注意的是,提出的生成式拍賣框架并不局限于特定的生成式模型。
未來的研究工作將探索引入更加高效的生成式架構(gòu),并在拍賣機(jī)制中統(tǒng)一分配來自多渠道的商品,例如自然結(jié)果與廣告的融合混排。
關(guān)于團(tuán)隊(duì)
阿里媽媽展示廣告機(jī)制策略算法團(tuán)隊(duì),致力于不斷優(yōu)化阿里展示廣告技術(shù)體系,驅(qū)動(dòng)業(yè)務(wù)增長,推動(dòng)技術(shù)持續(xù)創(chuàng)新;不斷升級工程架構(gòu)以支撐阿里媽媽展示廣告業(yè)務(wù)穩(wěn)健&高效迭代,深挖商業(yè)化價(jià)值并優(yōu)化廣告主投放效果,孵化創(chuàng)新產(chǎn)品和創(chuàng)新商業(yè)化模式,優(yōu)化廣告生態(tài)健壯性;驅(qū)動(dòng)機(jī)制升級,并已邁入 Deep Learning for Mechanisms 時(shí)代,團(tuán)隊(duì)創(chuàng)新工作發(fā)表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等領(lǐng)域知名會(huì)議。在此真誠歡迎有ML背景的同學(xué)加入!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.