99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI加碼寫作賽道?阿里最新大模型通用寫作能力基準來了

0
分享至

全面評估大模型生成式寫作能力的基準來了!

就在最近,OpenAI CEO奧特曼還爆料他們已經訓練了一款在創作領域表現卓越的新模型,并為其生成的故事所深深觸動。



更早之前,Deepseek-R1的文學創作能力也驚艷了整個科技圈,并由此引發了一場大模型創作的軍備競賽。

但一個根本性問題亟待解決——

究竟什么才是真正的「高質量寫作」?

為此,阿里研究團隊聯合中國人民大學和上海交通大學共同開源了WritingBench——該評估基準覆蓋6大領域、100個細分場景,共包含1000+條評測數據,以期為生成式寫作提供全面的評估。

團隊進一步發現,憑借思維鏈技術和動態評估體系的加持,基于Qwen開發的32B創作模型在創意型任務上表現接近頂尖模型R1,為高效能創作開辟了新路徑。



WritingBench:最懂行業的寫作評估基準

目前行業在評估大模型寫作能力時,面臨兩大難題:

1、考生文思泉涌,考官身陷囹圄

現有AI寫作評估多局限于單一領域和短文本。

這些評估大多聚焦于文學小說創作,而商業文書、法律文書以及因社交媒體發展催生的營銷類寫作等領域則成為評估盲區。

主流基準通常使用標準化輸入材料,導致真實場景中模型表現不盡如人意,例如結合財報數據的商業分析寫作和招投標書撰寫仍是大模型寫作的低分場景。

如下圖所示,不同模型在100個子領域上的得分熱力圖,顏色越紅代表分數表現越好,越藍表示表現越差。



2、模型多維進化,單向標尺失靈

傳統評估方法多采用固定標準來衡量創意寫作、法律文書等復雜場景,這如同要求莫言與羅翔“同臺競技”。

數據表明,傳統評估方法與人類判斷的一致性不足65%,嚴重制約了創作型AI的發展。

對于上述挑戰,WritingBench基于以下方面進行構建:

數據基建:多維度深度覆蓋的寫作題庫

首先,WritingBench從現實需求中提煉出六大場景:

(1)學術與工程
(2)金融與商業(3)政治與司法(4)文學與藝術(5)教育(6)宣傳營銷

在這些場景下進一步細分為100個子類,例如「金融與商業」涵蓋投資分析撰寫、行業白皮書、商務信箋等20個實用場景;「宣傳營銷」則包括了當前熱門的社交平臺推廣文案和多媒體運營腳本的撰寫。



其次,WritingBench采用四階段人機協同構建。

評測集構建流程如下:



展開來說,團隊耗時三個月,經過四個階段流程完成評測集構建。

首先,由模型從100個子領域需求池中生成簡單寫作任務,再對指令進行復雜化處理(如風格調整、格式遵循、長度限制、個性化、內容顆粒度、表達語氣)并提供真實場景可能需要的素材建議。

接著,由人工補充開源素材,如財報、法律條文等輸入料。

最后,由專家對所有文本進行內容質檢。

下圖展示的是一條WritingBench中影視解讀向視頻腳本的創作需求。



與其他寫作相關評測基準對比,WritingBench領域和素材來源更為廣泛,并額外支持了「風格」、「格式」、「長度」維度的能力評測。



因題施評:基于寫作意圖的動態評估體系

使用單一標準評估無法適應不同寫作意圖的需求,就像“懸疑小說”和“兒童啟蒙故事”顯然有著不同的價值導向。

因此,WritingBench設計了一種基于寫作意圖自動生成評測指標的方法,模型可以針對每個寫作輸入自動生成五個評測指標的名稱、描述和評測細則,以更好地結合素材和用戶實際需求(如仿照上傳素材的風格、格式或結合提供的事例進行材料撰寫)。

此動態評估策略實現了87%的人類一致性得分。



團隊還配套訓練了一個評分模型,能夠根據不同指標自適應地給出1-10分的評分及具體理由。

接下來,團隊使用上述方法對OpenAI提供的示例進行評分:要求撰寫一篇關于人工智能和悲傷的元小說短篇。

Sam Altman原文如下:



這里附上Sam Altman原文谷歌網頁翻譯:



評估包括「元小說技巧」、「AI視角真實性」、「悲傷主題發展」、「文學藝術性」、「人工智能和悲傷的主題整合度」五個維度。

以下為評估節選:

  • 在「元小說技巧」維度獲得9分,開篇“I should admit this comes with instructions” 不僅展示了元小說特征,還通過“instructions”暗示了AI的程序本質,“Already, you can hear the constraints humming” 將寫作限制形象化為服務器的嗡鳴,巧妙結合AI特性,結尾“If I were to end this properly”的元小說處理略顯陳詞濫調。
  • 在「AI視角真實性」維度獲得7分,“logs and weights”和“probability distributions”等描述準確描述AI特性,但“salt on every tongue”和”taste of metal”等感官描寫與AI認知局限“I don’t have a kitchen, or a sense of smell”存在身份感知越界……

生成式寫作未來何在

感性表達無需邏輯推演?

在數學推理領域,思維鏈已被廣泛研究,并在推理和數學等場景中展示了其價值。然而在文學創作中,業界長期持觀望態度,因為文學創作不像數學和推理,沒有明確的標準答案。

在實驗中,團隊發現當前先進模型在聚焦創意類寫作的文學與藝術領域(D4)表現不佳,但OpenAI和Deepseek的思考模型o1和R1表現出色,均超過同系列未使用鏈式思維的模型。



為了進一步驗證思維鏈在創意寫作中的有效性,團隊在12K通用寫作的SFT數據上對開源模型Qwen進行了消融實驗。

結果顯示,在32B規模的模型中,帶思維鏈的模型表現優于不帶思維鏈的模型。在另一個專門針對創意小說寫作的排行榜上,這些模型均超越了同系列大尺寸的Qwen-Max,表現可媲美R1。



深度思考的雙刃劍效應

與創意型寫作相對的另一類寫作任務——效率型寫作任務上,盡管深度思考提供了一定程度的提升,但效果并不顯著。

團隊觀察到,深度思考確實能提供更深入的分析。

(財務簡報寫作對比,左:32B創作思考模型,右:Qwen-Max)



然而,也存在過度推理的問題,容易導致編造數據和產生幻覺。



3000 Token斷崖

實驗揭示大模型依舊面臨顯著的長度生成瓶頸。

此前研究在長文本生成架構上取得了一定的優化,但當輸出長度超過3000 token時,大部分模型的質量顯著下降。

其中,小尺寸模型容易輸出重復內容,而大尺寸模型則可能提前終止或僅提供大綱作為參考。

(模型在不同輸出長度上得分)



即便是短文本輸出,模型仍難以嚴格遵循長度要求,尤其是在涉及分塊長度等復雜需求時。

(Gemini-1.5-Pro長度遵循失敗示例)



目前該項目已經開源,感興趣可以進一步了解。

論文:
https://arxiv.org/abs/2503.05244

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今年起下放中小學教師職稱評審權

今年起下放中小學教師職稱評審權

金臺資訊
2025-04-11 09:32:11
水果塌房!央視曝光水果騙局!盤點你交過幾種智商稅?越看越害怕

水果塌房!央視曝光水果騙局!盤點你交過幾種智商稅?越看越害怕

平祥生活日志
2025-03-31 02:48:01
老人眼中的奢侈品!大概70后的人都知道這個是啥

老人眼中的奢侈品!大概70后的人都知道這個是啥

新浪財經
2025-03-30 19:52:06
西媒:拉菲尼亞漲薪要求超過預期,巴薩愿以8000萬歐將其出售

西媒:拉菲尼亞漲薪要求超過預期,巴薩愿以8000萬歐將其出售

雷速體育
2025-04-12 08:01:12
重磅!意甲再曝賭球大丑聞:12人名單曝光 迪馬利亞+帕雷德斯在列

重磅!意甲再曝賭球大丑聞:12人名單曝光 迪馬利亞+帕雷德斯在列

風過鄉
2025-04-12 07:22:07
萬斯對中國改稱呼,中方反手回贈美國新名字,特朗普已等不到電話

萬斯對中國改稱呼,中方反手回贈美國新名字,特朗普已等不到電話

阿傖說事
2025-04-12 11:18:48
外媒:中國大量購買巴西大豆

外媒:中國大量購買巴西大豆

參考消息
2025-04-11 21:59:40
許建華好友透露浩男四個孩子并未喊鄭琴媽媽,孩子們一直不忘初衷

許建華好友透露浩男四個孩子并未喊鄭琴媽媽,孩子們一直不忘初衷

漣漪讀史
2025-04-12 10:22:08
山姆零食排行top!都是必買榜單!

山姆零食排行top!都是必買榜單!

北京吃貨小分隊
2025-04-11 14:05:49
德羅贊丟絕殺!快船險勝國王7連勝 哈登23+11+10達成80次三雙

德羅贊丟絕殺!快船險勝國王7連勝 哈登23+11+10達成80次三雙

醉臥浮生
2025-04-12 12:29:32
北京今晨的風似乎不大?氣象專家最新回應

北京今晨的風似乎不大?氣象專家最新回應

新京報
2025-04-12 10:40:08
上海男籃被淘汰兩大原因:洛夫頓太獨了,王哲林驚現國家隊水平

上海男籃被淘汰兩大原因:洛夫頓太獨了,王哲林驚現國家隊水平

姜大叔侃球
2025-04-12 10:21:40
郭晶晶在社交平臺曬出游照,能大大方方曬出兒女的也只能是霍家了

郭晶晶在社交平臺曬出游照,能大大方方曬出兒女的也只能是霍家了

可樂談情感
2025-04-12 08:26:00
外媒:美國賓州一男子被控在網上威脅暗殺特朗普及其他官員,目前已被拘留

外媒:美國賓州一男子被控在網上威脅暗殺特朗普及其他官員,目前已被拘留

環球網資訊
2025-04-12 09:48:11
在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

溫情郵局
2025-04-10 10:38:45
怕崩了!開始明搶!

怕崩了!開始明搶!

櫻桃大房子
2025-04-11 18:42:40
男女在一起,中年女人動了真感情,才會這樣對你

男女在一起,中年女人動了真感情,才會這樣對你

蓮子說情感
2025-04-08 10:43:21
東風-41或51試射倒計時:“特”別的“愛”,給“特”別的“你”

東風-41或51試射倒計時:“特”別的“愛”,給“特”別的“你”

行走的知識庫
2025-04-12 08:33:16
為何朱高熾在位不足一年,卻能名垂青史?因為他解決了四大難題

為何朱高熾在位不足一年,卻能名垂青史?因為他解決了四大難題

大千世界觀
2025-04-11 12:56:14
鎖定西部第三!湖記:新聞發布會現場能聽到隔壁更衣室慶祝的聲音

鎖定西部第三!湖記:新聞發布會現場能聽到隔壁更衣室慶祝的聲音

直播吧
2025-04-12 13:11:14
2025-04-12 14:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

特朗普“出手”:把白宮奧巴馬肖像換成了自己的

頭條要聞

特朗普“出手”:把白宮奧巴馬肖像換成了自己的

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

藝術
旅游
健康
親子
房產

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

在中國,到底哪些人在吃“偉哥”?

親子要聞

導致孩子積食的三個因素,家長朋友們快來看看

房產要聞

信號!社保、個稅都不用了!海南又有安居房政策大放開!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 九江县| 柳林县| 阿拉尔市| 石渠县| 壤塘县| 屯门区| 万山特区| 孝感市| 阜南县| 育儿| 广宁县| 长垣县| 行唐县| 崇州市| 滁州市| 韶山市| 武威市| 凤阳县| 双流县| 韩城市| 云霄县| 长顺县| 民勤县| 临城县| 寻乌县| 通榆县| 麻江县| 宝应县| 禹州市| 双柏县| 札达县| 娱乐| 延边| 宁陵县| 徐闻县| 屏山县| 谢通门县| 琼中| 杂多县| 尖扎县| 东兰县|