2025年,AI創(chuàng)作工具的普及已勢不可擋。
近日,童話大王鄭淵潔表示會停止更新自己所有的社交媒體,并說寫不過AI,“AI只用4秒也寫得比自己好,唯一的缺陷就是沒有想象力。”
從華東師范大學推出的“靈咔靈咔”智能寫作平臺一鍵生成百萬字小說《天命使徒》,到閱文集團集成DeepSeek-R1模型為網文作家提供劇情推導服務;從學生依賴AI完成作業(yè),到晉江文學城發(fā)布《AI輔助寫作使用規(guī)范》,技術的觸角已深入文學、教育、商業(yè)的毛細血管,AI寫作工具的普及正以摧枯拉朽之勢重塑內容生產。
然而,這場效率狂歡的背后,暗流洶涌。有各類工具間的明爭暗斗,也有人類創(chuàng)作與AI的爭執(zhí)與討論。當前有哪些AI寫作工具,他們有哪些特點?數(shù)據(jù)猿選取國內外10個典型的AI大模型,從同一深度寫作任務出發(fā)進行橫評,真實展現(xiàn)各模型的創(chuàng)作邏輯、數(shù)據(jù)準確性與稿件表現(xiàn)力,為內容創(chuàng)作者與企業(yè)決策者提供一些參考。
AI寫作
效率狂歡還是創(chuàng)作末日?
這兩年,AI應用成為了不可逆轉的潮流,很多傳統(tǒng)職業(yè)因此受到沖擊,動輒AI替代某個職業(yè)的說法就會流傳開來,讓不少人倍感焦慮。
以AI寫作為例,當前,市面上AI寫作類工具已經呈現(xiàn)井噴趨勢。整體而言,AI寫作已經呈現(xiàn)出寫作速度快、搜索能力強、信息量大、邏輯相對嚴密的特點。在應用文或商業(yè)文案領域,AI寫作在時間成本方面已經展現(xiàn)出比較大的優(yōu)勢。
但在市場上,AI寫作類工具紛繁復雜,水平參差不齊,從開發(fā)廠商、功能、交互、寫作水平、寫作效率等方面而言都有所區(qū)別。對此,數(shù)據(jù)猿盤點了當前市面上主流的幾款國內外AI包含寫作類大模型,并實測功能,希望給大家有所幫助(僅代表個人觀點)。
AI的爆火及自媒體、網絡的瘋狂侵占,甚至讓普通用戶很難分辨哪些大模型是簡單套殼,哪些是真正有背景有專業(yè)開發(fā)團隊的產品。我們從國內外找了幾款在寫作方面相對有代表性的產品,當然,寫作只是AI大模型的一個基本功能之一,部分產品可能因為語言問題導致結果有所差異,因此,測試部分僅供參考。
首先說國外的代表,ChatGPT不用多說,作為AI大模型的先行者,ChatGPT開啟了AI大模型的時代。其核心優(yōu)勢在于實時網絡搜索與文件處理能力,2025年新增的原生圖像生成功能支持通過對話迭代優(yōu)化設計,例如保持角色一致性,適用于品牌內容與技術文檔的創(chuàng)作。
就筆者使用體驗來看,ChatGPT算是在寫作方面能力非常強的。ChatGPT擅長生成結構化文本,如技術文檔和營銷方案,且能通過連接企業(yè)內部知識庫提升回答準確性,但目前而言,GPU超負載問題依然存在,生成速率進一步限制用戶體驗。
Claude由OpenAI前成員創(chuàng)立的Anthropic研發(fā),Claude的安全性和代碼能力在圈子里比較有名。其3.5版本在編程任務中效率非常高,支持通過MCP協(xié)議調用15000+API操作,顯著提升技術報告撰寫效率。寫作特色包括多文檔協(xié)同分析(如一次性處理多篇論文生成摘要)和代碼輔助創(chuàng)作(集成Cursor編輯器跨代碼庫生成報告)。但是Claude長時間運行后穩(wěn)定性不足,且Claude 3.7 Max單次調用成本高達10美元,僅適合專業(yè)開發(fā)者。另外,免費版每日消息數(shù)量受限,比較影響長文本體驗。
Grok是馬斯克旗下xAI開發(fā)的大模型,以實時聯(lián)網與幽默對話為特色,適合撰寫時事評論與社交媒體文案。因為背靠X,在整合最新資訊方面較有優(yōu)勢,另外還能調用攝像頭實時生成創(chuàng)意內容,比如讓它看某款產品,同時生成表述內容等,或者讓它給出穿搭建議。但Grok缺乏多模態(tài)生成能力,功能較單一。在寫作場景中,Grok擅長熱點追蹤與擬人化表達,但對學術寫作等深度任務支持較弱,生成內容常流于表面。
Gemini由Google DeepMind研發(fā)的深度融合搜索數(shù)據(jù)與多模態(tài)技術,支持40+語言全球化內容創(chuàng)作,并基于用戶行為生成個性化報告。Gemini的圖像編輯功能可以一鍵移除版權水印,有一定法律爭議。在寫作領域,Gemini擅長數(shù)據(jù)驅動創(chuàng)作(比如整合YouTube觀看歷史生成定制內容),但功能迭代速度比OpenAI慢,在創(chuàng)新方面相對比較保守。
回到國內,首先當然是深度求索開發(fā)的DeepSeek。
作為中國開源社區(qū)代表,DeepSeek憑借全球首個MoE架構模型在技術博客與項目文檔生成中表現(xiàn)突出,相對擅長數(shù)學與邏輯密集型文本推理。在寫作領域,DeepSeek較為擅長基礎寫作和提綱擬定等,但R1(深度思考)幻覺問題格外突出(甚至會虛構信源),使用過程中需要格外注意信源準確問題。
通義千問由阿里云推出,覆蓋170+場景,集成釘釘與淘寶模板,可快速生成電商文案與營銷方案,支持圖文混排內容創(chuàng)作,在電商文案領域表現(xiàn)較為突出,但生成內容偏向標準化,個性化不足,且強依賴阿里系數(shù)據(jù)(如淘寶商品庫),跨平臺適配性受限。另外通義千問還集合了多種模型,如PPT功能,可以根據(jù)主題理出綱要、一鍵生成PPT,整體來看,PPT生成較為完整,并支持在內容中直接一鍵修改導圖,但分類樣式和風格較為局限;閱讀助手功能可以AI速讀論文、圖書等超長文檔;通義聽悟,可以進行會議紀要、語音轉文字等,支持中文、日語、粵語、中英文混說等,算是AI實時會議紀要的神器。
Kimi由月之暗面開發(fā),專注長文本處理,Kimi憑借支持20萬字上下文分析,在小說續(xù)寫與學術論文綜述中表現(xiàn)不錯。但是,超長文本處理耗時較長,如處理10萬字文檔需15分鐘以上,且交互方式單一,和通義比缺乏多模態(tài)擴展能力。
豆包由字節(jié)跳動開發(fā),以日活千萬級用戶量領跑,用戶體驗較好,聚合功能較多,包括圖像生成、寫作、搜索、閱讀、編程、PPT、翻譯、音樂生成、視頻生成甚至語音通話等。在內容創(chuàng)作方面擅長生成短視頻腳本、熱點梗圖配文等短平快內容,但復雜邏輯文本生成能力較弱。
智譜清言由清華大學KEG實驗室與智譜AI聯(lián)合研發(fā),新一代Agent產品“AutoGLM 沉思”非常強悍,尤其是瀏覽網頁和自動操作方面,可以直接像人類一樣瀏覽知乎、小紅書、公眾號、京東等優(yōu)質卻不對外開放API的信源,同時基于背后基座模型的多模態(tài)理解能力,讓這些網頁上的圖文信息被充分利用。在寫作方面,智譜清言AutoGLM沉思能探究開放式問題并根據(jù)結果執(zhí)行操作,能夠模擬人類”深度研究”的過程,從數(shù)據(jù)檢索、分析到生成報告。和其他大模型不同的是,AutoGLM沉思疊加了AutoGLM操作電腦瀏覽器的環(huán)境交互能力,也是第一個C端可以使用的擁有強反思能力的Agent產品。
但盡管邏輯非常成熟,但實際使用過程中,AutoGLM沉思仍然短板明顯,仍偏向于羅列要點層面。
文心一言由百度開發(fā),依托百度搜索引擎數(shù)據(jù)優(yōu)勢,在中文語境理解與SEO優(yōu)化建議生成中表現(xiàn)不錯,響應速度比較快。目前文心一言有文心X1(深度思考)、文心4.5、文心4.0Turbo、文心3.5幾個版本,可以支撐創(chuàng)意寫作、閱讀分析、智慧繪圖等需求,在具體寫作方面,有深度寫作、改寫、擴寫、仿寫、潤色、縮寫、續(xù)寫等功能,細分比較多。在具體創(chuàng)作方面,文心X1會有思考和行動過程,產出內容中規(guī)中矩,幻覺問題同樣較為突出。
由于國外AI大模型訪問限制,一般用戶可能難以訪問,但綜合而言,寫代碼優(yōu)先Claude,創(chuàng)意內容可以優(yōu)先選可嘗試ChatGPT、Grok,數(shù)據(jù)處理分析優(yōu)先智譜清言,會議紀要優(yōu)先通義聽悟,長文本處理推薦Kimi,企業(yè)級應用側重DeepSeek和通義千問,日常應用豆包就可以滿足需求。
至于PPT版塊,當前絕大多數(shù)AI生成的PPT都比較雞肋,乍一看很順暢,但無法生成精細的內容,都是自動化套版,后期需要大量的手工調整。
事實上,除了寫代碼,AI寫作仍停留中低層面,因為AI本質是概率組詞,而非思考。
長稿件性能比拼
大模型誰強誰弱
盡管每個大模型側重點和優(yōu)勢不盡相同,但目前功能布局已經大差不差。為進一步測試各平臺稿件創(chuàng)作能力,我們以同樣的題目,在各平臺進行結果呈現(xiàn),可以更直觀的了解各大模型的特點。
最近,AI在醫(yī)療領域的幻覺問題較為突出,我們以AI醫(yī)療創(chuàng)作為命題,以相對標準的提問方式對各模型進行提問。以下為提問問題:
“你是一個醫(yī)療行業(yè)的深度內容作者,2025年3月26日晚,上海萊士血液制品股份有限公司發(fā)布公告,宣布公司以42億元的對價,收購南岳生物制藥有限公司100%股權。針對這一事件為由頭,深度分析此次收購的原因、對于上海萊士及國內血制品賽道的影響。
具體要求:
①需側重具體數(shù)據(jù)分析,文中所有的數(shù)據(jù)均真實有效
②選取以往至少1個血制品領域的并購案例,并分析其對行業(yè)產生的影響
③盡可能原創(chuàng),不允許大段復制現(xiàn)有資料
④稿件需要至少3個大部分,字數(shù)要求6000字以上。”
對于內容創(chuàng)作者來說,AI能否對于工作提效很關鍵,但從專業(yè)角度來說,AI生成復雜稿件可用性、稿件內容準確性、表達邏輯等是驗證AI創(chuàng)作實際應用可落地的必要基礎。根據(jù)同樣的問題,各AI大模型都給出了答案。(使用次數(shù)限制等不在對比范圍,僅呈現(xiàn)回答內容)
首先是ChatGPT,ChatGPT回答該問題僅僅用時46秒,回答稿件整體篇幅為4700字,基礎邏輯較為順暢,但整體內容以羅列要點為主,再說稿件內容準確度,盡管開啟了搜索和推理功能,但該篇稿件內容所用到的數(shù)據(jù)絕大部分是推理得出,幻覺現(xiàn)象較為嚴重,虛構內容頻繁出現(xiàn)。
ChatGPT
如“據(jù)《2023中國血制品市場年度報告》顯示,中國血液制品市場規(guī)模在近五年內以年均12%~15%的速度增長,市場總值已突破300億元人民幣”、“并購后,上海萊士將整合雙方在全國范圍內的銷售網絡和供貨渠道,預計市場占有率有望提升至35%以上”均為虛構,其中案例關鍵信息“2011年西班牙企業(yè)Grifols斥資約31億美元完成對美國Talecris生物制藥公司的并購”中,實際收購金額為34億美元,第二部分中所有數(shù)據(jù)均為虛構。
接下來是Claude,我們采用的是Claude 3.7 Sonnet模式,整體用時在3分鐘以內。從呈現(xiàn)上講,Claude 3.7 Sonnet是我認為寫這篇稿子的最強輸出,正片稿件文本輸出達11000字,整體呈現(xiàn)條理清晰,并自動輔以表格呈現(xiàn)支撐觀點。
這篇類似報告的深度分析文章詳細探討了上海萊士收購南岳生物的戰(zhàn)略意義和行業(yè)影響。從行業(yè)布局到交易雙方近五年營收利潤情況,從國內血制品行業(yè)格局到全球血制品行業(yè)格局,從交易整合風險到對上下游產業(yè)鏈影響,事無巨細,一眼看去確實驚艷。
Claude
但這篇稿件準確度是硬傷,盡管文中表格非常多,數(shù)據(jù)呈現(xiàn)非常全面,但具體數(shù)據(jù)均為虛構,尤其是各企業(yè)營收、凈利潤及毛利等情況。但其相對國際化的視野是值得肯定的,如其對比了血制品國際巨頭CSL Behring的營收情況,盡管兩個對比對象營收數(shù)據(jù)都是錯的,但還是提供了一個相對可以深入的點。(CSL Behring2024年營收為106億澳元,華蘭生物2024年營收為43.79億人民幣。)
在文章中這樣的案例非常多,對于作者來說,Claude確實提供了比較多思路,其萬字長文能力也確實出色。
然后是Grok,Grok測試的是DeepSearch+Think模式,整體用時也在3分鐘以內,生成內容4300多字。Grok采取的方式是先了解收購背景、優(yōu)化搜索、尋找官方信息、分析市場趨勢、評估并購影響,然后才是規(guī)劃文章結構、整理數(shù)據(jù)、完善你文章內容。這個邏輯鏈條非常準確,整體內容從分析并購原因、并購對于上海萊士及國內血制品市場的影響及過往并購案例分析展開。
當然,硬傷還是數(shù)據(jù)虛構,盡管Grok生成的稿件中數(shù)據(jù)呈現(xiàn)沒有那么多,但是涉及到具體企業(yè)營收部分還是完全錯誤。
Grok
值得一提的是,Grok在文中提供了完全準確的信源,甚至提供了準確的行業(yè)報告下載鏈接,這一點是其他大模型沒有的,Grok非常注重搜索環(huán)節(jié),這可能和Grok背靠馬斯克X平臺有關。
接下來是Gemini,此次測試,我首先采用的是Gemini稱之為處理復雜任務效果最好的2.5 Pro (experimental)版本。但Gemini2.5Pro知識更新周期僅截止到2023年年初,所生成內容不具備參考性。
因此,我采用的是Gemini Deep Research版本,Gemini Deep Research整體搜索網站多達254個,用時長達20分鐘,但Gemini Deep Research整體研究能力超級強,是我認為最符合深度內容作者內容生產邏輯的大模型。Gemini Deep Research不僅對交易細節(jié)進行了完整的分析,還找到了上海萊士和南岳生物過去幾年的財務報告,并根據(jù)財務報告對其營收、利潤進行了分析。
在具體內容方面,Gemini Deep Research稿件長度為5700字,內容包括并購背景、交易雙方財務表現(xiàn)、收購背后邏輯、對行業(yè)影響等,盡管數(shù)據(jù)截止到去年三季度,但其數(shù)據(jù)準確度極其優(yōu)秀,所有內容均有精確信源。
Gemini
可以說,Gemini Deep Research是最給我驚喜的一個大模型,不僅所有內容都基于公開報道,其分析也相對有條理,美中不足的是生成內容更像是研究報告。
接下來我們回到國內,首先是DeepSeek,DeepSeekR1+聯(lián)網搜索模式下,整體內容生成為1分鐘左右,盡管DeepSeek在稿件結尾說明“全文約6200字”,但實際上全文僅有2200字。從內容上看,DeepSeek延續(xù)了起標題的“硬實力”,內容三個部分分別擬標題為“收購動因:資源稀缺性、戰(zhàn)略協(xié)同與行業(yè)競爭格局的倒逼”、“對上海萊士的影響:短期增益與長期風險并存”、“對國內血制品行業(yè)的影響:集中度提升與競爭范式轉變”、“歷史鏡鑒:從鄭州萊士到南岳生物的商譽風險警示”、“結語:血制品行業(yè)的‘資源為王’與‘技術制勝’雙軌戰(zhàn)”,充滿行業(yè)里比較明顯的“AI味兒”。
DeepSeek
由于同步開啟了聯(lián)網搜索,DeepSeek的幻覺基本上進行了規(guī)避,但整體偏向于內容梳理,缺乏核心觀點。為了同步對比,我們同樣測試了DeepSeekR1版本,從篇幅方面,DeepSeekR1僅僅用1200字進行了內容歸納,并“指導”我們把每個章節(jié)擴展至約2000字,以達成6000字的篇幅。
整體而言,DeepSeek這次的輸出內容,明顯不能滿足長篇稿件要求。
接下來是通義千問,通義千問深度思考模式成稿篇幅為3000字,亮點在于行業(yè)趨勢解讀提出了頭部企業(yè)擴張路徑的相關分析,參考信源共計9個,整體內容相對而言較為局限。
通義千問
以長文本見長的Kimi反而在這個稿件中呈現(xiàn)比較普通,聯(lián)網+長思考(k1.5)模式下,全文僅有1700字,整體內容呈現(xiàn)也以歸納為主,偏向分析,與深度稿件相比仍存在較大差距。
Kimi
豆包同樣問題生成回答為2700字,和DeepSeek、通義千問相比,深度思考模式下豆包內容中植入了表格,同時運用了較多的數(shù)據(jù),但幻覺問題較為嚴重,虛構數(shù)據(jù)、政策非常頻繁。和DeepSeek相比,豆包同樣在“秀文字”方面能力突出,尤其標題堆砌詞藻現(xiàn)象明顯。
豆包
智譜清言測試的是AutoGLM沉思版本,整體用時超過半小時,實操發(fā)現(xiàn),AutoGLM沉思版本每個問題點都需要搜索大量網頁并進行分析,單個小點問題約用時3分鐘左右,以至于整個回答耗時非常久。文章篇幅為3300字,邏輯較為順暢,準確度方面非常優(yōu)秀,基本上數(shù)據(jù)都有明確信源,但短板也比較明顯,由于參考了大量文獻及公開資料,AutoGLM沉思更偏向于信息羅列和數(shù)據(jù)引用,分析內容較為缺乏。
智譜清言
值得一提的是,AutoGLM沉思在思考的同時,自動在瀏覽器中打開了相關網頁,甚至自動找到財報的PDF版本,并在分析完畢標注“本輪任務”已結束,這一點是其他大模型都沒有的,相較于放信源鏈接,自動打開瀏覽器、自動搜索讓我看到了AI的另一個版本。
對于文心一言,我們測試是文心4.0Turbo同時開啟深度思考(X1)和聯(lián)網搜索的版本,整體文章約3000字,整體文章邏輯較為清晰,收購動因、歷史行業(yè)并購案和市場影響分析都較為全面,主要的問題是列點提綱式表述,很難稱之為完整文章。但由于啟動了聯(lián)網搜索,文心4.0Turbo的信息準確度非常高。背靠百度,文心一言信源分類比較豐富,各類財經網站、百家號、甚至微信公眾號都在借鑒范圍之內,這一點值得肯定。
文心一言
基于以上結果,我們對十大AI模型進行了橫向對比,當然,每個大模型擅長領域或方向可能不盡相同,本文僅以相同中文問題如實呈現(xiàn)各模型回答情況,僅供參考。
(評分以實際使用體驗為準,僅供參考)
就生成速度而言,智譜清言AutoGLM沉思用時超過半小時,是本次測試中生成速度最慢的,Gemini Deep Research次之,用時20分鐘,其他大模型均較為迅速,基本上在5分鐘以內即可回答完畢。
在稿件邏輯方面,各模型整體稿件邏輯都較為順暢,沒有明顯的邏輯不通情況,這表明當前大模型在深度稿件邏輯梳理方面已經較為出色。
在稿件準確度方面,整體而言同時開啟聯(lián)網搜索和深度思考(推理)模式下,大部分大模型幻覺現(xiàn)象仍未減少,如ChatGPT、Claude、通義千問、Kimi、豆包。但國外Gemini Deep Research、國內智譜清言AutoGLM沉思稿件準確度優(yōu)勢突出。
測試結果表明,當前無一模型能夠100%滿足深度稿件生產所需的準確性與原創(chuàng)性標準,但部分模型在不同維度已展現(xiàn)出比較強的能力。
給人印象比較深的是Claude 3.7 Sonnet超有邏輯等的萬字長文加表格呈現(xiàn),grok DeepSearch+Think模式下完整的思考邏輯鏈條和提供完全準確且可供下載的報告鏈接,Gemini Deep Research的類學術內容產出及超級精準的數(shù)據(jù)呈現(xiàn)。
當然,也有國內大模型也有出色之處,如DeepSeek、豆包等在中文文字表達方面更有創(chuàng)意,智譜清言和文心一言在數(shù)據(jù)方面相對較為嚴謹,智譜清言AutoGLM沉思甚至可以自行在瀏覽器搜索內容讓人印象深刻。
國外VS國內
長文本內容AI輔助的幾點歸納
國內外大模型之爭已經走入深水區(qū),不同大模型的側重點和擅長領域都不盡相同。篇幅原因,我們很難具象呈現(xiàn)每個大模型的特色及真正擅長的領域,但盡管如此,通過相同的題目,至少可以從這個冰山一角看過去,檢驗各大模型在相對篇幅較長,更偏重深度、分析的稿件中的表現(xiàn)。
整體來看,國內外主流AI模型還是有差異的,具體有以下幾點:
①內容生成風格方面,國內AI更具中文優(yōu)勢
盡管幾乎所有大模型都支持中文,但其質量和有效性可能因底層模型的訓練數(shù)據(jù)和特定的語言處理能力而異,許多國際LLM的主要訓練數(shù)據(jù)都以英語為中心,在處理中文過程中部分工具依賴于翻譯,可能無法捕捉到中文的所有細微差別。但國內工具由于原生設計,可以訪問大量的中國互聯(lián)網數(shù)據(jù),包括來自微信和微博等社交媒體平臺的內容、來自阿里巴巴和京東等電子商務平臺的數(shù)據(jù)、來自百度的搜索數(shù)據(jù)以及各平臺新聞。因此在中文的理解和運用上更具有優(yōu)勢,甚至會文采炫技”“標題堆砌”現(xiàn)象,但也更容易產生形式大于內容的問題。
在內容風格方面,國外AI大模型受西方溝通規(guī)范影響,通常傾向于清晰、簡潔和更直接的表述。國內大模型的內容生成風格更貼合中國的寫作習慣,在某些情況下更強調不同的修辭結構、正式程度和間接性。
②數(shù)據(jù)引用各不相同,各平臺均有側重
直接點說,大部分大模型都“夾帶私貨”,Grok背靠X,Geminni信源多為谷歌,通義千問之于阿里、豆包背靠抖音,文心一言背靠百度等等,因此在實際過程中,對于信源的參考及植入,也會更傾向于自身平臺,這一點是需要用戶進行識別和甄選的。
國際與國內AI寫作助手的主要區(qū)別(僅供參考)
單純就本次測試而言,個人認為盡管語言層面不占優(yōu)勢,但國外大模型在命令理解能力、邏輯產出等方面仍可圈可點。
對于目標是出海甚至面向全球的國內AI來說,能預見這段路可能比想象的要長。當然,一篇稿件很難評價出誰優(yōu)勢更大,但就長文本輔助產出來說,希望能夠給到大家一些參考或啟發(fā)。
對于內容創(chuàng)作者而言,AI是得力助手,但不是終極答案,真正的創(chuàng)作仍需人類判斷與思維參與。
在AI重構內容產業(yè)格局的今天,我們不僅要關注“寫得快不快”,更應思考“寫得準不準、深不深”。最后,是部分寫作場景的大模型選擇建議,僅供參考:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.