一大早,上班開機
特大妹邊啃包子邊刷視頻直播
突然被某大廠給驚掉了下巴
這時候,你是不是覺得
特大妹一臉沒見過世面的樣子
大模型看圖,有啥了不起?
其實,這里面太有門道了
首先,我們來解釋一個定義
業界把“看懂圖”的大模型叫
到底有啥神奇呢?
特大妹拿字節跳動剛剛發布的
豆包·視覺理解模型
來舉幾個例子
先拖一張圖進去
淺淺測測它的智商
認出星爺還是有點easy
我們上點兒難度
拿一個鬼都不知道是啥的玩意
讓它看看
然而,光認得出,也沒啥可吹的
要進一步上難度、考智商
看看邏輯推理能力怎么樣
不行,再加點難度
特大妹挑了一個連題干都看不懂的題
「2024高考物理真題」
豆包有點東西
理性的考不倒
就加點“繞人”的東西
特大妹就不信拿捏不了它
到了這一步
特大妹不得不上點考驗“人性”的東西了
給它投點“毒”
篇幅有限,就不挨個試了
反正特大妹是被震驚到了
豆包視覺理解模型,強到可怕
首先,它具備更強的內容識別能力
能夠識別人物、物體、建筑,動作、情緒、表情、位置、傳統文化,甚至深諳人性…
第二,它具備更強的理解推理能力
能根據圖片信息
進行數學、邏輯、代碼等推理
最終得出答案
第三,它具備更細膩的觀察和描述能力
比如,給它兩張相似圖
人類肉眼辨別起來都費勁
它一眼看穿,細節捕捉達到像素級
從此,找不同游戲要退出歷史舞臺了
我感覺企業級視覺應用要變天了
過往15年視覺識別是TOB大熱賽道
硬件賣攝像頭,軟件賣圖像識別
而如今,視覺理解大模型加入
應用場景從“看見”到“理解”
這個深刻轉變,將帶來新一輪升級迭代
比如,監控視頻圖像理解
監控視頻不再是簡單地“找人”
而是能“懂”現場發生的事情
比如,環保監測圖像理解
不再是簡單地發現是否排放了
而是通過分析排放物的顏色、狀態等
推斷出具體排放的是啥東西
比如,質檢圖像理解,不再是簡單判斷產品是否有瑕疵,而是能指出哪個環節出現問題
比如,自動駕駛圖像識別,不僅能看見障礙物,還能理解前方的交通狀況,提前做出反應...
不止是視覺理解模型強到可怕
在12月18日
「火山引擎 FORCE原動力大會」上
全面升級的豆包大模型家族
更是個個能打,集體炸裂
接下來我給大家挑重點嘮嘮
豆包家族成員的那些新本領
01、豆包通用模型pro版升級
豆包通用模型
作為豆包大語言模型家族的“老大哥”
一直穩坐家族“扛把子”的位置
只因性能確實強悍
出門打榜穩居第一
12月19日,智源研究院發布了對國內外100余個開源與商業閉源大模型的綜合及專項評測結果:
▎在「大語言模型評測能力榜單」中,豆包通用模型 Pro 在重點考察中文能力的主觀評測中斬獲第一。
▎在「FlagEval 大模型角斗場榜單」中,豆包通用模型 Pro 位列大語言模型第一梯隊,綜合評分排名第二,僅次于 OpenAI 的 o1-mini,成為得分最高的國產大模型。
大家都喜歡通過API調用它來扛活
調用量持續飆升
與七個月前首次發布時相比
增長了足足33倍
此次升級后
豆包Pro已能全面對齊GPT-4o
但價格僅為其1/8
這種超強性價比也體現在豆包其他成員
比如我們前面說的豆包視覺理解模型
在「多模態模型評測榜單」中
它在視覺語言模型中排名第二
僅次于 GPT-4o,是得分最高的國產大模型
但是每千tokens輸入價格只有3厘錢
1塊錢就能處理 284 張 720P 圖片
超高性價比,名副其實
02、豆包·音樂模型升級
只需上傳一張圖片或幾句話
就能生成一首歌,支持10多種曲風
此次升級,歌曲長度從1分鐘飆到3分鐘
意味著能生成一首完整的歌曲了
這對專業級用戶來講
搞音樂、電影、游戲、配音…
就是神級助攻
03、豆包·文生圖模型升級
玩過圖片生成模型的老司機都知道
讓大模型寫漢字
全是天書一般的亂碼
這個難題被豆包克服了
升級后的豆包·文生圖模型2.1
在業界首次實現
生成圖片時可以生成精準的漢字
同時,還新增了“一句話P圖”功能
一句話P圖
指令:在地上畫一個可愛的小貓
輸出
獨門絕技解讀:“一鍵P圖”是國內第一個實現了通用圖像編輯的產品化模型,核心亮點是:不需要預先為特定任務訓練模型,直接根據用戶的需求來編輯圖片,即「零樣本編輯」,同時引入SeedEdit框架,不需要給模型加入新的參數,保持模型的輕量化,就能把一個原本用于生成圖像的擴散模型轉化為一個可以編輯圖像的模型。
在圖中生成漢字
指令:在圖上寫上幾個字“我愛工作”
獨門絕技解讀:圖中能寫中文字→之前所有模型都無法精準寫出精準的漢字。主要是結合了大語言模型(LLM)和文生圖模型(DIT)的能力,生成過程兼具“語言理解”和“畫面生成”的雙重智能性。
我們看到,豆包持續加碼大模型
迭代速度空前,降本力度空前
按豆包的話講,只有更強的大模型
才能解決大模型進軍行業的三大難題
為幫助客戶破解這些難題
豆包推出了多維度支持方案
通過統一入口→火山引擎
實現對豆包全家族的統一調用
這次,火山引擎對三款重磅產品進行升級
火山方舟丨扣子丨 HiAgent
針對不同用戶、不同場景
1、面對復雜的AI企業級應用
火山引擎提供更高級、更專業的
一站式大模型服務平臺!
這就是,火山方舟
2023年 6月推出
這是一個強大的「模型即服務」平臺
①、提供模型精調、推理、評測等一站式服務
②、提供多模型選擇,支持客戶靈活試用和快速對比
③、提供多樣化的插件和AI原生應用開發服務
④、提供安全互信計算方案和基礎設施
此次升級
火山方舟發布【大模型記憶方案】
推出2個用來提高AI“記憶力”的API
? prefix cache(前綴緩存)
? session cache(上下文緩存)
prefix cache把聊天的前綴指令
抄到小本本上,一翻就能用
session cache則負責記錄一定周期內上下文聊天的重點
火山方舟還帶來【AI搜推引擎】
覆蓋文本、圖像、音頻和視頻搜索
支持超大規模的吞吐量
并實現毫秒級的檢索速度
2、無需編程技能,0代碼搭建AI應用
這就是,扣子
升級后,扣子提供全新應用開發環境
支持GUI搭建界面
同時,扣子使用門檻進一步降低
即便毫無技術背景的人
也可以通過海量高質量AI應用模板
一鍵復制,開箱即用
另外,扣子還增強了多模態能力
用戶基于扣子創建的智能體
具備強大的語音交互能力
實時語音,超低延遲
可以一鍵發布為小程序、H5、API等多種形態
3、更懂AI轉型、更強安全保障
更靈活適配企業業務
構建企業級AI原生應用
這就是HiAgent
本次發布 HiAgent 1.5 版本
支持平臺和知識庫的本地化部署
最大限度保證企業數據安全和合規
100+個行業模板直接送到用戶手里
瞬間搭建起企業級智能體
同時發布GraphRAG
打造的企業AI知識助手
這個助手能把信息從【能找到】
變成了【能找到+能理解+能整理】
HiAgent還有一項法寶
那就是「HiAgent生成式畫布」
這是一個高智能可定制的工作界面
可自由拖拽各種素材文件進入畫布
不需跳轉,一站式完成全部編輯流程
并能完美實現多人協同
這么說吧
模型選豆包,訓調推選火山方舟
Bot、Agent應用開發選扣子、HiAgent
駛向大模型行業深水區的小船
可以開足馬力啦
不得不說,這屆火山引擎FORCE大會
讓我們看到了豆包的誠意和實力
效果不好?成本太貴?落地太難?
統統沒關系
豆包大模型全家桶
更強模型、更低價格、更易落地
全方位保障企業級AI應用落地
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.