99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Valley2,基于電商場景的多模態大模型

0
分享至

來源:魔搭社區

Valley2是一種新穎的多模態大型語言模型,旨在通過可擴展的視覺-語言設計增強各個領域的性能,并拓展電子商務和短視頻場景的實際應用邊界。Valley2在電子商務和短視頻領域中實現了最先進的性能。它引入了如大視覺詞匯、卷積適配器(ConvAdapter)和Eagle模塊等創新,提高了處理多樣化真實世界輸入的靈活性,同時增強了訓練和推理效率。

模型鏈接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代碼鏈接:

https://github.com/bytedance/Valley

論文鏈接:

https://arxiv.org/abs/2501.05901

01

模型架構

采用了Qwen2.5作為其LLM主干,SigLIP-384作為視覺編碼器,并結合MLP層和卷積進行高效的特征轉換。

projector:采用了一個帶有大型隱藏層MLP的projector,用輕量級的ConvAdapter替換了之前的PixelShuffle方法。

Eagle模塊 :通過添加額外的視覺編碼器以減少失真并確保兼容極端輸入,從而擴展令牌表示。

數據


02

數據和訓練方式

數據

Valley2的數據由三個部分組成:

  • OneVision風格的數據用于每個階段的多模態大型模型訓練。

  • 針對電子商務和短視頻領域的數據和評估。

  • 構建用于復雜問題解決的鏈式思維(CoT)數據。


訓練

訓練過程包括四個階段:文本-視覺對齊、高質量知識學習、指令微調以及鏈式思維后訓練。


03

實驗結果

Valley2在多個公開基準測試中表現優異,特別是在MMBench、MMStar、MathVista等多個基準上得分較高。此外,在Ecom-VQA基準測試中,Valley2也超越了其他相同規模的模型。

cot-post train 前后對比:


04

模型效果


05

模型推理

下載模型代碼

!git clone https://github.com/bytedance/Valley.git
%cd Valley

模型推理

from valley_eagle_chat import ValleyEagleChat
from modelscope import snapshot_download
import urllib.request

# 需要把模型文件中的config.json的eagle_vision_tower和mm_vision_tower改為本地路徑

model_dir = snapshot_download("bytedance-research/Valley-Eagle-7B")
!modelscope download --model=Qwen/Qwen2-VL-7B-Instruct --local_dir=./Qwen2-VL-7B-Instruct
!modelscope download --model=AI-ModelScope/siglip-so400m-patch14-384 --local_dir=./siglip-so400m-patch14-384
model = ValleyEagleChat(
model_path=model_dir,
padding_side = 'left',
)

url = 'http://p16-goveng-va.ibyteimg.com/tos-maliva-i-wtmo38ne4c-us/4870400481414052507~tplv-wtmo38ne4c-jpeg.jpeg'

img = urllib.request.urlopen(url=url, timeout=5).read()

request = {
"chat_history": [
{'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
{'role': 'user', 'content': 'Describe the given image.'},
],
"images": [img],
}

result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

from valley_eagle_chat import ValleyEagleChat
import decord
import requests
import numpy as np
from torchvision import transforms

model = ValleyEagleChat(
model_path=model_dir,
padding_side = 'left',
)

url = 'https://videos.pexels.com/video-files/29641276/12753127_1920_1080_25fps.mp4'
video_file = './video.mp4'
response = requests.get(url)
if response.status_code == 200:
with open("video.mp4", "wb") as f:
f.write(response.content)
else:
print("download error!")
exit(1)

video_reader = decord.VideoReader(video_file)
decord.bridge.set_bridge("torch")
video = video_reader.get_batch(
np.linspace(0, len(video_reader) - 1, 8).astype(np.int_)
).byte()
print([transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video])

request = {
"chat_history": [
{'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
{'role': 'user', 'content': 'Describe the given video.'},
],
"images": [transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video],
}
result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

顯存占用:


06

未來工作

計劃發布包含文本、圖像、視頻和音頻模態的全能模型,并引入基于Valley的多模態嵌入訓練方法,以支持下游檢索和探測應用。

總之,Valley2代表了多模態大型語言模型的一個重要進展,展示了如何通過改進結構、數據集構建及訓練策略來提升模型性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
庫明加怒懟庫里,勇士內訌來的正是時候,火箭笑了

庫明加怒懟庫里,勇士內訌來的正是時候,火箭笑了

姜大叔侃球
2025-04-26 13:50:44
巴基斯坦防長:“我們曾給西方‘干臟活’,付出了代價”

巴基斯坦防長:“我們曾給西方‘干臟活’,付出了代價”

環球網資訊
2025-04-26 14:19:58
魔怔了!特朗普仍堅稱"剛和中國開過會",中國網友:被詐騙了?

魔怔了!特朗普仍堅稱"剛和中國開過會",中國網友:被詐騙了?

二向箔
2025-04-25 18:08:37
太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

上游新聞
2025-04-26 12:45:11
日本74歲大爺墜入道路塌陷深坑,至今89天未獲救,民眾已懷疑大爺是否真實存在

日本74歲大爺墜入道路塌陷深坑,至今89天未獲救,民眾已懷疑大爺是否真實存在

西游日記
2025-04-26 12:56:07
“兒子,你妻子怎么不來伺候我?”施工員丈夫:你說的各管各媽

“兒子,你妻子怎么不來伺候我?”施工員丈夫:你說的各管各媽

施工員小天哥
2025-04-25 13:25:10
名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

雷速體育
2025-04-26 12:53:55
泰國大量水果腐爛,因為攤上的一句中文,中國游客:自己留著吧

泰國大量水果腐爛,因為攤上的一句中文,中國游客:自己留著吧

阿纂看事
2025-04-26 08:10:26
新官上任!王勵勤召回多位退役國手,封閉訓練,冠軍老將充當陪練

新官上任!王勵勤召回多位退役國手,封閉訓練,冠軍老將充當陪練

鋭娛之樂
2025-04-26 11:36:51
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
難以置信!珠海的“高潮針”火得離譜,好些寶媽都在排隊等候注射

難以置信!珠海的“高潮針”火得離譜,好些寶媽都在排隊等候注射

火山詩話
2025-04-25 20:07:26
山東一服務區現“沉睡5年”外地車,因故障滯留車主表示棄車

山東一服務區現“沉睡5年”外地車,因故障滯留車主表示棄車

大象新聞
2025-04-26 14:03:02
男子被打身亡后續!市長院長去年辭職,姐姐舉報,保護傘浮出水面

男子被打身亡后續!市長院長去年辭職,姐姐舉報,保護傘浮出水面

吭哧有力
2025-04-26 10:21:40
預告:中國氣象局將于4月28日15:00召開2025年5月新聞發布會

預告:中國氣象局將于4月28日15:00召開2025年5月新聞發布會

財聯社
2025-04-25 10:03:09
痛心!廣東玩具廠老板娘去世,長相漂亮與丈夫打拼18年,育有2娃

痛心!廣東玩具廠老板娘去世,長相漂亮與丈夫打拼18年,育有2娃

明月聊史
2025-04-26 09:08:09
美國上演罕見一幕:FBI沖進法庭逮捕法官 涉特朗普移民執法沖突

美國上演罕見一幕:FBI沖進法庭逮捕法官 涉特朗普移民執法沖突

財聯社
2025-04-26 04:14:10
北京上海大跌,千萬要警惕了!

北京上海大跌,千萬要警惕了!

七叔東山再起
2025-04-25 20:49:46
心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

觀威海
2025-04-25 15:19:29
日本網上瘋傳“4·26東京8.3級大地震”

日本網上瘋傳“4·26東京8.3級大地震”

揚子晚報
2025-04-25 20:14:21
女人不怕你占她便宜,而是怕…

女人不怕你占她便宜,而是怕…

青蘋果sht
2025-04-18 05:59:47
2025-04-26 15:44:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
258文章數 125關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

游戲
家居
教育
數碼
軍事航空

看著直流口水!小島秀夫曬《死亡擱淺2》精致主題蛋糕

家居要聞

清徐現代 有溫度有態度

教育要聞

“紅領巾”探秘“航空藍”

數碼要聞

NVIDIA 將于5月19日發布 RTX 5060

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 孝感市| 沂源县| 漳浦县| 长子县| 宁河县| 平原县| 德江县| 巴林右旗| 财经| 且末县| 淮滨县| 安西县| 屯门区| 宁海县| 辉南县| 元谋县| 舒城县| 夏河县| 阿拉尔市| 东乌珠穆沁旗| 宁安市| 平果县| 清原| 广南县| 合川市| 四会市| 丰宁| 枝江市| 福州市| 广州市| 印江| 乡城县| 全州县| 遂川县| 四子王旗| 福泉市| 即墨市| 牙克石市| 徐闻县| 灌云县| 视频|