99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Valley2,基于電商場景的多模態大模型

0
分享至

來源:魔搭社區

Valley2是一種新穎的多模態大型語言模型,旨在通過可擴展的視覺-語言設計增強各個領域的性能,并拓展電子商務和短視頻場景的實際應用邊界。Valley2在電子商務和短視頻領域中實現了最先進的性能。它引入了如大視覺詞匯、卷積適配器(ConvAdapter)和Eagle模塊等創新,提高了處理多樣化真實世界輸入的靈活性,同時增強了訓練和推理效率。

模型鏈接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代碼鏈接:

https://github.com/bytedance/Valley

論文鏈接:

https://arxiv.org/abs/2501.05901

01

模型架構

采用了Qwen2.5作為其LLM主干,SigLIP-384作為視覺編碼器,并結合MLP層和卷積進行高效的特征轉換。

projector:采用了一個帶有大型隱藏層MLP的projector,用輕量級的ConvAdapter替換了之前的PixelShuffle方法。

Eagle模塊 :通過添加額外的視覺編碼器以減少失真并確保兼容極端輸入,從而擴展令牌表示。

數據


02

數據和訓練方式

數據

Valley2的數據由三個部分組成:

  • OneVision風格的數據用于每個階段的多模態大型模型訓練。

  • 針對電子商務和短視頻領域的數據和評估。

  • 構建用于復雜問題解決的鏈式思維(CoT)數據。


訓練

訓練過程包括四個階段:文本-視覺對齊、高質量知識學習、指令微調以及鏈式思維后訓練。


03

實驗結果

Valley2在多個公開基準測試中表現優異,特別是在MMBench、MMStar、MathVista等多個基準上得分較高。此外,在Ecom-VQA基準測試中,Valley2也超越了其他相同規模的模型。

cot-post train 前后對比:


04

模型效果


05

模型推理

下載模型代碼

!git clone https://github.com/bytedance/Valley.git
%cd Valley

模型推理

from valley_eagle_chat import ValleyEagleChat
from modelscope import snapshot_download
import urllib.request

# 需要把模型文件中的config.json的eagle_vision_tower和mm_vision_tower改為本地路徑

model_dir = snapshot_download("bytedance-research/Valley-Eagle-7B")
!modelscope download --model=Qwen/Qwen2-VL-7B-Instruct --local_dir=./Qwen2-VL-7B-Instruct
!modelscope download --model=AI-ModelScope/siglip-so400m-patch14-384 --local_dir=./siglip-so400m-patch14-384
model = ValleyEagleChat(
model_path=model_dir,
padding_side = 'left',
)

url = 'http://p16-goveng-va.ibyteimg.com/tos-maliva-i-wtmo38ne4c-us/4870400481414052507~tplv-wtmo38ne4c-jpeg.jpeg'

img = urllib.request.urlopen(url=url, timeout=5).read()

request = {
"chat_history": [
{'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
{'role': 'user', 'content': 'Describe the given image.'},
],
"images": [img],
}

result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

from valley_eagle_chat import ValleyEagleChat
import decord
import requests
import numpy as np
from torchvision import transforms

model = ValleyEagleChat(
model_path=model_dir,
padding_side = 'left',
)

url = 'https://videos.pexels.com/video-files/29641276/12753127_1920_1080_25fps.mp4'
video_file = './video.mp4'
response = requests.get(url)
if response.status_code == 200:
with open("video.mp4", "wb") as f:
f.write(response.content)
else:
print("download error!")
exit(1)

video_reader = decord.VideoReader(video_file)
decord.bridge.set_bridge("torch")
video = video_reader.get_batch(
np.linspace(0, len(video_reader) - 1, 8).astype(np.int_)
).byte()
print([transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video])

request = {
"chat_history": [
{'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
{'role': 'user', 'content': 'Describe the given video.'},
],
"images": [transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video],
}
result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

顯存占用:


06

未來工作

計劃發布包含文本、圖像、視頻和音頻模態的全能模型,并引入基于Valley的多模態嵌入訓練方法,以支持下游檢索和探測應用。

總之,Valley2代表了多模態大型語言模型的一個重要進展,展示了如何通過改進結構、數據集構建及訓練策略來提升模型性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
幼兒園鉛中毒后續:其他園區出現癥狀,孩子流鼻血,監控疑似被刪

幼兒園鉛中毒后續:其他園區出現癥狀,孩子流鼻血,監控疑似被刪

探源歷史
2025-07-11 18:06:54
4斷3帽!隊記:謝潑德新賽季角色提升的重要因素就是防守

4斷3帽!隊記:謝潑德新賽季角色提升的重要因素就是防守

直播吧
2025-07-12 12:06:16
嚴永勝,被查

嚴永勝,被查

新京報政事兒
2025-07-11 17:32:16
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
杜蘭特屈居第3!美媒曬NBA歷史得分手TOP20:麥迪12歐文6科比第二

杜蘭特屈居第3!美媒曬NBA歷史得分手TOP20:麥迪12歐文6科比第二

鍋子籃球
2025-07-11 16:42:46
李連杰自稱進入倒計時,重提當年港娛黑幕,要求利智日后低調行事

李連杰自稱進入倒計時,重提當年港娛黑幕,要求利智日后低調行事

任紀煙
2025-05-27 07:07:14
你敢打烏克蘭,我就炸莫斯科,特朗普公開攤牌,普京表示不吃這套

你敢打烏克蘭,我就炸莫斯科,特朗普公開攤牌,普京表示不吃這套

知鑒明史
2025-07-11 11:27:02
他信出山,痛批洪森,轉頭泰國外長就找到王毅,正式說了句:感謝

他信出山,痛批洪森,轉頭泰國外長就找到王毅,正式說了句:感謝

回京歷史夢
2025-07-12 06:55:03
我國為何要放任兩山輪戰打10年之久?“拖垮”越南,“熬干”蘇聯

我國為何要放任兩山輪戰打10年之久?“拖垮”越南,“熬干”蘇聯

智慧天氣通
2025-07-11 15:18:38
貴出天際的“雪糕刺客”,都倒在了2025年的夏天

貴出天際的“雪糕刺客”,都倒在了2025年的夏天

紅網論壇
2025-07-09 18:44:14
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
12號秀7中2+7失誤演砸!美記稱比帕威還差 河村勇輝6中1同拉胯

12號秀7中2+7失誤演砸!美記稱比帕威還差 河村勇輝6中1同拉胯

顏小白的籃球夢
2025-07-12 10:41:16
無解!交易正式達成,NBA最強五巨頭豪陣誕生,西部大結局了

無解!交易正式達成,NBA最強五巨頭豪陣誕生,西部大結局了

安徽紅蜻蜓雜志社
2025-07-11 22:29:04
郭正亮給了臺灣“最好”出路?一國兩制改1個字,或可統后不駐軍

郭正亮給了臺灣“最好”出路?一國兩制改1個字,或可統后不駐軍

顧史
2025-07-08 21:02:11
按世界衛生組織標準,我國有的城市80%以上孩子要調查鉛暴露源

按世界衛生組織標準,我國有的城市80%以上孩子要調查鉛暴露源

深度報
2025-07-11 21:11:53
2025年養老金調整通知正式出爐!工齡30年養老金3000元,漲多少?

2025年養老金調整通知正式出爐!工齡30年養老金3000元,漲多少?

博覽歷史
2025-07-11 11:21:48
山東臨沂一小飯店老板隨手拍視頻竟成“違法廣告”,45萬元“天價處罰”引爭議

山東臨沂一小飯店老板隨手拍視頻竟成“違法廣告”,45萬元“天價處罰”引爭議

大風新聞
2025-07-11 13:24:27
周扣就能拯救付費短劇嗎?投訴倒是起飛了

周扣就能拯救付費短劇嗎?投訴倒是起飛了

新腕兒
2025-07-11 09:55:15
被隱藏的中國紅十字會內幕:為什么國際紅會組織不認可?

被隱藏的中國紅十字會內幕:為什么國際紅會組織不認可?

詩意世界
2025-07-10 16:23:20
爭議,陳熠3-1淘汰孫穎莎,郭焱直播間吐槽:懂點事,差不多得了

爭議,陳熠3-1淘汰孫穎莎,郭焱直播間吐槽:懂點事,差不多得了

二哥聊球
2025-07-11 19:59:56
2025-07-12 13:03:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
277文章數 130關注度
往期回顧 全部

科技要聞

黃仁勛警示AI風險:沒新想法,就集體失業

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

時尚
教育
數碼
本地
游戲

盛夏最清爽的三組配色,很好看!

教育要聞

晨鐘暮鼓379:活色生香,為所欲為!

數碼要聞

LG 推出“32UN880K”31.5 英寸顯示器:4K 60Hz + 雙揚,3399 元

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

LOL-MSI:Oner蝎子節奏完美主導決勝局,T1 3-2擊敗AL挺進決賽

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 聂拉木县| 新疆| 富顺县| 甘泉县| 定边县| 英吉沙县| 闽侯县| 广南县| 黔西县| 临泉县| 神池县| 常熟市| 黎川县| 南城县| 察雅县| 芮城县| 井冈山市| 临高县| 进贤县| 攀枝花市| 吉安县| 曲周县| 青阳县| 钟祥市| 冷水江市| 固阳县| 肇东市| 文登市| 平和县| 林周县| 张家口市| 黑水县| 阜平县| 漳州市| 博客| 鲁甸县| 镇巴县| 娱乐| 泽库县| 图片| 平昌县|