作者:小森(阿里巴巴 大模型算法工程師)
部門與崗位:阿里集團 - 國際數(shù)字商業(yè)集團 - AI Business - 視覺與多模態(tài)
一面
自我介紹和過項目,和以往面試一樣,項目和論文都問的非常細節(jié),每一步的做法是什么,為什么要這樣做
有了解過 Ovis 模型嗎
目前的多模態(tài)大模型的視覺特征傳遞給 LLM 都有哪些方法
講一下 BLIP 系列的三篇工作,連接視覺編碼器和 LLM 的 Adapter 經(jīng)歷了怎樣的變化
ViT 的結構是怎么樣的,目前 ViT 一般怎么預訓練
對于不同形狀的圖片或視頻,位置編碼怎么設計
在 ResNet 或者 Transformer 中,殘差連接的作用是什么,展開講講
代碼:Focal Loss
代碼:215. 數(shù)組中的第K個最大元素
一面整體來說考察的都是一些八股知識,感覺面試官之前是做視覺的,問的問題都比較偏視覺一些,對于 LLM 的考察并不是很多
二面
自我介紹和過項目,也是問的比較細,花了挺長時間的
目前多模態(tài)大模型的整體結構是什么樣的,都了解哪些多模態(tài)大模型
剛剛提到了 BLIP2 和 Qwen-VL,這些模型里的 Learned Queries 有什么用
Qwen-VL 的訓練流程是怎樣的
講一下大模型的訓練流程,PPO 和 DPO 的主要思想是什么,有什么優(yōu)缺點
在多模態(tài)這邊,一般對齊是怎么做的
多模態(tài) RAG 有了解嗎
代碼:208. 實現(xiàn) Trie (前綴樹)
二面問的比較常規(guī),但是某些點問的比較細,包括項目中的一些點,應該是在考察對于模型的理解。面試官人也挺好的,會做一些提示和補充
三面
自我介紹,挑一個你覺得做的好的工作講一下,動機、做法、效果
看你用到了 Qwen,說一下 Qwen 的結構是怎么樣的
怎么計算模型的參數(shù)量和計算量,大致估算一下,比如 Qwen 的 7B 模型,這個 7B 是怎么計算出來的,推理的時候需要多少計算量
為什么大模型設計的參數(shù)量都是 7B,13B,72B 這種規(guī)格的
開放題:大模型在訓練和推理的時候顯存不夠,有哪些優(yōu)化方法
三面更加注重大模型的訓練和推理這些內(nèi)容,對于動手能力的考察比較多,沒有寫代碼,整體面試時間也比較短,不到一個小時
總結
總的來說考察還是挺全面的,包括三面也問了很多知識點,感覺應該 hc 比較少,所以大老板也問的比較多,想再篩一些人
@AI行業(yè)洞察
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.