作者:小森(南京大學 CS碩士在讀)
部門與崗位:Flow - 豆包團隊 - 大模型
一面
自我介紹,問實習和論文
看你實習微調過 Qwen2 ,說說 Qwen2 的模型結構吧,Qwen2 相比 Qwen1 做了哪些改進
為什么現在 Decoder-only 成為大模型的主流架構,相比于 Encoder-Decoder 的架構好在哪里
講一下 RoPE 吧,目前常用的位置編碼還有哪些,RoPE 有什么優點(相對位置、外推性……),如何進一步外推
為什么有了 SFT 之后還需要 RLHF
PPO 和 DPO 的主要思想是什么,DPO 相比 PPO 的 RLHF 做了哪些改進,除此之外還知道哪些 RL 算法,知道 DeepSeek 的 GRPO 嗎
代碼: 23. 合并 K 個升序鏈表
一面整體來說還是比較基礎的,都是一些八股的知識,沒有考什么自由發揮的題。不過力扣還是難的,出了一道 hard
二面
自我介紹,選一個做的好的實習或者論文講一下,這里問的比較細,動機是什么,為什么用當前的方案
了解 KV cache 嗎, GQA 的思想是什么
講一下 FlashAttention 的思想和做法
除了剛剛說到的這些,還了解過哪些模型訓練推理優化的方法( DeepSpeed ,數據并行,張量并行,流水線并行……
開放題:如果要提升大模型的多輪對話能力,你有哪些可以改進的點
代碼:剛剛提到了 GQA,寫一下 GQA 吧
二面更偏底層優化,沒有過多的問一些大模型結構方面的東西,應該是考慮到一面都問過了。整體的考察比較靈活一些
三面
自我介紹,過實習和論文,這里面試官會穿插問一些八股的知識,比如了解 Qwen 的結構嗎,微調的數據配比是怎樣的
大模型的災難性遺忘問題怎么解決
了解 RAG 嗎,GraphRAG 的做法
場景題:目前有一些專業領域知識,比如醫療知識或者法律條文,準備做一個智能助手,要讓你搭建一個 RAG 鏈路,會怎么做
開放題:用過豆包嗎,覺得目前豆包還存在什么問題
代碼: 416. 分割等和子集
三面一些八股還是問的比較常規的,但是自由發揮的題目有點多,感覺有點難答,不過好在面試官會進行啟發,拋出一些小問題來引導回答
總結
整體來說面試還是有一些難度的,還是要好好準備
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.