作者:小森(阿里巴巴大模型算法工程師)
部門與崗位:阿里集團 - 通義實驗室 - 大語言模型
一面
首先自我介紹和過項目,因為之前在阿里系實習,用過 Qwen 做業務,面試官就很感興趣,問為什么選 Qwen,Qwen 落地的實際效果怎么樣等等
Qwen 的模型結構是怎么樣的,相比于 LLaMA , DeepSeek 有什么區別
對于超長上下文業界一般是怎么做的,你知道 Qwen 是怎么做的嗎
大模型的 MoE 結構 相比于 Dense 結構 訓練的難點在什么地方,DeepSeekMoE 為什么效果好,有什么值得我們借鑒創新點
怎么緩解大模型的幻覺問題
講一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,寫一下 PPO 和 DPO 的 Loss 表達式
代碼:Transformer Encoder
代碼: 152. 乘積最大子數組
一面整體難度我感覺還是比較大的,考察的內容更加注重對大模型整體的理解,面的時間也比較久,通義 bar 還是高呀
二面
自我介紹和過項目,項目這里還是類似的,問 Qwen,為什么用 Qwen,相比于其他開源模型好在哪里
除了 Qwen 還了解哪些模型,LLaMA、DeepSeek、GLM……
你覺得 DeepSeek 做的好的有哪幾個點,講講 DeepSeekMoE 和 MLA
說一下 LoRA 是什么原理
了解 DeepSpeed 嗎, ZeRO-1 , ZeRO-2 和 ZeRO-3 分別做了哪些優化
知道 FP16 和 BF16 有什么區別嗎,包括 FP32 和 INT8 這些,在訓練大模型的時候,應該怎么選擇
除了 DeepSpeed,在訓練和推理的時候,顯存不足還有什么優化方法嗎, FlashAttention 具體是怎么做的
代碼: 200. 島嶼數量
二面問的模型結構方面的內容比較少,更多的是訓練推理優化方面的內容,更偏底層一些。從 DeepSeek 的動向來看,降低大模型的時間復雜度和空間復雜度應該也是接下來一段時間的重點
三面
自我介紹,過項目,還是重點問了 Qwen,在過程中還一起討論了當前做法的優缺點,是否調研過其他方案等
開放題:站在你的視角,Qwen目前還存在哪些問題
開放題:你覺得目前大模型的上限在哪里
假如給你發了 Offer,會來嗎
三面還是常規的大老板面,相對氣氛比較輕松,會更加看重自己對于大模型的思考
總結
整體面下來感覺難度還是蠻大的,幾乎各個方面都被考察到了,通義目前應該算是阿里系 bar 最高的一個部門了吧,之前面達摩院壓力都沒有這么大
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.