一、前言:本地部署大模型 不依靠顯卡其實也可以
Deepseek大模型橫空出世以來,以其高效和開源的特性迅速火爆出圈,是現在當之無愧最為知名的AI大模型。
Deepseek-R1不但直接開源了其671B參數規模的滿血模型,還同步開源了六個不同規模大小的蒸餾模型,分別是DeepSeek-R1-Distill-Qwen-1.5B/7B/8B/14B/32B,以及DeepSeek-R1-Distill-Llama-70B,這就非常方便用戶根據自己設備的配置情況,選擇合適規模的模型進行本地部署。
在各大廠商紛紛上線AI服務的今天,我們為什么還要在本地部署一個AI大模型呢?
其實原因也很簡單,首先是避免云服務不穩定,Deepseek上線初期的網絡故障都已經成一個梗了;其次是一些數據不允許公開或者上云,這就必須要在本地完成處理,確保數據和隱私安全。
最后就是玩家的心態了:"我花了這么多錢,買的新硬件有這么高的算力,不充分利用多浪費?"
再加上新硬件也確實可以支撐AI大模型的本地部署運行,所以也就順理成章的要在本地部署一個AI大模型了。
另一方面,本地部署大模型其實現在也已經沒有什么困難,網上很容易就能找到大量的部署教程和方案,甚至已經有人制作了傻瓜式部署的一鍵包,只需要下載之后解壓運行就可以獲得一個本地運行的AI大模型,真的讓人人都可以輕松上手。
但這些教程方案中,都會提到本地算力的要求,通常都需要一塊比較強的顯卡,才能比較好的在本地運行AI大模型。
選擇模型規模時,往往是要求一定的顯存容量,這就對沒有獨立顯卡的輕薄筆記本不太友好,可能會有使用輕薄本的用戶直接就放棄了本地部署的計劃。
沒有大顯存顯卡真的就不能擁有自己的AI大模型了嗎?當然不是。
我們這次就找來一臺使用Intel酷睿Ultra 9 285H處理器的輕薄筆記本,來嘗試在本地部署大模型并應用,看看不依靠獨立顯卡,充分發揮CPU、iGPU核顯以及NPU的算力資源,能不能真正應用上本地AI大模型。
二、Ollama:高效輕量化 簡潔到硬核的程度
既然是在并不以性能見長的輕薄本上部署大模型,我們自然要盡量節省系統資源,那么輕量化的開源AI模型部署工具Ollama就是我們的首選。
首先我們確認系統已安裝最新版驅動程序,然后從瀏覽器中打開Ollama的主頁(https://ollama.com/),下載Ollama的安裝文件。
作為一個開源免費的部署工具,Ollama的主頁做的非常簡潔,用戶只需要點擊Download按鈕就可以下載到最新的安裝程序。
安裝程序大小約1GB,不需要特別的網絡設置,直接下載速度就相當快。
雖然Ollama的安裝界面沒有中文,但和普通安裝程序并無區別,點擊Install之后選擇安裝目錄位置,即可完成安裝。
這里我們沒有修改安裝位置,直接在默認安裝目錄完成安裝。
安裝完成之后,Ollama運行時會在托盤區顯示一個可愛的小羊駝圖標,同時會自動彈出一個Windows PowerShell窗口。
這就是極度輕量化的Ollama運行的效果,連圖形界面都欠奉,直接在命令行中運行。
按照Ollama給出的提示,我們輸入命令運行Deepseek-R1:1.5B模型進行測試。
可以看到模型下載速度相當快,應該是使用了國內的鏡像站,Deepseek-R1:1.5B模型只有1.1GB的大小,很快就可以完成下載開始運行。
下載完畢之后,我們就可以在命令行中開始和Deepseek進行對話了。
對于最新的Intel酷睿Ultra 9 285H來說,通用的Ollama目前還只能調用CPU資源,更強大的iGPU算力資源被浪費了,這也是開源部署工具的劣勢,軟件跟不上硬件的發展速度。
好在開源工具的分支眾多,針對Intel iGPU特別優化的Ollama版本也可以從網上找到,而且同樣也是免費開源,任何人都可以下載使用。
Intel ipex-llm優化版可以充分利用Intel iGPU的算力,利用iGPU中包含的XMX 矩陣加速單元,可以加速大模型推理速度,提高效率。
Intel官方提供的ipex-llm優化版Ollama的GitHub下載地址:https://github.com/intel/ipex-llm/releases。也可以從https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/summary這里下載。
由于Intel優化版Ollama目前還是測試版,功能將來會整合到正式版的Ollama中,而且目前還是免安裝的綠色版軟件,使用起來比官方版Ollama要稍微麻煩一點。
我們從GitHub或者鏡像站下載Windows版本的壓縮包之后,先將其解壓至本地目錄,我們在C盤建立一個新的文件夾命名為‘AI’作為解壓縮目標目錄使用。
在解壓目錄中找到"start-ollama.bat"批處理文件,雙擊運行,啟動Intel優化版Ollama服務,此時就和官方版Ollama運行效果一致,唯一需要注意的即使Ollama服務啟用時,會有一個命令行窗口,不要意外關閉,關閉這個命令行窗口就會關閉Ollama服務。
此時可以用Win+R輸入"cmd"啟動一個新的命令行窗口,先使用"cd"命令,轉到Intel優化版Ollama的解壓目錄,在我們測試電腦上,就是輸入:
cd C:AIollama-ipex-llm-2.2.0b20250328-win
回車之后就可以和官方版Ollama一樣開始下載模型和對話了。
三、通過瀏覽器插件使用圖形化界面:Page Assist插件簡單方便
雖然命令行中已經可以和Deepseek進行對話,但對于普通用戶來說,每次和Deepseek對話都要啟動命令行還是太硬核了一點,所以我們接下來給Ollama部署的大模型設置一個更符合用戶習慣的圖形界面。
Page Assist(https://github.com/n4ze3m/page-assist)同樣是一個開源免費的瀏覽器插件,可以在谷歌瀏覽器、微軟EDGE瀏覽器和火狐瀏覽器的插件商店中找到。
安裝好Page Assisr插件之后,點擊插件圖標,我們就可以看到插件提示Ollama正在運行,無需額外配置,插件可以自動識別到Ollama。
點擊右上角的齒輪圖標,進入設置頁面,我們可以把插件的語言修改為中文。
左側的管理模型這里可以看到所有已下載的模型。
也可以點擊添加新模型,然后在彈出窗口中輸入模型名稱,點擊拉取模型,就可以開始下載。
Page Assist本身并沒有大模型相關的功能,只是Ollama的一個圖形界面,一切功能其實都還是Ollama提供的。
所有可下載的模型列表,都可以在Ollama網站找到。
在Ollama首頁左上角,點擊Models,就可以查看所有可下載的模型信息。
之后就可以在上方選擇模型,然后輸入文字和大模型對話了。
圖形界面使用起來更加方便易用,而且也增加了不少更直觀的功能。
四、ChatBox AI客戶端:讓AI大模型更聰明
如果需要更多的功能,我們也可以使用ChatBox AI客戶端來運行大模型。
在Chatbox AI客戶端的主頁(https://chatboxai.app/zh),可以看到Chatbox AI官方的提示,官方有提供免費下載,注意不要上當受騙。
Chatbox AI軟件安裝之后,因為我們已經安裝了Ollama,所以就選擇使用本地模型。
Chatbox也支持使用在線AI服務,由云計算服務商提供更強大的算力。
選擇Ollama API之后,Chatbox AI就可以自動接管Ollama已經部署好的大模型。
之前下載完成的模型都可以直接加載調用,無需重新下載。
Chatbox AI軟件中,除了直接和大模型進行對話之外,也提供了一些模版,比如情緒價值拉滿的AI夸夸機,或者小紅書爆款文案生成器,可以發揮出AI大模型更豐富的功能,而且界面也更加美觀易用。
五、LM Studio部署工具:更方便易用的工具 但效率不如Ollama
作為一個部署工具,Ollama最大的優勢是它的輕量化,系統資源負擔小,執行效率更高。
當然缺點也很明顯,就是功能太簡陋,不要說高級AI功能,連圖形界面都沒有,下載模型的時候不但看不見下載速度,萬一輸錯了模型的名稱,開始下載之后連取消下載都不行。
所幸還有功能更強大的AI部署工具:LM Studio。
在LM Studio主頁(https://lmstudio.ai/)上,我們可以直接下載Windows版本的安裝程序。
安裝完成之后,LM Studio就會引導用戶下載第一個本地AI大模型,如果不需要默認推薦的模型,也可以點擊右上角的跳過按鈕來取消下載。
在主界面的右下角,點擊齒輪圖標進入設置界面,就可以調整軟件語言為中文。
點擊左側的放大鏡,進入模型搜索頁面,可以看到LM Studio提供了非常非常多的模型供用戶選擇。
我們直接搜索Deepseek,就有好幾頁不同規模不同版本的Deepseek模型。
在LM Studio中,我們可以直接看到每個模型相關的參數和介紹,更方便選擇合適的模型。
一些沒有經過蒸餾的巨大模型也在其中,比如Deepseek-V3模型,體積高達347GB,LM Studio也會提示對于本機來說可能過大無法順利運行。
在一些LM Studio的教程上會提到無法直接下載的問題,教程中會給出替換國內鏡像源的方法,但我們現在實測下載速度完全沒有問題,應該是新版程序已經設置了國內更快的鏡像源,使用起來更加方便。
模型下載完畢之后,就可以在主頁上方選擇模型,然后等模型加載完畢后,開始對話了。
六、本地AI應用1:配合沉浸式翻譯插件 使用本地AI大模型翻譯網頁
在本地部署AI大模型,當然也不能僅僅滿足于同AI對話,或者讓AI幫忙寫首詩什么的,本地AI還能做很多事情。
我們可以讓本地AI大模型配合瀏覽器的沉浸式翻譯插件,實現翻譯資源本地化,不依賴網絡服務,也可以獲得更好更精準的翻譯服務。
沉浸式翻譯插件同樣是免費的,在谷歌微軟或者火狐瀏覽器的商店中都能直接找到并安裝使用。
沉浸式翻譯插件本身也提供付費的AI大模型翻譯服務,同時它的翻譯服務中也提供了用戶自行購買AI服務后的接入功能。
我們在這里面找到Ollama,激活之后進入設置,就可以配置本地AI大模型的翻譯功能了。
翻譯服務并不需要很大規模的模型,相對而言反應迅速更重要,誰也不想點擊翻譯之后還要等上半天才能看到結果,所以我們先選擇Deepseek-R1:1.5B模型進行測試,看看翻譯效果如何。
在配置頁面只需要選擇模型是我們準備好的模型,然后在APIKEY中輸入之前用命令行啟動Ollama的命令就可以了,保存設置之后可以點擊設置頁面右上角的測試服務按鈕,看看是否能正常啟動翻譯服務。
顯示綠色的驗證成功,就代表我們配置的本地AI大模型翻譯服務已經上線可以工作了。
我們打開一個英文網頁(尼康英文官網的一千零一夜,中文官網的這個專題消失了,非常遺憾),測試Deepseek-R1:1.5B大模型的翻譯效果,可以看到Deepseek-R1作為一個推理模型,在語言翻譯這一方面并不擅長,翻譯速度很快但效果非常不理想,這時候我們就需要換一個大模型來提高翻譯效果。
我們這次選擇阿里的通義千問Qwen2.5模型,它不但更加善于理解語言,并且支持29種不同的語言,還提供了0.5B、1.5B和3B這樣小規模的版本。
我們重復之前的步驟,將Qwen2.5:1.5B模型部署在Ollama上,然后配置給沉浸式翻譯調用,就可以順利體驗到更強的AI大模型翻譯服務了。
從資源管理器中可以看到,在翻譯頁面的時候CPU占用率會快速上升到60%左右,但翻譯速度很快,大約不到半分鐘就可以完成整個頁面的翻譯,翻譯的質量也很不錯。
如果不是輕薄本的硬件條件限制太嚴,部署3B規模的模型翻譯效果還能更好。
七、本地AI應用2:建立本地知識庫 通過AI大模型快速處理海量數據
對于最需要本地部署AI大模型的用戶來說,最大的理由肯定是為了數據安全,即便是普通公司甚至個人,肯定都會有一些不方便上云的數據資料,這時候使用本地知識庫來管理海量數據就是一個非常好的選擇。
我們利用Ollama搭建的本地Deepseek-R1:14B大模型,就可以很方便的建立并使用本地知識庫,輕松在本地管理數據,確保數據安全。
首先我們在Ollama中拉取文本嵌入模型, Deepseek等大模型是無法直接讀取本地文件的,必須先使用文本嵌入模型將資料處理成大模型可讀取的固定長度向量,下載文本嵌入模型自需要在Ollama運行窗口中輸入:
ollama pull nomic-embed-text
也可以在圖形UI中的模型管理中下載
文本嵌入模型nomic-embed-text體積只有262MB,卻是建立本地知識庫所必需的。
我們在Page Assist插件中,找到RAG設置,在文本嵌入模型處選擇剛剛下載的nomic-embed-text,就完成了建立本地知識庫的前期準備工作,除了Page Assist插件外,也有其它可以支持建立本地知識庫的AI大模型工具,操作方法也都類似。
RAG(Retrieval-Augmented Generation檢索增強生成)是一種結合了信息檢索和語言模型的技術。它通過從大規模的知識庫中檢索相關信息,并利用這些信息來指導語言模型生成更準確和深入的答案,是建立本地知識庫的必要技術。
下面就可以建立本地知識庫了,我們使用B站UP@行星推進器 制作并分享的鏡頭大全表格,收錄了800余款鏡頭的參數信息,非常適合使用本地知識庫檢索信息。在Page Assist左側找到管理知識,點擊添加知識,簡單命名和上傳文件后,就建立了一個新的知識庫。
Page Assist支持這些格式:pdf、csv、txt、md和docx,所以我們先將xlsx文件轉換為csv文件。
上傳文件之后文本嵌入模型就會自動會文件進行處理,需要一小段時間。
文本嵌入模型處理完畢之后,就可以開始使用知識庫進行信息檢索和查詢了。
點擊輸入框中知識庫的圖標,就可以選擇剛剛建立好的"鏡頭大全"知識庫。
選擇知識庫之后,可以看到輸入框中少了一些功能,上傳圖片和聯網的標志隱藏了起來,在知識庫中,是不能使用聯網和識圖功能的,但不影響知識庫本身的功能使用。
屏幕上方可以看到"鏡頭大全"知識庫已被讀入,這時就可以使用Deepseek-R1:14B模型來檢索知識庫,Deepseek-R1:14B模型對用戶提問和知識庫內的語句理解和推理能力遠超規模較小的模型。
此時向Deepseek-R1:14B模型提問,它就會用上傳的資料內容進行回答,比自己翻找表格更加方便快捷。
八、總結:輕薄本沒有顯卡一樣能部署本地AI大模型 而且還很好用
Intel酷睿Ultra 9 285H處理器基于Arrow Lake架構,擁有6個性能核,8個能效核和2個低功耗能效核,一共16核心,但不支持超線程技術,所以總線程數也是16, 性能核最大睿頻頻率為5.4GHz,擁有24MB高速緩存。
它內建Intel銳炫140T顯卡,包含8個Xe核心,同時還內置NPU,能夠提供高達13 TOPS的算力。CPU+GPU+NPU全平臺總算力達到99 TOPS,為本地運行大模型提供了很好的支撐。
AI PC并不是預裝幾個AI軟件提供云服務就算AI PC了,如果只是購買云端AI算力服務來使用,那幾年前的電腦甚至手機也一樣能做到。
AI PC最強大的地方就在于本地算力,購買了全新的AI PC,就擁有了這些算力,能陪著你走遍天涯海角,能在斷網等環境下使用本地算力持續運行,這也是本地部署AI大模型的意義。
得益于Intel酷睿Ultra 9 285H處理器的強大性能和極高的能效,讓輕薄本也能輕松在本地部署AI大模型,運行14B參數規模的Deepseek-R1大模型也不在話下。
本地部署大模型,也是要根據實際用途來選擇合適的模型來部署,現在開源的模型這么多,我們也不能想著直接部署最強的模型就能包打天下,也要根據實際用途選擇來選擇。
我們為翻譯服務選擇了Qwen2.5:1.5B模型,看起來規模和Deepseek-R1:1.5B模型規模相當,但在翻譯質量上差距十分明顯,但如果是編程或者寫作之類的需求的話,Deepseek-R1:14B模型才是更好的選擇。
Intel現在正在大力推廣AI硬件,酷睿家族處理器的AI性能在一次次AI創新應用大賽中被深度發掘,Intel OpenVINO推理框架也越來越收到重視,輕薄本的AI性能也越來越好,即使沒有顯卡的AI PC,將來也會也會越來越好用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.