在進行數據科學時,可能會浪費大量時間編碼并等待計算機運行某些東西,而一些 Python 庫,可以幫助你節省寶貴的時間。
1、Optuna
Optuna 是一個開源的超參數優化框架,它可以自動為機器學習模型找到最佳超參數。最基本的(也可能是眾所周知的)替代方案是 sklearn 的 GridSearchCV,它將嘗試多種超參數組合并根據交叉驗證選擇最佳組合。GridSearchCV 將在先前定義的空間內嘗試組合。例如,對于隨機森林分類器,可能想要測試幾個不同的樹的最大深度。GridSearchCV 會提供每個超參數的所有可能值,并查看所有組合。Optuna會在定義的搜索空間中使用自己嘗試的歷史來確定接下來要嘗試的值。這種不同的方法意味著它不是無意義的地嘗試每一個值,而是在嘗試之前尋找最佳候選者,這樣可以節省時間,否則這些時間會花在嘗試沒有希望的替代品上(并且可能也會產生更好的結果)。最后,它與框架無關,這意味著您可以將它與 TensorFlow、Keras、PyTorch 或任何其他 ML 框架一起使用。
2、PyCaret
PyCaret 是一個開源、低代碼的機器學習庫,可自動執行機器學習工作流。它涵蓋探索性數據分析、預處理、建模(包括可解釋性)和 MLOps。
3、Gradio
如果你閱讀過敏捷數據科學,就會知道擁有一個讓最終用戶從項目開始就與數據進行交互的前端界面是多么有幫助。一般情況下在Python中最常用是 Flask,但它對初學者不太友好,它需要多個文件和一些 html、css 等知識。Gradio 允許您通過設置輸入類型(文本、復選框等)、功能和輸出來創建簡單的界面。盡管它似乎不如 Flask 可定制,但它更直觀。由于 Gradio 現在已經加入 Huggingface,可以在互聯網上永久托管 Gradio 模型!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.