Hugging Face收購Xethub,建置內部資料版本控制系統。 XetHub 是前蘋果研究人員於 2021 年創建的協作開發平台,旨在提高處理大量資料集和模型的機器學習團隊的效率。
該解決方案為高達 TB 大小的儲存庫提供類似 Git 的版本管理,促進團隊協作、變更追蹤和機器學習流程的可重複性。由於能夠管理因不斷擴展的工具、文件和工件而產生的複雜擴展要求,XetHub 在這三年中吸引了相當大的用戶群,其中包括 Tableau 和 Gather AI 等知名品牌。
從各種來源編譯了大量資料集
包括學術研究、流行的基準專案和現實世界的應用程式。這些資料集已經徹底驗證、處理和標準化,以確保一致性和使用。該軟體包還提供了用於資料準備、拆分、洗牌和存取其他資源(例如預訓練模型)的實用程式。
該庫旨在讓團隊更輕鬆地獲
取和編輯資料集,使研究人員和開發人員能夠測試不同的模型並評估其性能。它提供了一個統一的介面來存取各種信息,例如文字分類、機器翻譯、問答、摘要等。
此外,XetHub 提供的額外儲存和
傳輸功能將提高該軟體包的獲利能力。例如,由於平台的內容定義分塊和重複資料刪除功能,客戶將能夠在資料集更新時上傳特定的新行區塊,而不是重新上傳整個檔案集(這需要花費大量時間)特徵。這也適用於模型儲存庫。
如果您的資料操作夠大,您的用例可能會類似
以下是資料版本控制對於處理大量資料集的團隊的好處:
再現性頻繁的資料變更使得修復
資料問題、評估機器學習訓練準確性(當模型在變更的資料上重新運行時,輸出會有所不同)或遵守資料稽核變得困難。
資料湖最佳實踐提 瑞典 WhatsApp 號碼數據 倡可重複性,這使我們能夠在不同版本的資料之間進行時間旅行。這使我們能夠捕獲整個時間和不同設定下的資料快照。
向資料公開類似 Git 的介面不僅可
以追蹤資料的當前狀態。它使得跨大型資料集的分支和提交變得更加容易。最終結果是可重複、原子和版本化的資料湖操作,從而實現更好的資料管理。
平行實驗
機器學習從業者在處理機器學習模型日益複雜和資料量不斷增加時遇到了挑戰。有效的資料管理和版本控制對於有效的機器學習操作變得越來越重要。
對於平行機器學習來說尤其如此
它涉及同時使用各種參數執行測試。版本控制工具可以改善您的機器學習實驗並簡化開發流程。
合作
與一大群人一起完成專案的最困 社群媒體如何塑造房地產產業 難的部分之一是版本控制,這涉及管理您的團隊對共享工作文件所做的大量修改。
您的貢獻者可能位於全球任何地方或在同一個房間,同時或非同步工作。無論您的公司如何組織,眾多貢獻者的貢獻都必須合併到一個專案中。
版本控制透過追蹤變更以及更改者來管
理此流程。它允許您恢復到文件的早期版本,並探索不同貢獻者的貢獻如何隨著時間的推移改變專案。這就是為什麼數據版本控 日本數據 制對於建立有效的團隊溝通至關重要。
任何大規模資料湖都需要資料版本控制
對於處理 Hugging Face 資料集或任何其他類型的大量資料的團隊來說,資料版本控制是一項基本功能。
開源資料版本控制解決方案 LakeFS 可讓
您以零拷貝讀取且無記憶體限制的方式處理大資料集,從而實現最大速度和效率。它還與 Hugging Face 具有強大的集成,可讓您快速匯入資料集並與更大的機器學習社群交換資料集。
LakeFS與 Hugging Face 的整合可為資料集和模型訓練管道提供更強大的版本控制,使團隊能夠自信地重現結果、驗證實驗並保持不同環境或迭代的一致性。此外,整合增強了團隊協作;透過共享、版本化的資料集和模型歷史記錄,團隊可以在具有完全可追溯性的情況下處理相同的資料和模型版本,從而確保結果的一致性和可重複性。