XetHub
XetHub
📄 Summarized by Claude Sonnet 4
XetHub: Large Scale Data Collaboration Platform
2024年8月8日(Hugging Face買収発表日)
どんなもの?
XetHubは、機械学習チームが大規模データセットとモデルで効率的にコラボレーションできるプラットフォームです。Gitのようなバージョン管理機能をTBスケールのデータに提供し、元Apple研究者によって2021年に設立されました。2024年8月にHugging Faceに買収され、同社のストレージバックエンドとして統合される予定です。
先行研究と比べてどこがすごい?
既存のGit LFS、DVC、DoltHubなどと異なり、XetHubはポインターファイルではなく実際のデータを直接バージョン管理します。重複排除技術により、複数バージョンのデータを追加ストレージコストなしで保存でき、ペタバイトスケールのリポジトリでタイムトラベルが可能です。また、高性能分散キャッシュにより、ワイヤスピードレベルのスループットを実現します。
技術や手法のキモはどこ?
主要技術はcontent-defined chunkingとブロックレベル重複排除です。データセット更新時に変更された部分のみをアップロードし、全ファイルの再アップロードを不要にします。インスタントリポジトリマウントとファイルストリーミングにより、大容量リポジトリの高速アクセスを実現。CSVファイルの列単位統計表示やカスタム可視化機能も提供します。
どうやって有効だと検証した?
TableauやGather AIなどの大手企業での実導入実績があります。Appleの内部MLストレージプラットフォームで100PB超の規模で実証済みの技術を基盤としており、数千ユーザーによる利用実績があります。2024年のベンチマーク記事ではS3、DVC、Git LFSとの比較で優位性を示しています。
議論はある?
企業買収により独立プラットフォームとしてのXetHubは終了し、Hugging Face Hubへの統合が進められています。この統合により、現在12PBのLFSを持つHugging Faceのストレージ容量とパフォーマンスが大幅に向上する見込みですが、統合タイムラインや既存ユーザーへの影響については詳細が不明確です。また、トリリオンパラメータモデル時代における新たな技術的挑戦に対応できるかが注目されています。
#機械学習基盤
#データ管理
#バージョン管理
#大規模ストレージ
#MLOps