DeepSeek, китайската компания, специализирана в изкуствения интелект, направи по-нататъшна стъпка в разработването на технологични инструменти за оптимизиране на обработката на данни в големи обеми. Новото му предложение е Файлова система Fire-Flyer (3FS), паралелна файлова система, предназначена да подобри ефективността при обучение на AI модел и задачи за извод.
Съхранението и достъпът до данни са решаващи аспекти в среди с изкуствен интелект, особено когато се работи с големи набори от данни и се изисква бърз трансфер на информация. Традиционните системи не винаги отговарят на текущите изисквания и в този контекст, DeepSeek разработи 3FS като мащабируемо и високопроизводително решение.
Основни характеристики на файловата система Fire-Flyer
3FS е базирана на Linux разпределена файлова система, оптимизирана за използване във високопроизводителни изчисления (HPC) и среди с изкуствен интелект. Дизайнът му позволява ефективно управление на съхранението, минимизиране на забавянето и подобряване на достъпа до данни.
- Оптимизация за модерен хардуер: 3FS се възползва напълно от производителността на SSD и RDMA мрежи, позволявайки скорости на четене до 6.6 TiB/s в клъстерни конфигурации от 180 възела.
- Паралелна архитектура: Неговият разпределен дизайн улеснява разширяването на системата, без да прави компромис със стабилността или скоростта на достъп.
- Базиран на FUSE: Това позволява на системата да работи в потребителско пространство, без да се налага да модифицира ядрото на Linux, което улеснява внедряването и съвместимостта му с различни дистрибуции.
- Съсредоточете се върху скоростта на четене: Даване на приоритет на произволното четене пред кеширането, което е от решаващо значение при моделите на AI, които изискват незабавен достъп до големи обеми данни.
Система, тествана в реални среди
DeepSeek използва 3FS на собствените си сървъри от 2019 г., което му позволява да усъвършенства производителността си в реални ситуации. При последните тестове системата постигна 3.66 TiB/мин при бенчмаркове за сортиране на данни и над 40 GiB/s на възел за задачи за търсене на KVCache.
Освен това тази система е използвана в клъстера Fire-Flyer 2 на компанията, където е постигнала производителност, подобна на тази на сървъри от висок клас като NVIDIA DGX-A100, но на значително по-ниска цена. Според данните, представени от компанията, те са постигнали 80% от производителността на DGX-A100 с 50% от разходите и 60% от консумацията на енергия.
Тласък към екосистемата с отворен код
Един от най-впечатляващите аспекти на тази версия е, че DeepSeek реши да пусне 3FS кода под MIT лиценз, което позволява на общността на разработчиците да има достъп, да променя и адаптира системата към собствените си нужди. Тази стратегия за отвореност е част от инициативата на Open Source Week на компанията, където те пуснаха други проекти, свързани с AI.
Кодът на файловата система Fire-Flyer е на разположение на GitHub, което улеснява изследователите и компаниите да ги възприемат, като се стремят да оптимизират работните си процеси в областта на изкуствения интелект и високопроизводителните изчисления.
Появата на 3FS в пейзажа на разпределената файлова система предоставя алтернатива на съществуващи решения като Ceph, който в сравнителни тестове постигна само 1.1 TiB/s пропускателна способност за четене на по-малки конфигурации.
С това стартиране DeepSeek демонстрира своя ангажимент към технологичните иновации, приложени към изкуствения интелект. Като предлага ефективна и достъпна система за съхранение, компанията укрепва позицията си в сектора и предоставя ключови инструменти за разработването на нови машинни обучения и усъвършенствани изчислителни модели.