главная новое лучшее написать

tools


4

Проблема: локальные virtualenv'ы для ML-проектов жрут до хрена места, но при этом часто имеют очень много дублирующегося контента.
В моём случае 4 простеньких проекта сходу съедают 21 GB.

$ du -hs ~/.pyenv/versions/*/envs/*
7.6G    /home/rutsh/.pyenv/versions/3.11.11/envs/ASpanFormer
6.0G    /home/rutsh/.pyenv/versions/3.11.11/envs/LightGlue
502M    /home/rutsh/.pyenv/versions/3.11.11/envs/Navigation
5.8G    /home/rutsh/.pyenv/versions/3.11.11/envs/yolo

Хочется как-то более-менее просто дубликаты найти и хардлинками связать друг с другом.

Решение: утилита rdfind уже умеет всё автоматически разрешать - https://github.com/pauldreik/rdfind
В моём случае запуск "rdfind -makehardlinks true /data/pyenv_versions/" превратил 21 GB в 8.7 GB!

Пользуйтесь!!!

Tags: #tools

ответить