谷歌近日正式推出Magika 1.0稳定版本,标志着其AI驱动的文件类型识别系统迈入新阶段。该版本核心引擎已完全用Rust重构,在提升运行速度的同时增强了内存安全性。新架构支持每秒处理上千文件,性能显著优化。系统依托ONNX Runtime进行模型推理,结合Tokio实现异步并行处理。目前可识别200多种文件格式,涵盖数据科学、现代编程、DevOps及图形数据库等多个领域。为应对训练数据挑战,团队采用SedPack高效加载3TB以上数据,并利用Gemini生成合成样本弥补稀有格式缺失。开发者可通过原生客户端或Python、TypeScript模块便捷集成。