@multimodal-llm
集成来自领先多模态模型的视觉、音频和视频生成功能。涵盖图像分析、文档理解、实时语音代理、语音转文本、文本转语音和 AI 视频生成(Kling 3.0、Sora 2、Veo 3.1、Runway Gen-4.5)。