可以确定的是,AI确实让某些东西变得不一样了。
用户只需在通义千问APP内输入“通义舞王”或“全民舞王”等口令,然后按照提示要求上传自己的照片。系统会在十几分钟内生成一个神形兼备的舞蹈视频,保留原形象的面部表情、身材比例、服装以及背景等特征。
这一功能的背后是阿里通义实验室自研的视频生成模型Animate Anyone。在Github上,该项目的Star数短短数日就超过1万,被认为是近期大模型领域最受欢迎的大模型算法之一。
4️⃣ React Agent 🕵️♂️
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。