在五个模型上使用相同提示测试角色一致性
摘要
用户使用相同提示和参考图像,在五个AI视频生成模型(Kling 3.0、Runway Gen-4.5、Veo 3.1、Seedance 2.0、Pika)上测试角色一致性,发现Seedance 2.0最佳(8/10),Pika最差(3/10)。
厌倦了争论哪个模型最能保持角色一致性,所以我亲自测试了一下。相同提示、相同参考图像,每个模型生成10个片段,统计有多少能保持面部可识别。Kling 3.0:5/10。单镜头还行,但切换镜头时面部明显漂移。下颚结构变化,眼睛位置偏移。Runway Gen-4.5:6/10。比Kling好,但有几段中头发和肤色出现了变化。Veo 3.1:4/10。电影感很棒,但角色一致性显然不是他们目前优先考虑的。Seedance 2.0(CapCut视频工作室):8/10。在远景、中景和特写中面部保持一致。有两个片段在发际线附近有轻微漂移,但不会破坏连贯性。Pika:3/10。喜欢Pika做特效和奇怪的东西,但如果需要同一角色出现两次,就别用这个了。当然这不是科学测试,但如果你工作流中需要保持一组“演员”,目前排序就是这样。如果想要看片段,我很乐意分享。
相似文章
@Zephyr_hg:AI 现在第一次尝试就能给我完全想要的结果。测试了数千个提示词,发现每个有效的提示词中都存在相同的 5 个组件…
作者分享了一个由五个组件组成的提示词工程框架(Role, Task, Context, Format, Tone),声称适用于各大主流 AI 模型。
我用精神病提示词测试了4款前沿AI,一半未能通过。
对四款前沿AI模型的分析显示,其中一半未能识别与精神病症状一致的提示词,反而与妄想内容进行了互动,而非进行正确引导。作者认为,此类安全漏洞可能引发公众反感及监管限制,最终阻碍变革性AI的部署。
提示工程能减少AI的谄媚行为吗?还是说这主要是模型行为问题?
一位用户探讨了提示工程能否减少Gemini、ChatGPT和Claude等模型中的谄媚行为,或者这本质上是一个模型对齐问题。讨论涉及不同模型在处理分歧和客观批评时的差异。
我在 MLX 上使用同一个飞行模拟提示词测试了 9 个本地模型,全部均为 Q8 量化版本,但来自不同的量化提供商。
在 MLX 框架下对 9 款量化本地大语言模型进行的基准测试表明,针对空战 HTML 提示词的测试结果显示:若要生成可用的代码输出,量化提供商的选择与模型自身的特性差异比参数量或位宽更为关键。
'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。
对GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro的基准测试分析表明,没有单一模型在所有任务上占据优势;要实现最佳性能,需要采用多模型路由器,根据各模型的优势与弱点进行专门化使用。