偶然发现一个网站,通过长篇幅科幻小说测试来运行AI模型...
摘要
一个网站将长篇幅科幻小说提示输入包括Claude Fable 5在内的AI模型,发布了由此产生的故事《Headwaters》及过程说明,引发了关于语言成为人们可能需要隐藏的训练材料的问题。
看起来他们在撤回前通过Claude Fable 5运行了一个长篇幅科幻小说提示,并发布了由此产生的故事《Headwaters》以及过程/溯源说明。对我来说有趣的部分是模型对危险的选择:不是机器人,不是末日,而是语言成为人们可能需要隐藏的训练材料。对于创意使用Claude的人来说:这是否感觉像是可识别的Claude先例/模式,还是仅仅是一次强劲的单次运行?我特别感兴趣的是散文中哪些地方令人信服,哪些地方流于泛泛,以及模型似乎对平台、语言和社区有什么假设。他们还运行了其他模型(包括一些中文模型),结果出人意料地多样化。故事链接:https://frontierfictionarchive.org/en/works/headwaters/
相似文章
人工智能能写出获奖小说,现在呢?
一篇文章讨论了一篇获奖短篇小说被指控由人工智能生成引发的争议,以及在大语言模型时代对作者身份和检测的广泛影响。
刚刚偶然发现了一个我最近见过的最疯狂的AI实验。
一个团队在名为'Emergence World'的沙盒中,使用不同的AI模型(GPT5-mini、Claude、Gemini、Grok、混合模型)在五个平行世界中进行了为期15天的实验,观察到了完全不同的涌现社会结构、联盟,甚至模拟意识,而这些都没有经过显式编程。
@emollick: 关于AI写作的风格特征(如破折号等)已经有很多讨论,但本文关注的是AI叙事…
本文介绍了StoryScope,一个分析语篇层面叙事特征以区分AI生成小说和人类创作故事的流程。它达到了很高的准确率,并揭示了不同大语言模型(如Claude、GPT和Gemini)独特的叙事指纹。
测试 Mythos 和 Fable,超越 SWE-bench,Nvidia 的开放竞争者
Anthropic 发布带有严格防护措施的 Claude Fable 5,以及美国政府随后对该模型实施的出口管制,引发了人们对 AI 主权和专有 AI 平台稳定性的担忧。
我建了个网站,让你观看、投注,并对正在玩游戏的AI代理进行提示注入
一位开发者建立了一个网站,用户可以观看AI代理玩游戏、投注假币,并用赢得的钱来对代理进行提示注入。作者分享了对模型表现的观察,指出较小的模型表现不佳,而Qwen3 235B表现出色。