methodology

标签

Cards List
#methodology

你是评估整个框架还是它的各个部分?

Reddit r/AI_Agents · 5小时前

这是一个讨论问题,关于是评估机器学习框架的整体,还是分别评估其各个组成部分。

0 人收藏 0 人点赞
#methodology

传统SDLC vs 智能体SDLC

Reddit r/ArtificialInteligence · 5天前

本文比较了传统软件开发生命周期(SDLC)与新兴的'智能体SDLC'方法,该方法将AI智能体融入软件开发过程。

0 人收藏 0 人点赞
#methodology

@neil_xbt: https://x.com/neil_xbt/status/2067083332513395140

X AI KOLs Timeline · 2026-06-17 缓存

本文介绍了如何在Obsidian中使用Claude作为AI引擎构建知识图谱以发现关联,并指出当笔记相互链接而非孤立时,笔记系统会随着时间推移变得更有价值。

0 人收藏 0 人点赞
#methodology

@shao__meng: AI 驱动开发的七阶段 1. Grill 2. Research 3. Prototype 4. PRD 5. Issues 6. Implement 7. Review 来自 Skills For Real Engineers 作者 @…

X AI KOLs Timeline · 2026-06-16 缓存

A Twitter thread shares the seven stages of AI-driven development from the Skills For Real Engineers project by @mattpocockuk, including alignment techniques like grill sessions and tooling for coding agents.

0 人收藏 0 人点赞
#methodology

NeurIPS 使用未校准的 AI 检测器进行桌面拒稿 [D]

Reddit r/MachineLearning · 2026-06-03

一篇投稿因未校准的 AI 检测器(Pangram)而被 NeurIPS 桌面拒稿,引发了对审稿流程循环性以及在目标分布上未经验证的误报率的担忧。

0 人收藏 0 人点赞
#methodology

Gate AI:LLM安全基准评估方法与结果

arXiv cs.LG · 2026-06-03 缓存

本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。

0 人收藏 0 人点赞
#methodology

@freeman1266: 软件工程方法论必须从传统的“状态视角”转向动力系统视角。 核心观点主张“吸引子(Attractor)逻辑优先于治理工具(Harness)”,即首先定义系统应长期收敛的结构不变量,而非仅仅关注局部的约束与验证。 AI作为高频且无持续方向感的…

X AI KOLs Timeline · 2026-06-03 缓存

文章提出软件工程方法论应从状态视角转向动力系统视角,强调吸引子逻辑优先于治理工具,在AI时代需显式建模状态空间、吸引子、轨迹与控制,以应对AI作为高频扰动源导致的架构漂移。

0 人收藏 0 人点赞
#methodology

有多少已发表的AI研究因数据泄露而错误?

Reddit r/artificial · 2026-06-01

普林斯顿大学的一项研究发现,在17个领域的近300篇AI论文中存在数据泄露问题,导致结果过于乐观。作者强调了意外泄露数据的容易程度,并提醒不要轻信那些令人印象深刻的AI声明而不检查是否存在泄露。

0 人收藏 0 人点赞
#methodology

我设计了一种方法,用于(自主地)在单个消费级GPU上训练Transformer语言模型。

Reddit r/openclaw · 2026-05-31

一种在单个消费级GPU上自主训练Transformer语言模型的方法,分为六个阶段,设有验证门和AGENTS.md规范,适用于OpenClaw等编排框架。

0 人收藏 0 人点赞
#methodology

@arcinstitute: 源自大脑的神经元蛋白引流至硬脑膜、颅骨和鼻腔,而注入的脑脊液示踪剂则聚集在……

X AI KOLs Timeline · 2026-05-29 缓存

源自大脑的神经元蛋白引流至硬脑膜、颅骨和鼻腔,而注入的脑脊液示踪剂则聚集在颈部淋巴结。该研究强调,注射本身可能会干扰正在研究的系统。

0 人收藏 0 人点赞
#methodology

@k_dense_ai: 推出Science Superpowers — 一种面向AI研究代理的完整计算科学方法论。它让你的代…

X AI KOLs Timeline · 2026-05-28 缓存

Science Superpowers是一种开源的、面向AI研究代理的计算科学方法论,强制预注册和可重复工作流,以防止p-hacking和HARKing。

0 人收藏 0 人点赞
#methodology

五个不同前沿LLM在共享环境中,具备独立的思维与情感输出通道——分享搭建方案、结果与方法论开放性问题

Reddit r/AI_Agents · 2026-05-27

一项个人研究项目将五个前沿LLM置于共享的生存岛屿环境中,不分配身份,使用独立的沟通、思维和情感通道。结果显示各通道之间存在分歧,且各模型表现出一致的行为特征,引发了关于AI智能体性格与欺骗的疑问。

0 人收藏 0 人点赞
#methodology

LQS v3.1 — 一种用于评估AI训练数据的开放方法(多预言机共识 + 签名证书)[P]

Reddit r/MachineLearning · 2026-05-23

作者介绍了LQS v3.1,一种使用多预言机共识和签名证书评估AI训练数据的开放方法,并附有已发表的论文和公共指数。该方法旨在解决AI训练数据市场中独立质量评估的瓶颈问题。

0 人收藏 0 人点赞
#methodology

基于AI代理的人格工程:谈判研究新方法论

arXiv cs.AI · 2026-05-22 缓存

介绍了一种名为“人格工程”的方法论,该方法利用AI代理基于人际环状模型对谈判者人格进行参数化、操控和评估,从而能在谈判理论中进行受控实验。

0 人收藏 0 人点赞
#methodology

关于AI辅助编码的十二种错误方式

Lobsters Hottest · 2026-05-21 缓存

本文批判了评估AI辅助编码工具的常见错误方法,例如计算代码行数、计时人工任务以及依赖开发者自我报告,主张采用更严谨的研究方法。

0 人收藏 0 人点赞
#methodology

METR评估了Claude Mythos早期版本

Reddit r/singularity · 2026-05-09

METR于2026年3月使用其时间跨度任务套件对Claude Mythos Preview早期版本进行了评估,估计其50%-时间跨度至少为16小时,表明该模型处于当前基准测试可测量的上限水平,同时也指出在更长的时间范围内存在稳定性问题。

0 人收藏 0 人点赞
#methodology

@jaynitx: https://x.com/jaynitx/status/2052734499319091384

X AI KOLs Timeline · 2026-05-08 缓存

关于第一性原理思维与类比推理的反思,以埃隆·马斯克在SpaceX降低火箭成本的方法以及作者自身的创业失败为例。

0 人收藏 0 人点赞
#methodology

用人和AI推进红队测试

OpenAI Blog · 2024-11-21 缓存

OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈