标签
印度工人以每小时250卢比的价格,通过头上绑手机拍摄自己做家务的视频,为AI机器人提供训练数据,每天拍摄超过90个不同场景和角度的动作,反映出AI训练背后的劳工问题。
Scale AI首席执行官亚历山大·王分享了保罗·格雷厄姆的《Schlep Blindness》一文如何激励公司专注于解决构建高质量机器学习数据集这一不为人注意却至关重要的问题。
本文介绍了利用半自动符号传播(SSP)方法,构建用于电子商务评论细粒度方面级情感分析的韩语评价标注语料库(EVAD)。并在该数据集上评估了KoBERT和KcBERT模型,在方面-值对识别任务上取得了较高的F1分数。
本文介绍了苹果公司提出的标注员策略模型(APMs),该模型利用可解释性技术,无需额外标注努力即可从标注行为中推断标注员内部的安全策略。作者证明,APMs 能够准确地建模这些策略,并区分标注分歧的来源,例如操作失误、策略模糊性和价值观多元性。
本文对四个有害语言检测数据集进行了大规模分析,考察标注者特征与语言特征如何相互作用以影响标注差异。文章强调了交叉性效应的影响,并警示不要将不同数据集的发现简单泛化。