标签
新研究表明,在拥有充足计算资源的情况下,语言模型训练数据的过滤可能并不必要,模型反而能从低质量数据中受益。
令人惊讶的新结果表明,对于大型语言模型(LLM),只要有足够的算力,最好的数据过滤器可能就是没有过滤器,因为它们能很好地容忍低质量数据。