标签
本研究探讨了在Llama-3.2-3B和Qwen-3-4B等小型语言模型上使用偏好优化方法(ORPO、AlphaPO),通过微小数据集使其与斯多葛哲学对齐。研究发现,尽管300个样本可以有效编码斯多葛美德,但小型模型在处理外向型的宇宙公民义务时仍面临困难。