机器之心发布
机器之心编辑部
在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。随着内容量的井喷式增长,平台面临着前所未有的挑战:一方面,需要更高效地识别和管理内容;另一方面,必须精准地将优质内容推送给真正感兴趣的用户。
大模型技术,尤其是多模态大模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中,如何将这些技术真正落地,仍是一道难解的行业命题。
作为国内领先的短视频社区,快手对利用多模态大模型重塑短视频生态做出了尝试,提出了基于多模态大模型的短视频平台生态优化和综合用户体验改善方案,并在实际部署中取得了显著的成效。这一创新举措不仅为短视频平台的健康发展提供了新的思路,也为行业树立了标杆。
基于多模态大模型的短视频生态优化方案
低质内容广泛存在于各个媒体平台,识别和过滤这些内容是改善用户体验和平台生态的重要环节。但传统视频质量判别方案高度依赖静态规则和标注人员判别,造成了高昂的判断成本,且难以适应用户反感内容的动态性,现有的自动化质量判别方案主要通过关键词匹配和大语言模型的提示工程(Prompt Engineering)完成内容的识别与过滤,难以保证识别过滤的准确率。当前工业界尚缺乏面向短视频平台的内容质量评测标准和成熟的自动化识别解决方案。
快手独立完成了首个面向短视频平台的内容质量判别基准测试构建工作,依托自身生态,打造了覆盖 1000 条真实平台短视频、涵盖 4 类主要劣质内容与 15 类细粒度劣质内容类型的数据集,并进一步提出了工业级自动化短视频质量判别框架KuaiMod。区别于依赖成文规定的大陆法(Civil Law)体系判别策略,KuaiMod借鉴判例法(Common Law)在灵活性方面的优势,基于视觉语言模型(VLMs)的链式推理(Chain-of-Thought)深入剖析导致视频引发用户反感的原因,利用判例定义判别策略,从而攻克短视频平台中劣质内容动态变化的难题。KuaiMod 方案广泛使用基于用户反馈的强化学习策略帮助通用 VLM 完成面向视频质量判别任务的离线适配和在线更新,模型通过更新判例实时掌握平台趋势,保证对新生的劣质内容的准确识别。
在离线测试中,KuaiMod-7B 模型在四种主要劣质类别上整体准确率高达 92.4%,相对于其他判别方案提升超过10%
目前 KuaiMod 判别方案已经在快手平台全面部署,为百万级日新视频提供质量判别服务,保障数亿用户的使用体验。A/B 测试表明 KuaiMod 使用户举报率降低超过20%,展现出巨大的工业潜力。
为了促进短视频平台生态优化社区发展,当前 KuaiMod 的评测标准以及详细技术方案论文均已全面开源。
- 论文:VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform
- arXiv Paper:https://arxiv.org/pdf/2504.14904v1
- Homepage:https://kuaimod.github.io/
- KuaiMod Benchmark:https://github.com/KuaiMod/KuaiMod.github.io
主要贡献
1、首个短视频平台劣质内容判别基准测试:本工作面向快手生态构建了短视频劣质内容分类体系,形式化定义了短视频内容判别任务,并基于真实场景中的用户反馈构建了首个短视频劣质内容判别基准测试。KuaiMod 劣质内容分类体系包含 4种主要的劣质类别以及 15 种细粒度劣质类别。基准测试包含 1000 条短视频样本,涵盖 15 种细粒度劣质类别,完全由人工标注,并经过多轮数据清洗以保证正确性。
2、首个工业级自动化内容判别解决方案:当前 Facebook,Tiktok 等媒体平台都对基于深度学习模型的自动化内容质量判别方案展开探索,但尚未公布成熟的技术路线。KuaiMod 是首个在工业场景下验证了部署价值的自动化内容质量判别解决方案,在快手平台多个场景下的部署结果表明,KuaiMod 方案具有能够与人工判别相媲美的准确率。我们在论文中详细描述了 KuaiMod 方案的技术路线,希望引发更多的交流和讨论。
3、基于用户反馈的强化学习训练+更新策略:区别于静态的规则或内容判别 API,基于判例的劣质内容建模使得 KuaiMod 可以通过迭代训练数据完成判别策略的更新。为了保证实时性和准确率,我们设计了基于用户反馈的强化学习范式,利用用户的线上反馈构造新的训练数据,实现线上判别服务的天级更新。
一、KuaiMod 短视频质量判别基准测试
KuaiMod 劣质内容分类体系
为了应对层出不穷的新增劣质内容,KuaiMod 建立了动态的劣质内容分类体系。基于快手原有的判别标准,KuaiMod 将劣质内容分类成四个相互独立的主要类别:法律与社会安全,内容质量与伦理,不良商业行为和侵害知识产权。在四个主要类别的基础上进一步构建动态的细粒度劣质内容分类体系。具体来说,初版 KuaiMod 分类体系共包括 15 种细粒度劣质标签。在后续判别过程中,如果视频内容被判定为质量低下,但不存在与之匹配的细粒度标签,则根据劣质内容为该类视频生成新的细粒度标签并计入原有分类体系。自部署以来,KuaiMod 分类体系中劣质内容的标签数目已从 15 个扩充到 100 个,实现了对新增劣质内容的覆盖和细粒度分类。
KuaiMod 基准测试
基于上述分类体系,我们构造了业界首个短视频平台内容质量判别基准测试。该基准测试由 1000 条来自快手平台的短视频和对应的分类标签组成,其中 578 条视频为非劣质内容,422 条劣质视频涵盖了初版分类体系中的 15 种细粒度劣质类型。KuaiMod 基准测试中的每条数据都由多名资深标注者把关,确保分类标签的正确性。在严格的数据脱敏和清洗之后,我们将该基准测试开源,希望促进短视频平台生态优化社区的交流和发展。
二、KuaiMod 短视频质量判别方案
KuaiMod 质量判别模型由快手自研的 YuanQi 通用多模态模型作为基座,面向视频质量判别任务,使用链式推理数据离线训练后部署上线,并根据线上反馈持续更新判别策略。
链式推理数据构造
KuaiMod 训练数据的构造结合了人工判别结果和大模型推理能力。为了增强多模态大模型对视频内容和劣质标签之间的因果建模,我们设计了 Tag2CoT 和 CoT2Tag 流程,为每条训练数据提供细致的分析过程。
我们将线上的用户反感(举报/厌恶/差评)视频队列以及用户喜爱的高质量视频队列作为数据源,由人工标注者为每条数据标注细粒度劣质标签。
在 Tag2CoT 过程中,多模态大模型将视频元信息(视频标题、封面、视频帧、OCR/ASR 文本,用户评论等)以及人工标注的劣质标签作为输入,并根据指令分析视频内容,为人工判别结果提供思维链格式的依据。 在 CoT2Tag 过程中,为了将推理过程结构化,我们为视频质量判别任务设计了专门的流程,具体来说,我们将视频质量判别分成内容提取,内容分析,中期检查,用户反馈分析和总结判断五个状态,由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。
SFT+DPO 离线适配
基于构造的链式推理数据,KuaiMod 模型的离线适配由 SFT 和 DPO 两阶段训练组成。
在 SFT 阶段,整合视频元信息作为输入,使用 next-token-prediction 任务训练 YuanQi 模型生成推理过程和判别结果。
在 DPO 阶段,利用 SFT 后的模型在训练集上生成推理结果,从中挑选出判别结果错误的样本,将模型的生成结果作为负例,将原本的训练数据作为正例,构造偏好数据,采用直接偏好优化算法针对错误样本优化模型。
基于用户反馈的强化学习(RLUF)更新范式
尽管 KuaiMod 模型在离线适配后具备初步的视频质量判别能力,但由于社交视频平台上的劣质内容会随着用户和社会趋势而变化,静态的质量判别模型无法有效适应这种动态性。因此,在线上更新阶段,我们设计了基于用户反馈的强化学习(RLUF)范式,持续优化 KuaiMod 模型的判别策略。
RLUF 包括如下关键元素:
- 环境:由短视频平台上的视频和用户组成,用户通过观看视频并提供反馈(如举报)来与环境互动。
- 智能体:KuaiMod 模型作为代理与环境互动,其策略由参数 θ 决定,基于视频内容进行质量判断。
- 奖励和目标:奖励信号直接来自用户反馈,较低的用户举报率表明更好的质量判别策略。目标是通过与环境的互动更新判别策略,以提高用户满意度和平台生态。
劣质内容判别策略更新的关键在于消除模型与用户对劣质内容理解的差异。为此,选择模型判别结果与用户反馈不一致的视频案例作为优化阶段的训练数据。具体步骤包括:
1、实时难例收集:难例来自用户举报视频以及高热视频。举报行为直接反映了用户理解的劣质内容的范畴,而高热视频因其受欢迎程度而具有更高的扩散风险,同时也反映了平台趋势和用户偏好。
2、数据筛选
- 粗筛选:假设未被用户举报的视频为正例,而高举报队列中的视频为劣质样本。通过更新前的KuaiMod模型生成判别决策,识别出与人类反馈相矛盾的案例作为线上更新阶段的候选训练数据。
- 精细标注:对有争议的候选案例进行人工复检,确定最终的劣质标签,并通过既定的 Tag2CoT 和 CoT2Tag 流程生成数据。对于 KuaiMod 判断错误的案例,原始和新生成的响应分别作为错误和正确答案;对于 KuaiMod 判断正确但用户仍感到不适的案例,使用 YuanQi-20B 模型在 CoT 推理过程中列举可能引起用户不适的方面,并解释该视频为何不会对社区生态造成危害,以帮助模型区分个体用户敏感性和社会共识。
在线上更新阶段的训练中,我们仍然采用直接偏好优化算法来完成模型判别策略与用户反馈的对齐。
离线性能评估
我们在 KuaiMod 基准测试上评估了多种视频质量判别方案,从较早的 RoBERTa 编码器到先进的 Intern-VL 模型,从通用的 GPT-4o 到专业的 Perspective API,以及经过离线适配的 KuaiMod-7B 模型。评测包括简单的劣质/非劣质二分类和对细粒度标签的多分类。
评测结果揭示了视频质量判别任务存在如下关键要素:
1、判别标准的实时性:在诸多判别方法中,Perspective 是唯一的工业级内容判别 API,但由于其使用的模型训练时间较早,且无法微调,因此相较于其他可微调的方法以及更新的 GPT-4o,准确率较低。
2、多模态理解能力:能够利用多模态信息的方法相比于仅能利用文本信息的模型普遍取得了更好的效果,强大的视觉理解能力对于视频质量判别任务至关重要。
KuaiMod-7B 模型取得了 92.4% 的整体准确率,相对于其他方法取得了将近 10% 的提升,展现出了性能优势和应用潜力。
线上部署性能增益
为了验证 KuaiMod 方案的实际应用价值,我们在快手生态中的三个场景(快手极速版,快手精选和快手主站)进行了 A/B 测试。在极速版和精选场景下,KuaiMod 的质量判别服务使视频举报率降低了 20% 以上,显著提升了用户的观看体验。同时,质量判别服务没有对活跃用户数目和观看时长造成负面影响,这证明 KuaiMod 剔除的短视频不符合主流用户的兴趣。在主站场景下,KuaiMod 的质量判别服务使得活跃用户规模和人均观看时长均产生了增长,这证明了劣质内容剔除对于短视频平台的发展具有巨大价值。
三、快手致力打造社区短视频理解多模态大模型
短视频平台的内容分发面临两大核心挑战:如何从海量内容中精准捕捉用户兴趣,以及如何在信息过载时代构建用户与内容的高效连接。随着短视频内容的多样化和复杂性,平台需要探索更加先进的推荐技术,以提升推荐的精准性和可解释性,从而更好地满足用户的需求。
快手正致力于打造一个能够真正「理解社区短视频」的多模态大模型,不只是追求技术指标的突破,而是从用户体验、内容理解到业务变现,全面重塑平台的智能基础设施。这不仅关乎一个产品的升级,更代表着一种新的AI价值实现路径。
多模态语义理解的「硬骨头」:快手短视频语义远超多模态通用范式
相比标准化的影视视频或通用图文内容,社区短视频的语义环境极为复杂:内容碎片化严重、情境依赖性强、语言与视觉高度融合、表达风格高度个性化、传达意图往往隐含于动作、语气、背景与上下文之中。这意味着,只有能够真正「看懂、听懂、理解」这些视频的大模型,才能为推荐、搜索、内容生成等核心能力提供有效支撑。
这正是快手推进多模态大模型建设的起点。
团队明确提出,模型不仅需要实现语言、视觉、音频等模态的信息融合,还要具备:
- 对短视频语境中复杂意图的识别能力;
- 对用户兴趣动态变化的感知能力;
- 对视频背后高阶语义与知识图谱的推理能力。
传统方法往往止步于对视频内容的表征提取,而快手要做的是,从「表征」迈向「理解」——这是通往下一代 AI 系统的必由之路。
建立以「视频理解」为核心的多模态模型框架
为此,快手自研的大模型能力被系统地分为三个层次:
第一层:多模态基础能力
这一层聚焦于打通视频、图像、文本等多模态输入的表示空间。团队探索了多种训练范式:
- 通过语言模型主导的 Encoder 路径融合视觉内容;
- 利用 Adapter 方式对视觉模态进行调参适配;
- 构建统一的流式理解体系,实现短视频「上下文建模」;
- 引入监督微调(SFT)策略,提升模型生成能力和对齐度。
在模型训练数据上,快手搭建了高质量的中文短视频语料库,支持「视频-语音-文本」三位一体的训练目标,并构建了以「视频结构化标签体系」为中心的训练监督链条,实现模型对短视频语义单位的精准识别。
第二层:高级认知与推理能力
在具备感知能力之后,快手将模型推向更高维度的认知与推理能力。这部分重点突破如下:
- 利用 RAG 机制结合知识图谱进行视频内容补全与多跳问答;
- 提高模型对复杂命题(如动作因果、话题转折、情感表达等)的理解力;
- 融合社交线索(如点赞评论、观看路径)进行因果链建模。
与 OpenAI、DeepSeek 等在图文领域大模型能力相比,快手的优势在于其数据更贴近用户真实兴趣轨迹,具备构建「懂人心」模型的土壤。
第三层:多模态应用能力
快手多模态模型的目标并非「实验室指标」,而是「场景闭环」。当前,模型已广泛部署于平台的多个核心任务中,包括:
- 视频兴趣标签结构化;
- 短视频 Caption 生成与标题优化;
- 用户兴趣识别与推荐意图建模;
- 智能选题、内容共创辅助;
- 电商商品知识图谱构建与导购推荐;
- 用户评论语义解析与话题扩散预测。
尤其在商品推荐与内容创作领域,快手正在构建「知识驱动的 AI 内容理解-生成-推荐」全链条,从而实现从内容理解到价值转化的智能跃迁。
实际业务中,这一模型体系已在用户行为可解释性任务中展现出显著成效——在快手主站与极速版核心场景中,平台多项正向核心指标稳步提升,主站场景下举报率下降超过 26%,极速版下降超过 24%,充分体现了多模态大模型在真实业务环境中的落地能力与优化成效。
三阶段路径:从能力建设到生态闭环
快手在多模态大模型建设方面采取了清晰的阶段性策略,力求以系统性投入逐步构建起具备产业价值和应用闭环的模型能力体系。
第一阶段:夯实基础能力
快手聚焦于多模态模型的底层能力建设,重点包括统一的标签体系构建、多源异构语料的采集与清洗,以及多模态监督机制的初步搭建。通过标准化、结构化的标签体系,为模型提供更精确的语义锚点,奠定了高质量训练的基础。
第二阶段:推进语义融合与兴趣建模
随着基础能力的成熟,快手开始将模型能力延伸到内容与用户之间的深层理解。此阶段重点探索内容语义结构与用户行为偏好的联动机制,推动知识图谱在推荐、搜索等业务场景中的实用化落地,进一步提升内容分发的精准性与用户体验。
第三阶段:实现产品集成与业务共振
在模型能力逐步完善的基础上,快手将多模态技术融入平台多个关键业务流程,面向内容理解、创作辅助、商业推荐等多类任务实现统一支撑。同时,探索 AI 能力在营销、分发、内容生产等场景中的创新应用,推动模型从「算法引擎」迈向「平台能力」的演进。
这一分阶段的策略不仅保障了技术建设的系统性,也使得大模型能力能够稳步走向规模化应用和价值兑现。
走出学术范式,迈入「场景即能力」的产业实践阶段
快手的多模态大模型不是为了追赶潮流,而是一次源于真实场景需求的技术深耕。它所代表的,是中文内容生态中,一个由社区驱动、短视频驱动的智能化转型路径。
如果说过去多模态模型更像是「学术成果的工程化实现」,那么快手的路线更像是「产品倒推下的技术演进」。在这个过程中,快手展现出一种难得的「慢功夫」与务实精神:先理解任务本身,再推动模型优化,最终形成业务闭环。这种从需求出发、自研为本、场景驱动的技术策略,为整个中文AI生态提供了一种新的范式样本。