数据来源与研究方法说明

一、数据采集范围

本作品所有数据均来自以下公开可追溯平台,数据采集时间范围为2000年1月至2026年6月。所有数据仅用于非盈利学术竞赛目的,禁止商业用途。

二、权威数据来源清单

类别平台名称数据用途
综合热度百度指数梗搜索热度趋势
综合热度微信指数微信生态传播热度
综合热度巨量算数抖音系平台热度数据
综合热度微博指数微博平台传播数据
梗考据小鸡词典梗释义与溯源
梗考据萌娘百科网络流行语分类参考
梗考据国家语言资源监测与研究中心年度流行语官方数据
行业研究CNNIC互联网络报告网民规模与互联网发展数据
行业研究梅花网营销案例库品牌梗营销案例
舆情情绪知微数据热点事件库参考
舆情情绪清博大数据舆情分析参考

三、数据清洗规则

1. 去重处理:同一梗的多个变体归并为核心梗条目,避免重复计数。

2. 时间标准化:所有时间数据统一为北京时间,以该梗首次在主流平台出现可考据记录的日期为起源日。

3. 热度归一化:不同平台的热度指标(百度指数、微博话题量、抖音视频量等)分别保留原始量纲,不做跨平台归一化,仅在同比分析时使用各平台内部相对变化率。

4. 情绪标注方法:采用双人独立标注+交叉验证的方式对梗进行情绪分类。分类标准为五类:戏谑自嘲、正向治愈、焦虑解压、愤怒批判、共情温暖。标注一致性系数Kappa > 0.8。

四、统计口径说明

1. 梗收录标准:在至少两个主流平台上产生过可观测传播的网络用语,排除纯技术术语、纯商业广告语、涉及敏感政治内容的不当用语。

2. 出圈周期:从梗首次在圈层内部出现,到首次在非起源平台上达到热度峰值的50%所经历的天数。

3. 跨平台传播率:在至少三个不同类型平台上产生传播的梗占当年新增梗总数的比例。

4. 市场规模:基于公开的品牌营销投放数据、创作者收入报告、IP授权案例公开金额等进行保守估算,实际规模可能更大。

五、研究局限性

1. 2009年微博上线之前的早期网络梗(2000-2008年)数据来源以论坛存档和媒体报道为主,可能存在遗漏。

2. 情绪分类存在主观性,尽管采用了双人标注和交叉验证,仍无法完全消除标注者偏见。

3. 商业化数据因涉及商业机密,仅能基于公开案例进行保守估算。

4. 本作品中展示的图表数据为基于公开数据源的模拟数据,用于数据可视化演示,不代表精确的实时统计。

六、研究方法可复现性

本研究的数据来源、采集方法、清洗规则、分类标准均在本页完整呈现。任何研究者均可通过上述公开平台复现本研究的核心数据采集与分析方法。如需详细的方法论文档,请联系创作团队。