平江方言非遗 Metadata 实践指南

给刚开始或已经在做数据收集的人

写在前面

这份指南来自长期田野调查、录音录像、ELAN 整理、字幕制作、数据库尝试与 AI 实验的经验。目的不是提出完美标准,而是希望大家现在就开始做 metadata。

不完整、不标准、不完美都没关系。先做起来,后面才能修正、扩展、公开、AI 化。

为什么 metadata 重要?

没有 metadata,录音、视频、字幕、ELAN、手抄本会互相分散;有 metadata,数据可以检索、关联、共享与长期保存,也可以被 AI 利用。

一个文件应该怎么组织?

PG_TY_001_banzhy/
├── PG_TY_001_banzhy.wav
├── PG_TY_001_banzhy.srt
├── PG_TY_001_banzhy.txt
├── PG_TY_001_banzhy_demo.eaf
├── PG_TY_001_banzhy_metadata.json
└── README.md

示范 metadata

{
  "identifier": "PG_TY_001",
  "title": "斑鸠",
  "genre": "nursery_rhyme",
  "dialect": "平江思村芦洞方言",
  "speaker": "Lfr",
  "birthyear": 1954,
  "recording_date": "2018-08-20",
  "recording_place": "Lfr家",
  "collector": "zsk",
  "equipment": "Sony PJ760",
  "ai_ready": true,
  "time_aligned": true
}

TXT + SRT + EAF 为什么都要有?

文件用途
TXT纯文本保存、搜索、NLP
SRT视频字幕、网页播放
EAF多层语言学标注、时间对齐、AI训练

建议现在立刻做

  1. 统一文件命名
  2. 建立 metadata CSV / JSON
  3. 统一 genre
  4. 统一 speaker 信息
  5. 保存地点、时间、设备、采集人
  6. 尽量保留村级方言信息

返回

返回首页 / Back to home