Metadata 实践指南

写在前面

这份指南来自长期田野调查、录音录像、ELAN 整理、字幕制作、数据库尝试与 AI 实验的经验。目的不是提出完美标准，而是希望大家现在就开始做 metadata。

不完整、不标准、不完美都没关系。先做起来，后面才能修正、扩展、公开、AI 化。

为什么 metadata 重要？

没有 metadata，录音、视频、字幕、ELAN、手抄本会互相分散；有 metadata，数据可以检索、关联、共享与长期保存，也可以被 AI 利用。

一个文件应该怎么组织？

PG_TY_001_banzhy/
├── PG_TY_001_banzhy.wav
├── PG_TY_001_banzhy.srt
├── PG_TY_001_banzhy.txt
├── PG_TY_001_banzhy_demo.eaf
├── PG_TY_001_banzhy_metadata.json
└── README.md

示范 metadata

{
  "identifier": "PG_TY_001",
  "title": "斑鸠",
  "genre": "nursery_rhyme",
  "dialect": "平江思村芦洞方言",
  "speaker": "Lfr",
  "birthyear": 1954,
  "recording_date": "2018-08-20",
  "recording_place": "Lfr家",
  "collector": "zsk",
  "equipment": "Sony PJ760",
  "ai_ready": true,
  "time_aligned": true
}

TXT + SRT + EAF 为什么都要有？

文件	用途
TXT	纯文本保存、搜索、NLP
SRT	视频字幕、网页播放
EAF	多层语言学标注、时间对齐、AI训练

建议现在立刻做

统一文件命名
建立 metadata CSV / JSON
统一 genre
统一 speaker 信息
保存地点、时间、设备、采集人
尽量保留村级方言信息

返回首页 / Back to home