写在前面
这份指南来自长期田野调查、录音录像、ELAN 整理、字幕制作、数据库尝试与 AI 实验的经验。目的不是提出完美标准,而是希望大家现在就开始做 metadata。
不完整、不标准、不完美都没关系。先做起来,后面才能修正、扩展、公开、AI 化。
为什么 metadata 重要?
没有 metadata,录音、视频、字幕、ELAN、手抄本会互相分散;有 metadata,数据可以检索、关联、共享与长期保存,也可以被 AI 利用。
一个文件应该怎么组织?
PG_TY_001_banzhy/ ├── PG_TY_001_banzhy.wav ├── PG_TY_001_banzhy.srt ├── PG_TY_001_banzhy.txt ├── PG_TY_001_banzhy_demo.eaf ├── PG_TY_001_banzhy_metadata.json └── README.md
示范 metadata
{
"identifier": "PG_TY_001",
"title": "斑鸠",
"genre": "nursery_rhyme",
"dialect": "平江思村芦洞方言",
"speaker": "Lfr",
"birthyear": 1954,
"recording_date": "2018-08-20",
"recording_place": "Lfr家",
"collector": "zsk",
"equipment": "Sony PJ760",
"ai_ready": true,
"time_aligned": true
}
TXT + SRT + EAF 为什么都要有?
| 文件 | 用途 |
|---|---|
| TXT | 纯文本保存、搜索、NLP |
| SRT | 视频字幕、网页播放 |
| EAF | 多层语言学标注、时间对齐、AI训练 |
建议现在立刻做
- 统一文件命名
- 建立 metadata CSV / JSON
- 统一 genre
- 统一 speaker 信息
- 保存地点、时间、设备、采集人
- 尽量保留村级方言信息