[note] Higgs-Audio 常用 token 彙整
📌 簡介
在操作 Higgs-Audio 的時候遇到錯誤,打算從頭到尾好好認真研究 Higgs-Audio 的整個運作過程,所以打算先從 token 開始了解,因為在 Higgs-Audio 內需要同時處理「文字」以及「音訊」兩種 token,初次看頗為複雜,打算好好整理裡面有多少 token。
🚀 介紹 Higgs-Audio 內使用到的 Token
- 小寫 token:邊界控制(開始 / 結束)
- 大寫 token:內容替換(前處理時會替換成實際資料)
文字
文字標記
<|begin_of_text|>:文字序列開頭<|end_of_text|>:文字序列結束
<|eom_id|>:訊息結束<|eot_id|>:回合結束
訊息角色(System、User、Assistant)
<|start_header_id|>:界定一段訊息的角色開始<|end_header_id|>:界定一段訊息的角色結束
音訊
<|audio_bos|>:標示輸入音訊片段的開始<|audio_eos|>:標示輸入音訊片段的結束<|audio_out_bos|>:標示輸出音訊 token 的起點
<|scene_desc_start|>:錄音環境/場景描述開始<|scene_desc_end|>:錄音環境/場景描述節結束
<|AUDIO|>:音訊輸入<|AUDIO_OUT|>:離散音訊 token
其它
工具
<|recipient|>:工具呼叫
保留字
<|reserved_special_token_*|>
生成風格規範
<|generation_instruction_start|>:生成規則/風格等指示開始<|generation_instruction_end|>:生成規則/風格等指示結束
事件類音效
<SE><SE_s><SE_e>
1 | for tag, replacement in [ |
🔁 重點回顧
- 了解到 Token 兩大分類:邊界控制、內容替換
- 整理在 Higgs-Audio 出現的 Token 以及其用處
🔗 參考資料
[note] Higgs-Audio 常用 token 彙整
https://hsiangjenli.github.io/blog/zh-TW/note-higgs-audio-token/