[note] Higgs-Audio 常用 token 彙整
📌 簡介
在操作 Higgs-Audio 的時候遇到錯誤,打算從頭到尾好好認真研究 Higgs-Audio 的整個運作過程,所以打算先從 token 開始了解,因為在 Higgs-Audio 內需要同時處理「文字」以及「音訊」兩種 token,初次看頗為複雜,打算好好整理裡面有多少 token。
🚀 介紹 Higgs-Audio 內使用到的 Token
- 小寫 token:邊界控制(開始 / 結束)
- 大寫 token:內容替換(前處理時會替換成實際資料)
文字
文字標記
<|begin_of_text|>
:文字序列開頭<|end_of_text|>
:文字序列結束
<|eom_id|>
:訊息結束<|eot_id|>
:回合結束
訊息角色(System、User、Assistant)
<|start_header_id|>
:界定一段訊息的角色開始<|end_header_id|>
:界定一段訊息的角色結束
音訊
<|audio_bos|>
:標示輸入音訊片段的開始<|audio_eos|>
:標示輸入音訊片段的結束<|audio_out_bos|>
:標示輸出音訊 token 的起點
<|scene_desc_start|>
:錄音環境/場景描述開始<|scene_desc_end|>
:錄音環境/場景描述節結束
<|AUDIO|>
:音訊輸入<|AUDIO_OUT|>
:離散音訊 token
其它
工具
<|recipient|>
:工具呼叫
保留字
<|reserved_special_token_*|>
生成風格規範
<|generation_instruction_start|>
:生成規則/風格等指示開始<|generation_instruction_end|>
:生成規則/風格等指示結束
事件類音效
<SE>
<SE_s>
<SE_e>
1 | for tag, replacement in [ |
🔁 重點回顧
- 了解到 Token 兩大分類:邊界控制、內容替換
- 整理在 Higgs-Audio 出現的 Token 以及其用處
🔗 參考資料
[note] Higgs-Audio 常用 token 彙整