[情報] 男女聲傾向檢視網頁小工具

看板transgender (變性)作者 (公子鈞)時間1天前 (2025/10/22 11:39), 1天前編輯推噓2(201)
留言3則, 3人參與, 12小時前最新討論串1/1
大家好,分享一個開源小工具:在瀏覽器端本地推論,估計聲音被模型感知為 女性化/ 男性化 的傾向。音檔不會上傳,錄完立刻看分數。 Demo:https://shusei.github.io/vpa https://i.meee.com.tw/CZhbMQ2.png
◎怎麼用 *進頁面按「開始錄音」說 5–10 秒(日常說話),再按停止; 或用右下角 上傳現有音檔。支援 mp3 / m4a / mp4 / mov(影片只取音軌)。 *會顯示兩個百分比條(女性化/男性化),可按【▶播放剛才的聲音】重聽原音。 *有即時狀態與進度提示,長檔也看得到進度。 ◎隱私與快取 *推論在瀏覽器本地完成,不會上傳音檔。 *只保留最新一段的回放音檔;模型檔會快取在瀏覽器(可在頁面點「清除模型快取」) ◎結果怎麼看 *這是「語音表現的傾向」分數,不是性別認同、也不是醫療/法律判定。請當作自我練習 的回饋。 *灰色帶:分數介於 40–60% 比較模糊,建議多錄幾段、看趨勢。 ◎已知侷限 *模型主要來自 Common Voice 英語朗讀資料;中文/方言/唱歌/戲腔可能有落差。 *噪音、回音、感冒、或單純「硬拉音高」都會影響結果。 ◎技術透明 *前端使用 @xenova/transformers 在瀏覽器做 ONNX/WASM/WebGPU 推論。 *模型:prithivMLmods/Common-Voice-Gender-Detection-ONNX(Wav2Vec2,Apache-2.0) *前處理最小化:只做 單聲道混合 與 16 kHz 重採樣(不去靜音、不調音量)。 *50 秒整段一次;>150 秒自動改為串流分段並在記憶體吃緊時自動縮短片段,避免瀏 覽器 OOM。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.216.139.187 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/transgender/M.1761104381.A.545.html ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 11:59:25 ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 11:59:42 ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 12:00:20 ※ 編輯: shusei (61.216.139.187 臺灣), 10/22/2025 15:38:11 ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 15:40:10

10/22 23:35, 22小時前 , 1F
作為長期推廣 CV 的我,表示心情複雜。竟然可以這樣用XD
10/22 23:35, 1F

10/23 00:41, 21小時前 , 2F
竟然引出大神:)
10/23 00:41, 2F

10/23 10:00, 12小時前 , 3F
好東西給推
10/23 10:00, 3F
文章代碼(AID): #1e-57zL5 (transgender)
文章代碼(AID): #1e-57zL5 (transgender)