[情報] 男女聲傾向檢視網頁小工具

看板transgender (變性)作者shusei (公子鈞)時間9月前 (2025/10/22 11:39)推噓5(5推 0噓 2→)

留言7則, 5人參與討論串1/1

大家好，分享一個開源小工具：在瀏覽器端本地推論，估計聲音被模型感知為女性化／男性化的傾向。音檔不會上傳，錄完立刻看分數。 Demo：https://shusei.github.io/vpa https://i.meee.com.tw/bfZKqaH.png

◎怎麼用 *進頁面按「開始錄音」說 5–10 秒（日常說話），再按停止；或用右下角上傳現有音檔。支援 mp3 / m4a / mp4 / mov（影片只取音軌）。 *會顯示兩個百分比條（女性化／男性化），可按【▶播放剛才的聲音】重聽原音。 *有即時狀態與進度提示，長檔也看得到進度。 ◎隱私與快取 *推論在瀏覽器本地完成，不會上傳音檔。 *只保留最新一段的回放音檔；模型檔會快取在瀏覽器（可在頁面點「清除模型快取」） ◎結果怎麼看 *這是「語音表現的傾向」分數，不是性別認同、也不是醫療／法律判定。請當作自我練習的回饋。 *灰色帶：分數介於 40–60% 比較模糊，建議多錄幾段、看趨勢。 ◎已知侷限 *模型主要來自 Common Voice 英語朗讀資料；中文／方言／唱歌／戲腔可能有落差。 *噪音、回音、感冒、或單純「硬拉音高」都會影響結果。 ◎技術透明 *前端使用 @xenova/transformers 在瀏覽器做 ONNX/WASM/WebGPU 推論。 *模型：prithivMLmods/Common-Voice-Gender-Detection-ONNX（Wav2Vec2，Apache-2.0） *前處理最小化：只做單聲道混合與 16 kHz 重採樣（不去靜音、不調音量）。 *50 秒整段一次；>150 秒自動改為串流分段並在記憶體吃緊時自動縮短片段，避免瀏覽器 OOM。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.216.139.187 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/transgender/M.1761104381.A.545.html ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 11:59:25 ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 11:59:42 ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 12:00:20 ※ 編輯: shusei (61.216.139.187 臺灣), 10/22/2025 15:38:11 ※ 編輯: shusei (42.73.87.249 臺灣), 10/22/2025 15:40:10