成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
语音识别
关注
753
语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
综合
百科
VIP
热门
动态
论文
精华
Phoneme-based speech recognition driven by large language models and sampling marginalization
Arxiv
0+阅读 · 12月20日
Kunnafonidilaw ka Cadeau: an ASR dataset of present-day Bambara
Arxiv
0+阅读 · 12月22日
Fun-ASR Technical Report
Arxiv
0+阅读 · 12月19日
TICL+: A Case Study On Speech In-Context Learning for Children's Speech Recognition
Arxiv
0+阅读 · 12月20日
Navigating the Reality Gap: Privacy-Preserving Adaptation of ASR for Challenging Low-Resource Domains
Arxiv
0+阅读 · 12月22日
Peeking Into The Future For Contextual Biasing
Arxiv
0+阅读 · 12月19日
Zero-Shot Recognition of Dysarthric Speech Using Commercial Automatic Speech Recognition and Multimodal Large Language Models
Arxiv
0+阅读 · 12月19日
Incorporating Error Level Noise Embedding for Improving LLM-Assisted Robustness in Persian Speech Recognition
Arxiv
0+阅读 · 12月19日
Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction
Arxiv
0+阅读 · 12月23日
VietLyrics: A Large-Scale Dataset and Models for Vietnamese Automatic Lyrics Transcription
Arxiv
0+阅读 · 12月20日
When De-noising Hurts: A Systematic Study of Speech Enhancement Effects on Modern Medical ASR Systems
Arxiv
0+阅读 · 12月19日
From Speech to Subtitles: Evaluating ASR Models in Subtitling Italian Television Programs
Arxiv
0+阅读 · 12月22日
SingingSDS: A Singing-Capable Spoken Dialogue System for Conversational Roleplay Applications
Arxiv
0+阅读 · 12月24日
A Differentiable Alignment Framework for Sequence-to-Sequence Modeling via Optimal Transport
Arxiv
0+阅读 · 11月21日
E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
Arxiv
0+阅读 · 11月10日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top