语音识别论文 - 专知

会员服务 ·

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

Phoneme-based speech recognition driven by large language models and sampling marginalization

Arxiv

0+阅读 · 12月20日

Kunnafonidilaw ka Cadeau: an ASR dataset of present-day Bambara

Arxiv

0+阅读 · 12月22日

Fun-ASR Technical Report

Arxiv

0+阅读 · 12月19日

TICL+: A Case Study On Speech In-Context Learning for Children's Speech Recognition

Arxiv

0+阅读 · 12月20日

Navigating the Reality Gap: Privacy-Preserving Adaptation of ASR for Challenging Low-Resource Domains

Arxiv

0+阅读 · 12月22日

Peeking Into The Future For Contextual Biasing

Arxiv

0+阅读 · 12月19日

Zero-Shot Recognition of Dysarthric Speech Using Commercial Automatic Speech Recognition and Multimodal Large Language Models

Arxiv

0+阅读 · 12月19日

Incorporating Error Level Noise Embedding for Improving LLM-Assisted Robustness in Persian Speech Recognition

Arxiv

0+阅读 · 12月19日

Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction

Arxiv

0+阅读 · 12月23日

VietLyrics: A Large-Scale Dataset and Models for Vietnamese Automatic Lyrics Transcription

Arxiv

0+阅读 · 12月20日

When De-noising Hurts: A Systematic Study of Speech Enhancement Effects on Modern Medical ASR Systems

Arxiv

0+阅读 · 12月19日

From Speech to Subtitles: Evaluating ASR Models in Subtitling Italian Television Programs

Arxiv

0+阅读 · 12月22日

SingingSDS: A Singing-Capable Spoken Dialogue System for Conversational Roleplay Applications

Arxiv

0+阅读 · 12月24日

A Differentiable Alignment Framework for Sequence-to-Sequence Modeling via Optimal Transport

Arxiv

0+阅读 · 11月21日

E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis

Arxiv

0+阅读 · 11月10日

参考链接

微信扫码咨询专知VIP会员