jerad fields's picture

34 342

jerad fields

jeradf

·

AI & ML interests

None yet

Recent Activity

upvoted a paper about 15 hours ago

QuarkAudio Technical Report

upvoted a paper about 15 hours ago

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

upvoted a paper about 15 hours ago

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

View all activity

Organizations

upvoted 3 papers about 15 hours ago

QuarkAudio Technical Report

Paper • 2512.20151 • Published Dec 23, 2025 • 1

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

Paper • 2602.04683 • Published 8 days ago • 2

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Paper • 2602.05400 • Published 7 days ago • 289

upvoted 2 papers about 16 hours ago

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Paper • 2602.06540 • Published 6 days ago • 20

Covo-Audio Technical Report

Paper • 2602.09823 • Published 2 days ago • 8

upvoted 2 collections 7 days ago

MiniCPM-o & MiniCPM-V

Multimodal models with leading performance. • 31 items • Updated 3 days ago • 64

OpenBEATs

Checkpoints for the WASPAA 2025 paper "OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder" • 93 items • Updated 17 days ago • 5

upvoted 2 collections 9 days ago

Nemotron Speech

Open, state-of-the-art, production‑ready enterprise speech models from the NVIDIA Speech research team for ASR, TTS, Speaker Diarization and S2S • 9 items • Updated 7 days ago • 37

NVIDIA Nemotron v3

Open, Production-ready Enterprise Models • 7 items • Updated 7 days ago • 134

upvoted 2 papers 10 days ago

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Paper • 2601.17761 • Published 18 days ago • 14

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Paper • 2601.23161 • Published 13 days ago • 10

upvoted a paper 11 days ago

Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers

Paper • 2601.10770 • Published 28 days ago • 3

upvoted an article 14 days ago

Article

Scaling Real-Time Voice Agents with Cache-Aware Streaming ASR

Jan 5

•

77

upvoted a collection 14 days ago

Qwen3-ASR

4 items • Updated 14 days ago • 45

upvoted a paper 16 days ago

Qwen3-TTS Technical Report

Paper • 2601.15621 • Published 21 days ago • 62

upvoted a paper 17 days ago

FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Paper • 2601.11141 • Published 27 days ago • 23

upvoted 2 papers 23 days ago

LFM2 Technical Report

Paper • 2511.23404 • Published Nov 28, 2025 • 52

Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction

Paper • 2512.14865 • Published Dec 16, 2025 • 1

upvoted a paper 26 days ago

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

Paper • 2506.13642 • Published Jun 16, 2025 • 27

upvoted a paper about 2 months ago

FunAudio-ASR Technical Report

Paper • 2509.12508 • Published Sep 15, 2025 • 1