mirror of https://github.com/k2-fsa/sherpa-onnx.git synced 2026-01-09 07:41:06 +08:00

History

Add various languge bindings for Wenet non-streaming CTC models (#2584 )

This PR adds support for Wenet non-streaming CTC models to sherpa-onnx by introducing the SherpaOnnxOfflineWenetCtcModelConfig struct and integrating it across all language bindings and APIs. The implementation follows the same pattern as other CTC model types like Zipformer CTC.

- Introduces SherpaOnnxOfflineWenetCtcModelConfig struct with a single model field for the ONNX model path
- Adds the new config to SherpaOnnxOfflineModelConfig and updates all language bindings (C++, Pascal, Kotlin, Java, Go, C#, Swift, JavaScript, etc.)
- Provides comprehensive examples and tests across all supported platforms and languages

2025-09-10 18:52:18 +08:00

src/websocketsrv

Add VAD + Non-streaming ASR + microphone examples for Java API (#1046 )

2024-06-23 19:09:21 +08:00

.gitignore

Add Java API example for hotwords. (#1442 )

2024-10-18 16:35:31 +08:00

AudioTaggingCEDFromFile.java

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

AudioTaggingZipformerFromFile.java

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

InverseTextNormalizationNonStreamingParaformer.java

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

InverseTextNormalizationStreamingTransducer.java

Inverse text normalization API of streaming ASR for various programming languages (#1022 )

2024-06-18 13:42:17 +08:00

KeywordSpotterFromFile.java

Fix keyword spotting. (#1689 )

2025-01-20 16:41:10 +08:00

NonStreamingDecodeFileDolphinCtc.java

Add Kotlin and Java API for Dolphin CTC models (#2086 )

2025-04-02 21:16:14 +08:00

NonStreamingDecodeFileFireRedAsr.java

Add Kotlin and Java API for FireRedAsr AED model (#1870 )

2025-02-17 10:50:25 +08:00

NonStreamingDecodeFileMoonshine.java

Add Kotlin and Java API for Moonshine models (#1474 )

2024-10-26 22:30:29 +08:00

NonStreamingDecodeFileNemo.java

Add CTC HLG decoding for JNI (#810 )

2024-04-25 17:20:02 +08:00

NonStreamingDecodeFileNemoCanary.java

Add Java and Kotlin API for NeMo Canary models (#2359 )

2025-07-08 13:45:26 +08:00

NonStreamingDecodeFileParaformer.java

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

NonStreamingDecodeFileSenseVoice.java

Add Java and Kotlin API for sense voice (#1164 )

2024-07-22 14:08:40 +08:00

NonStreamingDecodeFileSenseVoiceWithHr.java

Add Kotlin and Java API for homophone replacer (#2166 )

2025-04-29 22:55:21 +08:00

NonStreamingDecodeFileTeleSpeechCtc.java

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

NonStreamingDecodeFileTransducer.java

Add Java API for non-streaming ASR (#807 )

2024-04-24 21:03:26 +08:00

NonStreamingDecodeFileTransducerHotwords.java

Add Java API example for hotwords. (#1442 )

2024-10-18 16:35:31 +08:00

NonStreamingDecodeFileWenetCtc.java

Add various languge bindings for Wenet non-streaming CTC models (#2584 )

2025-09-10 18:52:18 +08:00

NonStreamingDecodeFileWhisper.java

Add Java API for non-streaming ASR (#807 )

2024-04-24 21:03:26 +08:00

NonStreamingDecodeFileWhisperMultiple.java

Support decoding multiple streams in Java API. (#2149 )

2025-04-25 11:18:57 +08:00

NonStreamingDecodeFileZipformerCtc.java

Support non-streaming zipformer CTC ASR models (#2340 )

2025-07-04 15:57:07 +08:00

NonStreamingSpeechEnhancementGtcrn.java

Add Java API for speech enhancement GTCRN models (#2009 )

2025-03-16 15:13:20 +08:00

NonStreamingTtsCoquiDe.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingTtsKittenEn.java

Simplify the usage of our non-Android Java API (#2533 )

2025-08-26 20:13:07 +08:00

NonStreamingTtsKokoroEn.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingTtsKokoroZhEn.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingTtsMatchaEn.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingTtsMatchaZh.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingTtsPiperEn.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingTtsPiperEnWithCallback.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingTtsVitsZh.java

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

NonStreamingWebsocketClient.java

Non-streaming WebSocket client for Java. (#1190 )

2024-07-30 17:21:33 +08:00

OfflineAddPunctuation.java

Add Kotlin and Java API for online punctuation models (#1936 )

2025-02-27 16:52:36 +08:00

OfflineSpeakerDiarizationDemo.java

Java API for speaker diarization (#1416 )

2024-10-11 16:51:40 +08:00

OnlineAddPunctuation.java

Add Kotlin and Java API for online punctuation models (#1936 )

2025-02-27 16:52:36 +08:00

README.md

Add Java/Kotlin API and Android support for ten-vad (#2389 )

2025-07-12 19:55:37 +08:00

run-audio-tagging-ced-from-file.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-audio-tagging-zipformer-from-file.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-inverse-text-normalization-paraformer.sh

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

run-inverse-text-normalization-transducer.sh

Inverse text normalization API of streaming ASR for various programming languages (#1022 )

2024-06-18 13:42:17 +08:00

run-kws-from-file.sh

Add KWS examples for Java API (#930 )

2024-05-28 15:49:54 +08:00

run-non-streaming-decode-file-dolphin-ctc.sh

Add Kotlin and Java API for Dolphin CTC models (#2086 )

2025-04-02 21:16:14 +08:00

run-non-streaming-decode-file-fire-red-asr.sh

Add Kotlin and Java API for FireRedAsr AED model (#1870 )

2025-02-17 10:50:25 +08:00

run-non-streaming-decode-file-moonshine.sh

Add Kotlin and Java API for Moonshine models (#1474 )

2024-10-26 22:30:29 +08:00

run-non-streaming-decode-file-nemo-canary.sh

Add Java and Kotlin API for NeMo Canary models (#2359 )

2025-07-08 13:45:26 +08:00

run-non-streaming-decode-file-nemo.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-non-streaming-decode-file-paraformer.sh

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

run-non-streaming-decode-file-sense-voice-with-hr.sh

Add Kotlin and Java API for homophone replacer (#2166 )

2025-04-29 22:55:21 +08:00

run-non-streaming-decode-file-sense-voice.sh

Add Java and Kotlin API for sense voice (#1164 )

2024-07-22 14:08:40 +08:00

run-non-streaming-decode-file-tele-speech-ctc.sh

Add C++ runtime for Tele-AI/TeleSpeech-ASR (#970 )

2024-06-05 00:26:40 +08:00

run-non-streaming-decode-file-transducer-hotwords.sh

Add Java API example for hotwords. (#1442 )

2024-10-18 16:35:31 +08:00

run-non-streaming-decode-file-transducer.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-non-streaming-decode-file-wenet-ctc.sh

Add various languge bindings for Wenet non-streaming CTC models (#2584 )

2025-09-10 18:52:18 +08:00

run-non-streaming-decode-file-whisper-multiple.sh

Support decoding multiple streams in Java API. (#2149 )

2025-04-25 11:18:57 +08:00

run-non-streaming-decode-file-whisper.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-non-streaming-decode-file-zipformer-ctc.sh

Support non-streaming zipformer CTC ASR models (#2340 )

2025-07-04 15:57:07 +08:00

run-non-streaming-speech-enhancement-gtcrn.sh

Add Java API for speech enhancement GTCRN models (#2009 )

2025-03-16 15:13:20 +08:00

run-non-streaming-tts-coqui-de.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-non-streaming-tts-kitten-en.sh

Add Kotlin and Java API for KittenTTS (#2461 )

2025-08-07 22:19:11 +08:00

run-non-streaming-tts-kokoro-en.sh

Add Koltin and Java API for Kokoro TTS models (#1728 )

2025-01-17 17:36:13 +08:00

run-non-streaming-tts-kokoro-zh-en.sh

Add Java and Koltin API for Kokoro TTS 1.0 (#1798 )

2025-02-07 09:59:27 +08:00

run-non-streaming-tts-matcha-en.sh

Add C++ runtime for vocos (#2014 )

2025-03-17 17:05:15 +08:00

run-non-streaming-tts-matcha-zh.sh

Add C++ runtime for vocos (#2014 )

2025-03-17 17:05:15 +08:00

run-non-streaming-tts-piper-en-with-callback.sh

Add TTS example for Java API. (#1176 )

2024-07-28 12:07:19 +08:00

run-non-streaming-tts-piper-en.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-non-streaming-tts-vits-zh.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-non-streaming-websocket-client.sh

Non-streaming WebSocket client for Java. (#1190 )

2024-07-30 17:21:33 +08:00

run-offline-add-punctuation-zh-en.sh

Add Kotlin and Java API for online punctuation models (#1936 )

2025-02-27 16:52:36 +08:00

run-offline-speaker-diarization.sh

Java API for speaker diarization (#1416 )

2024-10-11 16:51:40 +08:00

run-online-add-punctuation-zh-en.sh

Add Kotlin and Java API for online punctuation models (#1936 )

2025-02-27 16:52:36 +08:00

run-speaker-identification.sh

Add Java API for speaker identification (#822 )

2024-04-29 21:23:56 +08:00

run-spoken-language-identification-whisper.sh

Add Java API for audio tagging (#820 )

2024-04-28 22:26:04 +08:00

run-streaming-asr-from-mic-transducer.sh

Add streaming ASR example from a microphone for Java API (#1047 )

2024-06-23 19:43:53 +08:00

run-streaming-decode-file-ctc-hlg.sh

Add CTC HLG decoding for JNI (#810 )

2024-04-25 17:20:02 +08:00

run-streaming-decode-file-ctc.sh

…

run-streaming-decode-file-paraformer.sh

…

run-streaming-decode-file-tone-ctc.sh

Add various language bindings for streaming T-one Russian ASR models (#2576 )

2025-09-09 16:51:18 +08:00

run-streaming-decode-file-transducer.sh

…

run-ten-vad-remove-silence.sh

Add Java/Kotlin API and Android support for ten-vad (#2389 )

2025-07-12 19:55:37 +08:00

run-vad-from-mic-non-streaming-moonshine.sh

Add Kotlin and Java API for Moonshine models (#1474 )

2024-10-26 22:30:29 +08:00

run-vad-from-mic-non-streaming-paraformer.sh

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

run-vad-from-mic-non-streaming-sense-voice.sh

Add Java and Kotlin API for sense voice (#1164 )

2024-07-22 14:08:40 +08:00

run-vad-from-mic-non-streaming-whisper.sh

Add VAD + Non-streaming ASR + microphone examples for Java API (#1046 )

2024-06-23 19:09:21 +08:00

run-vad-from-mic.sh

Add VAD + microphone example for Java API. (#1045 )

2024-06-23 18:34:18 +08:00

run-vad-non-streaming-dolphin-ctc.sh

Add Kotlin and Java API for Dolphin CTC models (#2086 )

2025-04-02 21:16:14 +08:00

run-vad-non-streaming-paraformer.sh

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

run-vad-non-streaming-sense-voice.sh

Add Java and Kotlin API for sense voice (#1164 )

2024-07-22 14:08:40 +08:00

run-vad-remove-silence.sh

Add Java/Kotlin API and Android support for ten-vad (#2389 )

2025-07-12 19:55:37 +08:00

run-version-test.sh

Add API to get version information (#2309 )

2025-06-25 00:22:21 +08:00

SpeakerIdentification.java

Add speaker identification and verification exmaple for Dart API (#1194 )

2024-07-31 13:53:52 +08:00

SpokenLanguageIdentificationWhisper.java

Add Java API for spoken language identification with whisper multilingual models (#817 )

2024-04-26 19:05:39 +08:00

StreamingAsrFromMicTransducer.java

Add streaming ASR example from a microphone for Java API (#1047 )

2024-06-23 19:43:53 +08:00

StreamingDecodeFileCtc.java

Add Java API for non-streaming ASR (#807 )

2024-04-24 21:03:26 +08:00

StreamingDecodeFileCtcHLG.java

Pascal API for streaming ASR (#1246 )

2024-08-12 19:55:51 +08:00

StreamingDecodeFileParaformer.java

Add Java API for non-streaming ASR (#807 )

2024-04-24 21:03:26 +08:00

StreamingDecodeFileToneCtc.java

Add various language bindings for streaming T-one Russian ASR models (#2576 )

2025-09-09 16:51:18 +08:00

StreamingDecodeFileTransducer.java

Add Java API for non-streaming ASR (#807 )

2024-04-24 21:03:26 +08:00

TenVadRemoveSilence.java

Add Java/Kotlin API and Android support for ten-vad (#2389 )

2025-07-12 19:55:37 +08:00

VadFromMic.java

Add VAD + microphone example for Java API. (#1045 )

2024-06-23 18:34:18 +08:00

VadFromMicWithNonStreamingMoonshine.java

Add Kotlin and Java API for Moonshine models (#1474 )

2024-10-26 22:30:29 +08:00

VadFromMicWithNonStreamingParaformer.java

Support onnxruntime 1.18.0 (#906 )

2024-07-10 17:05:26 +08:00

VadFromMicWithNonStreamingSenseVoice.java

Add Java and Kotlin API for sense voice (#1164 )

2024-07-22 14:08:40 +08:00

VadFromMicWithNonStreamingWhisper.java

Add VAD + Non-streaming ASR + microphone examples for Java API (#1046 )

2024-06-23 19:09:21 +08:00

VadNonStreamingDolphinCtc.java

Add Kotlin and Java API for Dolphin CTC models (#2086 )

2025-04-02 21:16:14 +08:00

VadNonStreamingParaformer.java

Add APIs about max speech duration in VAD for various programming languages (#1349 )

2024-09-14 12:30:13 +08:00

VadNonStreamingSenseVoice.java

Add APIs about max speech duration in VAD for various programming languages (#1349 )

2024-09-14 12:30:13 +08:00

VadRemoveSilence.java

Add APIs about max speech duration in VAD for various programming languages (#1349 )

2024-09-14 12:30:13 +08:00

VersionTest.java

Add API to get version information (#2309 )

2025-06-25 00:22:21 +08:00

README.md

Introduction

This directory contains examples for the JAVA API of sherpa-onnx.

Usage

Non-streaming speaker diarization

./run-offline-speaker-diarization.sh

Streaming Speech recognition

./run-streaming-asr-from-mic-transducer.sh
./run-streaming-decode-file-ctc.sh
./run-streaming-decode-file-ctc-hlg.sh
./run-streaming-decode-file-paraformer.sh
./run-streaming-decode-file-transducer.sh

Non-Streaming Speech recognition

./run-non-streaming-decode-file-dolphin-ctc.sh
./run-non-streaming-decode-file-fire-red-asr.sh
./run-non-streaming-decode-file-moonshine.sh
./run-non-streaming-decode-file-nemo-canary.sh
./run-non-streaming-decode-file-nemo.sh
./run-non-streaming-decode-file-paraformer.sh
./run-non-streaming-decode-file-sense-voice.sh
./run-non-streaming-decode-file-tele-speech-ctc.sh
./run-non-streaming-decode-file-transducer-hotwords.sh
./run-non-streaming-decode-file-transducer.sh
./run-non-streaming-decode-file-whisper-multiple.sh
./run-non-streaming-decode-file-whisper.sh
./run-non-streaming-decode-file-zipformer-ctc.sh

Non-Streaming Speech recognition with homophone replacer

./run-non-streaming-decode-file-sense-voice-with-hr.sh

Non-Streaming text-to-speech

./run-non-streaming-tts-piper-en.sh
./run-non-streaming-tts-coqui-de.sh
./run-non-streaming-tts-vits-zh.sh

Non-Streaming text-to-speech (Play as it is generating)

./run-non-streaming-tts-piper-en-with-callback.sh

Spoken language identification

./run-spoken-language-identification-whisper.sh

Add punctuations to text

The punctuation model supports both English and Chinese.

./run-add-punctuation-zh-en.sh

Audio tagging

./run-audio-tagging-zipformer-from-file.sh
./run-audio-tagging-ced-from-file.sh

Speaker identification

./run-speaker-identification.sh

VAD with a microphone

./run-vad-from-mic.sh

VAD with a microphone + Non-streaming SenseVoice for speech recognition

./run-vad-from-mic-non-streaming-sense-voice.sh

VAD with a microphone + Non-streaming Paraformer for speech recognition

./run-vad-from-mic-non-streaming-paraformer.sh

VAD with a microphone + Non-streaming Whisper tiny.en for speech recognition

./run-vad-from-mic-non-streaming-whisper.sh

VAD (Remove silence)

./run-vad-remove-slience.sh
./run-ten-vad-remove-slience.sh

VAD + Non-streaming Dolphin CTC for speech recognition

./run-vad-non-streaming-dolphin-ctc.sh

VAD + Non-streaming SenseVoice for speech recognition

./run-vad-non-streaming-sense-voice.sh

VAD + Non-streaming Paraformer for speech recognition

./run-vad-non-streaming-paraformer.sh

Keyword spotter

./run-kws-from-file.sh