Logo

製品概要

製品概要

音声認識は、音声データをテキストに変換するAI技術です。DolphinVoice プラットフォームの音声認識サービスをご利用することで、音声認識機能があなたの製品に簡単統合できます。

弊社の音声認識サービスは以下の種類があります:一発話認識、リアルタイム音声認識、録音ファイル書き起こし(通常版)、録音ファイル書き起こし(急速版)。各製品の簡単な比較は以下の表にまとめてあります。

項目/プロダクトリアルタイム音声認識録音ファイル書き起こし(急速版)録音ファイル書き起こし(通常版)一発話認識
機能ストリーミング音声を認識し、認識しながら結果を返す。音声ファイルは原稿または字幕出力に変換でき、平均出力速度は1時間の音声ファイルで5分。音声ファイルは原稿または字幕出力に変換でき、平均出力速度は1時間の音声ファイルで15分。一回発話の短い音声を認識し、認識結果を返す、または認識しながら結果を返す。
オーディオ制限連続37時間以内オーディオ:1GB
時間:5h
オーディオ:1GB
ビデオ:2GB
時間:5h
60s
サポートするフォーマットWAV/PCM/MP3WAV/PCM/OPUS
MP3/AMR/M4A/AAC
WAV/PCM/OPUS
MP3/MP4/M4A/AMR/3GP/AAC
WAV/PCM/MP3
サポートするサンプリング率16kHz、8kHz16kHz、8kHz16kHz、8kHz16kHz、8kHz
典型的な使用例リアルタイム字幕動画字幕生成音声ファイルの書き起こし音声アシスタント

詳細な製品仕様を知りたい場合は、開発ガイドを参照してください。