音声認識 | 製品概要 | DolphinVoice's Docs

製品概要

音声認識は、音声データをテキストに変換するAI技術です。DolphinVoice プラットフォームの音声認識サービスをご利用することで、音声認識機能があなたの製品に簡単統合できます。

弊社の音声認識サービスは以下の種類があります:一発話認識、リアルタイム音声認識、録音ファイル書き起こし(通常版)、録音ファイル書き起こし(急速版)。各製品の簡単な比較は以下の表にまとめてあります。

項目/プロダクト	リアルタイム音声認識	録音ファイル書き起こし(急速版)	録音ファイル書き起こし(通常版)	一発話認識
機能	ストリーミング音声を認識し、認識しながら結果を返す。	音声ファイルは原稿または字幕出力に変換でき、平均出力速度は1時間の音声ファイルで5分。	音声ファイルは原稿または字幕出力に変換でき、平均出力速度は1時間の音声ファイルで15分。	一回発話の短い音声を認識し、認識結果を返す、または認識しながら結果を返す。
オーディオ制限	連続37時間以内	オーディオ:1GB 時間:5h	オーディオ:1GB ビデオ:2GB 時間:5h	60s
サポートするフォーマット	WAV/PCM/MP3	WAV/PCM/OPUS MP3/AMR/M4A/AAC	WAV/PCM/OPUS MP3/MP4/M4A/AMR/3GP/AAC	WAV/PCM/MP3
サポートするサンプリング率	16kHz、8kHz	16kHz、8kHz	16kHz、8kHz	16kHz、8kHz
典型的な使用例	リアルタイム字幕	動画字幕生成	音声ファイルの書き起こし	音声アシスタント

詳細な製品仕様を知りたい場合は、開発ガイドを参照してください。