よくある質問

FAQ

1 共通

1.DolphinVoiceのアカウントはどのように申請するのですか?

DolphinVoiceのウェブサイトを開き、ログインボタンをクリックして登録を行ってください。 詳しい手順は クイックスタート をご参照ください。

2.プロジェクトの作成方法を教えてください?

アカウント申請が成功すると、デフォルトで自動的にプロジェクトが作成されます。 新しいプロジェクトが必要な場合は、新規プロジェクトボタンをクリックして作成できます。

注意:各プロジェクトは、デフォルトですべてのAI機能が有効になっています。

3.AppID と AppSecret はどこで確認できますか?

DolphinVoiceユーザーページ-接続情報をご覧ください。

4.Token を再取得すると既に取得した Token が無効になりますか?

Tokenを再取得することは、既に取得したTokenの有効性に影響を与えません。Token の有効性は有効時間帯のみに関連します。

5.Token のデフォルト有効期間は何日ですか?

Tokenのデフォルト有効期間は7日間です。

2 一発話識別/リアルタイム音声認識

1.RESTful API と WebSocket の接続の違いは何ですか?

RESTfulの場合、サービスはユーザーの一発話が終わった後に一度の認識結果を返します。一方、WebSocketの場合、ユーザーが話し続ける間に認識結果が返され、最終認識結果の前に多くの中間結果が返されます。

2. WebSocket/HTTP インターフェイスと SDK の違いは何ですか?

認識エンジンインターフェイス:WebSocketとHTTPインターフェイスについて、開発者はエンジンを呼び出すために開発する必要があります。

SDK:エンジン認識機能とそのインタフェースも含めたパッケージであり、開発者がもっと容易的に開発できます。

3. SDK はどの言語をサポートしていますか?

リアルタイム音声認識はWSプロトコルで、一発話認識はWSとHTTPプロトコルをサポートしています。WS対応の開発は難易度高いため、SDKでサポートされています。

SDKの種類:Python、Android、iOS、H5/JS。

4. SDK 開発でエラーが起きて、正常に動作しない場合はどうすればよいですか?

まず、弊社公式のデモを試してください。デモが無事に動いたら、あなたのソースコードに加えてみてください、基本的に正常に使用できます。

5. 応答時間はどのぐらいですか?

認識結果の応答時間は 500 ms 以内です。

6. どの言語がサポートされていますか?

言語サポートは日本語、英語、中国語などの言語です。

具体的な言語については、音声認識-開発ガイドをご覧ください。

7. 対応可能サンプリング周波数とビット数は何ですか?

既定のサンプリング周波数:16000 Hz、8000 Hz のサンプリング周波数。

その他のサンプリング周波数:元のオーディオのサンプリング周波数が知られている場合は、FFmpeg を使用してサンプリング周波数を変換できます。

8. どのようなオーディオ形式がサポートされていますか?

一発話識別&リアルタイム音声認識:WAV、PCM、MP3、OPUS の形式がサポートされています。

9. 音声認識は何チャンネルをサポートしますか?

チャンネル数は、音声を記録または再生する際に異なる空間位置から収集または再生する相互に独立したオーディオ信号であり、したがってチャンネル数は音声を記録する際の音源数または再生時に対応するスピーカー数です。音声認識の各サービスでは、音声ファイルバッチ認識を除く、他のサービスは現在単一チャネル(mono)のオーディオのみをサポートしています。

10.音声認識がサポートする分野とは?

現在、汎用フィールドとコールセンター・フィールドのみがサポートされている。 このうち、汎用フィールドでサポートされるサンプリング・レートは16000Hz、コールセンター・フィールドでサポートされるサンプリング・レートは 8000 Hz である。

11.音声データは必ずしも連続で送信する必要がありますか?

音声データは連続で送信する必要があります。サーバー側は一定時間以上音声データを受信できなければタイムアウトし、エラーメッセージを返します。もし再度データを送信したい場合は、クライアント側は再度リクエストを行う必要があります。

12. 音声データの送信が中断された後、なぜサーバーからのデータがまだ受信できるのですか?

音声データ送信が連続ではなく、タイムアウトで中断された後、サーバー上に前の処理が残っている場合、それらのデータの識別結果を引き続き返します。

3 録音ファイル書き起こし

1. SDK のバージョンは何ですか?

録音ファイルからテキストへの変換は HTTP プロトコルインタフェースを使用しており、呼び出し方法が便利です。SDK は提供しておりません。

2. サポートする開発言語は何ですか?

Java、Python、C++、C、C#、H5/JS など。

3. 認識テキスト結果出力形式は何ですか?

文章と字幕の2種類の形式をサポートしています。お客様のニーズに応じて、適切な形式を選択できます。

4.音声ファイルバッチ認識は、どのような入力音声ファイル形式をサポートしていますか?

.wav/.mp3/.opus/.pcm/.amr/.3gp/.aac 形式がサポートします。

5.ファイルの持続時間とファイルサイズの上限は何ですか?

時間の上限は 5 時間です。音声ファイルのサイズは 1 GB 以下です。

6. 話者分離がサポートされていますか?

話者分離はサポートされており、プラットフォームはチャンネル数または話者分離技術を通じて話者分離を行うことができますが、2つの区別方法を同時に使用することはできません。

(1)チャンネル数に基づいて役割を区別する:ご利用のアップロードファイルは二チャンネル以上であることをご注意ください。同じチャンネル数のテキストコンテンツは1つのチャンネルに帰属されます。

(2)話者分離技術を通じて区別する:アップロードされた録音ファイルを分析し、声紋情報などに基づいて話者IDと対応する開始終了時間を区別します。

6. 字幕モードでは、話者分離する方法は何ですか?

出力形式が文章である場合に、話者分離が可能です。しかし、現在、字幕モードでは話者分離はサポートされていません。

7. 音声ファイルのテキスト変換(通常版)と(急速版)は何が異なっていますか?

(1)対応するファイル形式は異なります:

普通版:wav、mp3、wma、mp4、pcm、m4a、amr、3gp、aac。

急速版:wav、mp3、wma、pcm、amr、3gp、aac。

(2)ファイルサイズに対する要求が異なる:

普通版:音声ファイルのサイズは1GB以下;動画のファイルサイズは2GBを超えないこと。

急速版:音声ファイルのサイズは1GB以下。

(3)結果の返す速度は異なります:

普通版:1時間のオーディオファイル、平均15分で結果を返す。

急速版:1時間のオーディオファイル、平均5分で結果を返す。

4 単語

1. 単語がサポートされているサービスと言語は何ですか?

音声認識に関連するすべてのサービスは、単語の設定をサポートしています。つまり、一発話認識、リアルタイム音声認識、録音ファイル書き起こし(通常版)、録音ファイル書き起こし(急速版)サービスはすべて単語設定が可能です。 プラットフォームで提供されているすべての言語は、単語の設定をサポートしています。つまり、日本語、日英混合、英語、中国語、中英混合の言語はすべて単語設定が可能です。

2.単語はどのように設定しますか?

(1)日本語&日英混合の言語:単語セットの形式で設定されます。単語セットは「表記,読み,クラス」で構成されています。例:早稲田大学,ワセダダイガク,固有名詞。

  • そのうち、表記と読みは 30 文字を超えてはいけません。

(2)中国語&中英混合&英語の言語:単語の形式で設定され、すなわち「表記」のみで構成されます。例:汇演。

  • 1つの単語は 30 文字を超えてはいけません。

3. 単語はどのように作成しますか?

リアルタイム単語:音声認識関連サービスを呼び出す際、1回の接続/リクエスト中にhotwords_list パラメータを渡すことで有効になります。

非リアルタイム単語:方法一と方法二で設定された単語は、DolphinVoiceプラットフォームにログインし、「単語登録-単語」を選択して確認できます。

方法一: 単語関連APIを呼び出して作成します。詳細は単語APIをご覧ください。

方法二: DolphinVoiceプラットフォームに ログイン し、「単語登録-単語」を選択して単語を作成します。

4. リアルタイム単語と非リアルタイム単語の違いは何ですか?

(1)リアルタイム単語は、事前に単語辞書IDを作成する必要はなく、1回の接続/リクエスト中に単語リストを渡すことで有効になります。非リアルタイム単語は、まず 単語API を呼び出して単語辞書IDを作成する必要があり、その後の認識サービスの呼び出し時に単語辞書IDを渡して使用します。

(2)リアルタイム単語は使用後、即座に削除され、使い捨ての単語です。非リアルタイム単語は複数回使用可能です。

(3)リアルタイム単語は一度に最大100個の単語/単語セットを設定できます。非リアルタイム単語の辞書作成には上限はなく、1つの単語辞書には20000個の単語を超えることはできません。

(4)1回の呼び出しで、リアルタイム単語と非リアルタイム単語を同時に使用する場合、リアルタイム単語が優先されます。

5 状態コード

5.1 通用类

エラーコードエラーメッセージ説明解決策
110000Token Missingトークン欠損トークンの引数を追加します
110001Invalid Tokenトークンエラー正しいトークン値を渡す
110005Concurrency Quota Exceeded同時実行オーバーランお問い合わせ先
110006Failed To Create Tokenトークンの作成に失敗しましたトークンを再作成してください
110007APP ID Not Foundapp_id が存在しない正しいapp_idを確認して入力してください
110008Invalid Signature署名エラー正しい署名を再生成してください
110009Token Expiredトークン期限切れトークンを再取得する
110011Illegal Current Time無効な現在の時間時間が正しいかどうかを確認してください
110012Payment Status Abnormal, Service Unavailable支払いステータスの例外、サービス利用不可お問い合わせ先
120000Network Errorネットワークエラーあなたのネットワークを確認してください
120001Lack Of Network Permissionsネットワークアクセス権が不足していますあなたのネットワークを確認してください
120002Network Disconnectedネットワーク接続が切断されましたあなたのネットワークを確認してください
120003No Network Connectionネットワーク接続がありませんあなたのネットワークを確認してください
130000Lack Of Recording Permissions録音アクセス権が不足していますあなたの録音アクセス権を確認してください
130001Microphone is not initialized, please call initRecorder after obtaining recording permissionsマイクが初期化されていません。録音アクセス権を取得した後、initRecorderを呼び出してくださいマイクを初期化してください
130002No Recording Devices Available録音デバイスが見つかりませんでしたあなたのデバイスを確認してください
140000Database is busy, please try again laterデータベースが忙しいため、しばらく時間をおいてから再度お試しくださいビジネスに連絡してください
140004APPID/APPSecret Cannot Be NullAPPID/APPSecretは空にすることはできませんAPPID/APPSecret を入力してください
140005Listener is null, please call setListener method firstリスナーが空です。まず setListener メソッドを呼び出してくださいまず setListener メソッドを呼び出してください
140006InitListener Cannot Be NullinitListener は空にすることはできませんinitListener は空にすることはできません
140010Invalid Parameterパラメータエラーパラメーターを確認する(規定のパラメーターが送信されていない、または誤ったものが送信されている、または空の文字列が送信されている)
140011Parameter Missingパラメータ欠損必須のパラメーターが不足しています
140012Invalid Parameter Typeパラメータタイプエラーパラメーターの型を確認する
140013Invalid Parameter Formatパラメータフォーマットエラーパラメーターのフォーマットを確認する

5.2 一発話認識/リアルタイム音声認識

エラーコードエラーメッセージ説明解決策
200000Invalid Parameterパラメータエラーパラメーターを確認する(規定のパラメーターが送信されていない、または誤ったものが送信されている、または空の文字列が送信されている)
200001Parameter Missingパラメータ欠損必須のパラメーターが不足しています
200002Invalid Parameter Typeパラメータタイプエラーパラメーターの型を確認する
200003Invalid Parameter Formatパラメータフォーマットエラーパラメーターのフォーマットを確認する
210500Failed To Call Engineサービス呼び出しに失敗しましたビジネスに連絡してください
210200Audio Format Is Inconsistent With Parameters音声フォーマットとパラメータが一致しません音声フォーマットとパラメーターが一致していることを確認する
210201Reading Audio Failed读取音频失败オーディオを再送信してください
210202Invalid Audio Sample Rate音声サンプリング率エラーwav音声のサンプリング率とリクエストパラメーターが一致していることを確認する
210203Invalid Number Of Channelsオーディオチャネル数が正しくありません単一チャネルオーディオであるかどうかを確認してください
210204Failed To Save Audioオーディオの保存に失敗しましたビジネスに連絡してください
210000Gateway Timeout In Receiving Dataゲートウェイデータ受信時間切れ再送信する
210001Connection Error 1接続エラー1ビジネスに連絡してください
210002Connection Error 2接続エラー2ビジネスに連絡してください
210003Disconnected接続が切断されましたビジネスに連絡してください
210004Service Not Startedサービスは起動されていませんビジネスに連絡してください
210100Invalid Calling Sequence呼び出し順序が正しくありませんビジネスに連絡してください

5.3 録音ファイル書き起こし

エラーコードエラーメッセージ説明解決策
200000Invalid Parameterパラメータエラーパラメーターを確認する(規定のパラメーターが送信されていない、または誤ったものが送信されている、または空の文字列が送信されている)
200001Parameter Missingパラメータ欠損必須のパラメーターが不足しています
200002Invalid Parameter Typeパラメータタイプエラーパラメーターの型を確認する
200003Invalid Parameter Formatパラメータフォーマットエラーパラメーターのフォーマットを確認する
220500Failed To Call Engineサービス呼び出しに失敗しましたビジネスに連絡してください
220502VAD Engine ErrorVADエラービジネスに連絡してください
220200Audio Format Is Inconsistent With Parameters音声フォーマットとパラメータが一致しません音声フォーマットとパラメーターが一致していることを確認する
220201File Size Exceeds Limitファイルサイズが上限を超えています要件に合致するファイルをアップロードしてください
220202File Duration Exceeds Limitファイルの長さが上限を超えています要件に合致するファイルをアップロードしてください
220203Invalid Number Of Channelsオーディオチャンネル番号エラー実際のオーディオ・チャンネル数が送信されたパラメータと一致していることを確認してください
220403Audio Download Failed音声ダウンロード失敗ファイルのURLが正常にアクセスできるかどうかを確認する
220203Invalid Number Of Channels音声チャンネル数エラーアップロードしたファイルのチャンネル数とパラメーターが一致していることを確認する
220301Connection Error 1接続エラー1ビジネスに連絡してください
220400Failed To Get Audio Durationオーディオの長さを取得できませんでしたビジネスに連絡してください
220401Failed To Save Fileファイルの保存に失敗しましたビジネスに連絡してください
220402Failed To Open Fileファイルを開くことができませんでしたビジネスに連絡してください
220403Audio Download Failedオーディオのダウンロードに失敗しましたビジネスに連絡してください
220404Task ID Not Foundtaskid が存在しません正しい taskid を入力してください
220405Task Execution Timeoutタスク実行タイムアウト再アップロード

5.4 単語関連

エラーコードエラーメッセージ説明解決策
200100Hot Word File Format Error単語ファイルの形式が違いますtxtファイルをアップロードしてください
200101Hot word file content is empty単語ファイルの内容が空です単語ファイルの内容を確認してください
200102Failed To Read Hot Word Library単語ファイルの読み込みに失敗しました再度アップロードするか、ビジネスに連絡してください
200103Character count exceeds limit文字数が制限を超えています文書最適化の文字数が制限を超えています(100万文字)
200104Language Not Supported言語がサポートされていませんこの言語は文書最適化機能がサポートされていません
200105Failed To Create Document-based Optimization文書最適化の作成に失敗しました再作成するか、ビジネスに連絡してください
200106Hot word file size exceeds limit単語ファイルのサイズが制限を超えています単語ファイルのサイズは3MB以下にしてください
200107Hot word library ID does not exist単語辞書IDは見つかりません正しい単語辞書ID/単語を入力してください
200108Hot Words In Use; Operations Prohibited単語は既に使用されており、関連操作は禁止されています単語は既に使用されており、関連操作は禁止されています
200109Number of hot words exceeds limit単語数が制限を超えています一つの単語辞書で最大20000個/グループの単語を設定可能です

目次

1 共通1.DolphinVoiceのアカウントはどのように申請するのですか?2.プロジェクトの作成方法を教えてください?3.AppID と AppSecret はどこで確認できますか?4.Token を再取得すると既に取得した Token が無効になりますか?5.Token のデフォルト有効期間は何日ですか?2 一発話識別/リアルタイム音声認識1.RESTful API と WebSocket の接続の違いは何ですか?2. WebSocket/HTTP インターフェイスと SDK の違いは何ですか?3. SDK はどの言語をサポートしていますか?4. SDK 開発でエラーが起きて、正常に動作しない場合はどうすればよいですか?5. 応答時間はどのぐらいですか?6. どの言語がサポートされていますか?7. 対応可能サンプリング周波数とビット数は何ですか?8. どのようなオーディオ形式がサポートされていますか?9. 音声認識は何チャンネルをサポートしますか?10.音声認識がサポートする分野とは?11.音声データは必ずしも連続で送信する必要がありますか?12. 音声データの送信が中断された後、なぜサーバーからのデータがまだ受信できるのですか?3 録音ファイル書き起こし1. SDK のバージョンは何ですか?2. サポートする開発言語は何ですか?3. 認識テキスト結果出力形式は何ですか?4.音声ファイルバッチ認識は、どのような入力音声ファイル形式をサポートしていますか?5.ファイルの持続時間とファイルサイズの上限は何ですか?6. 話者分離がサポートされていますか?6. 字幕モードでは、話者分離する方法は何ですか?7. 音声ファイルのテキスト変換(通常版)と(急速版)は何が異なっていますか?4 単語1. 単語がサポートされているサービスと言語は何ですか?2.単語はどのように設定しますか?3. 単語はどのように作成しますか?4. リアルタイム単語と非リアルタイム単語の違いは何ですか?5 状態コード5.1 通用类5.2 一発話認識/リアルタイム音声認識5.3 録音ファイル書き起こし5.4 単語関連