よくある質問
FAQ
1 共通
1.DolphinVoiceのアカウントはどのように申請するのですか?
DolphinVoiceのウェブサイトを開き、ログインボタンをクリックして登録を行ってください。 詳しい手順は クイックスタート をご参照ください。
2.プロジェクトの作成方法を教えてください?
アカウント申請が成功すると、デフォルトで自動的にプロジェクトが作成されます。 新しいプロジェクトが必要な場合は、新規プロジェクトボタンをクリックして作成できます。
注意:各プロジェクトは、デフォルトですべてのAI機能が有効になっています。
3.AppID と AppSecret はどこで確認できますか?
DolphinVoiceユーザーページ-接続情報をご覧ください。
4.Token を再取得すると既に取得した Token が無効になりますか?
Tokenを再取得することは、既に取得したTokenの有効性に影響を与えません。Token の有効性は有効時間帯のみに関連します。
5.Token のデフォルト有効期間は何日ですか?
Tokenのデフォルト有効期間は7日間です。
2 一発話識別/リアルタイム音声認識
1.RESTful API と WebSocket の接続の違いは何ですか?
RESTfulの場合、サービスはユーザーの一発話が終わった後に一度の認識結果を返します。一方、WebSocketの場合、ユーザーが話し続ける間に認識結果が返され、最終認識結果の前に多くの中間結果が返されます。
2. WebSocket/HTTP インターフェイスと SDK の違いは何ですか?
認識エンジンインターフェイス:WebSocketとHTTPインターフェイスについて、開発者はエンジンを呼び出すために開発する必要があります。
SDK:エンジン認識機能とそのインタフェースも含めたパッケージであり、開発者がもっと容易的に開発できます。
3. SDK はどの言語をサポートしていますか?
リアルタイム音声認識はWSプロトコルで、一発話認識はWSとHTTPプロトコルをサポートしています。WS対応の開発は難易度高いため、SDKでサポートされています。
SDKの種類:Python、Android、iOS、H5/JS。
4. SDK 開発でエラーが起きて、正常に動作しない場合はどうすればよいですか?
まず、弊社公式のデモを試してください。デモが無事に動いたら、あなたのソースコードに加えてみてください、基本的に正常に使用できます。
5. 応答時間はどのぐらいですか?
認識結果の応答時間は 500 ms 以内です。
6. どの言語がサポートされていますか?
言語サポートは日本語、英語、中国語などの言語です。
具体的な言語については、音声認識-開発ガイドをご覧ください。
7. 対応可能サンプリング周波数とビット数は何ですか?
既定のサンプリング周波数:16000 Hz、8000 Hz のサンプリング周波数。
その他のサンプリング周波数:元のオーディオのサンプリング周波数が知られている場合は、FFmpeg を使用してサンプリング周波数を変換できます。
8. どのようなオーディオ形式がサポートされていますか?
一発話識別&リアルタイム音声認識:WAV、PCM、MP3、OPUS の形式がサポートされています。
9. 音声認識は何チャンネルをサポートしますか?
チャンネル数は、音声を記録または再生する際に異なる空間位置から収集または再生する相互に独立したオーディオ信号であり、したがってチャンネル数は音声を記録する際の音源数または再生時に対応するスピーカー数です。音声認識の各サービスでは、音声ファイルバッチ認識を除く、他のサービスは現在単一チャネル(mono)のオーディオのみをサポートしています。
10.音声認識がサポートする分野とは?
現在、汎用フィールドとコールセンター・フィールドのみがサポートされている。 このうち、汎用フィールドでサポートされるサンプリング・レートは16000Hz、コールセンター・フィールドでサポートされるサンプリング・レートは 8000 Hz である。
11.音声データは必ずしも連続で送信する必要がありますか?
音声データは連続で送信する必要があります。サーバー側は一定時間以上音声データを受信できなければタイムアウトし、エラーメッセージを返します。もし再度データを送信したい場合は、クライアント側は再度リクエストを行う必要があります。
12. 音声データの送信が中断された後、なぜサーバーからのデータがまだ受信できるのですか?
音声データ送信が連続ではなく、タイムアウトで中断された後、サーバー上に前の処理が残っている場合、それらのデータの識別結果を引き続き返します。
3 録音ファイル書き起こし
1. SDK のバージョンは何ですか?
録音ファイルからテキストへの変換は HTTP プロトコルインタフェースを使用しており、呼び出し方法が便利です。SDK は提供しておりません。
2. サポートする開発言語は何ですか?
Java、Python、C++、C、C#、H5/JS など。
3. 認識テキスト結果出力形式は何ですか?
文章と字幕の2種類の形式をサポートしています。お客様のニーズに応じて、適切な形式を選択できます。
4.音声ファイルバッチ認識は、どのような入力音声ファイル形式をサポートしていますか?
.wav/.mp3/.opus/.pcm/.amr/.3gp/.aac 形式がサポートします。
5.ファイルの持続時間とファイルサイズの上限は何ですか?
時間の上限は 5 時間です。音声ファイルのサイズは 1 GB 以下です。
6. 話者分離がサポートされていますか?
話者分離はサポートされており、プラットフォームはチャンネル数または話者分離技術を通じて話者分離を行うことができますが、2つの区別方法を同時に使用することはできません。
(1)チャンネル数に基づいて役割を区別する:ご利用のアップロードファイルは二チャンネル以上であることをご注意ください。同じチャンネル数のテキストコンテンツは1つのチャンネルに帰属されます。
(2)話者分離技術を通じて区別する:アップロードされた録音ファイルを分析し、声紋情報などに基づいて話者IDと対応する開始終了時間を区別します。
6. 字幕モードでは、話者分離する方法は何ですか?
出力形式が文章である場合に、話者分離が可能です。しかし、現在、字幕モードでは話者分離はサポートされていません。
7. 音声ファイルのテキスト変換(通常版)と(急速版)は何が異なっていますか?
(1)対応するファイル形式は異なります:
普通版:wav、mp3、wma、mp4、pcm、m4a、amr、3gp、aac。
急速版:wav、mp3、wma、pcm、amr、3gp、aac。
(2)ファイルサイズに対する要求が異なる:
普通版:音声ファイルのサイズは1GB以下;動画のファイルサイズは2GBを超えないこと。
急速版:音声ファイルのサイズは1GB以下。
(3)結果の返す速度は異なります:
普通版:1時間のオーディオファイル、平均15分で結果を返す。
急速版:1時間のオーディオファイル、平均5分で結果を返す。
4 単語
1. 単語がサポートされているサービスと言語は何ですか?
音声認識に関連するすべてのサービスは、単語の設定をサポートしています。つまり、一発話認識、リアルタイム音声認識、録音ファイル書き起こし(通常版)、録音ファイル書き起こし(急速版)サービスはすべて単語設定が可能です。 プラットフォームで提供されているすべての言語は、単語の設定をサポートしています。つまり、日本語、日英混合、英語、中国語、中英混合の言語はすべて単語設定が可能です。
2.単語はどのように設定しますか?
(1)日本語&日英混合の言語:単語セットの形式で設定されます。単語セットは「表記,読み,クラス」で構成されています。例:早稲田大学,ワセダダイガク,固有名詞。
- そのうち、表記と読みは 30 文字を超えてはいけません。
(2)中国語&中英混合&英語の言語:単語の形式で設定され、すなわち「表記」のみで構成されます。例:汇演。
- 1つの単語は 30 文字を超えてはいけません。
3. 単語はどのように作成しますか?
リアルタイム単語:音声認識関連サービスを呼び出す際、1回の接続/リクエスト中にhotwords_list パラメータを渡すことで有効になります。
非リアルタイム単語:方法一と方法二で設定された単語は、DolphinVoiceプラットフォームにログインし、「単語登録-単語」を選択して確認できます。
方法一: 単語関連APIを呼び出して作成します。詳細は単語APIをご覧ください。
方法二: DolphinVoiceプラットフォームに ログイン し、「単語登録-単語」を選択して単語を作成します。
4. リアルタイム単語と非リアルタイム単語の違いは何ですか?
(1)リアルタイム単語は、事前に単語辞書IDを作成する必要はなく、1回の接続/リクエスト中に単語リストを渡すことで有効になります。非リアルタイム単語は、まず 単語API を呼び出して単語辞書IDを作成する必要があり、その後の認識サービスの呼び出し時に単語辞書IDを渡して使用します。
(2)リアルタイム単語は使用後、即座に削除され、使い捨ての単語です。非リアルタイム単語は複数回使用可能です。
(3)リアルタイム単語は一度に最大100個の単語/単語セットを設定できます。非リアルタイム単語の辞書作成には上限はなく、1つの単語辞書には20000個の単語を超えることはできません。
(4)1回の呼び出しで、リアルタイム単語と非リアルタイム単語を同時に使用する場合、リアルタイム単語が優先されます。
5 状態コード
5.1 通用类
| エラーコード | エラーメッセージ | 説明 | 解決策 |
|---|---|---|---|
| 110000 | Token Missing | トークン欠損 | トークンの引数を追加します |
| 110001 | Invalid Token | トークンエラー | 正しいトークン値を渡す |
| 110005 | Concurrency Quota Exceeded | 同時実行オーバーラン | お問い合わせ先 |
| 110006 | Failed To Create Token | トークンの作成に失敗しました | トークンを再作成してください |
| 110007 | APP ID Not Found | app_id が存在しない | 正しいapp_idを確認して入力してください |
| 110008 | Invalid Signature | 署名エラー | 正しい署名を再生成してください |
| 110009 | Token Expired | トークン期限切れ | トークンを再取得する |
| 110011 | Illegal Current Time | 無効な現在の時間 | 時間が正しいかどうかを確認してください |
| 110012 | Payment Status Abnormal, Service Unavailable | 支払いステータスの例外、サービス利用不可 | お問い合わせ先 |
| 120000 | Network Error | ネットワークエラー | あなたのネットワークを確認してください |
| 120001 | Lack Of Network Permissions | ネットワークアクセス権が不足しています | あなたのネットワークを確認してください |
| 120002 | Network Disconnected | ネットワーク接続が切断されました | あなたのネットワークを確認してください |
| 120003 | No Network Connection | ネットワーク接続がありません | あなたのネットワークを確認してください |
| 130000 | Lack Of Recording Permissions | 録音アクセス権が不足しています | あなたの録音アクセス権を確認してください |
| 130001 | Microphone is not initialized, please call initRecorder after obtaining recording permissions | マイクが初期化されていません。録音アクセス権を取得した後、initRecorderを呼び出してください | マイクを初期化してください |
| 130002 | No Recording Devices Available | 録音デバイスが見つかりませんでした | あなたのデバイスを確認してください |
| 140000 | Database is busy, please try again later | データベースが忙しいため、しばらく時間をおいてから再度お試しください | ビジネスに連絡してください |
| 140004 | APPID/APPSecret Cannot Be Null | APPID/APPSecretは空にすることはできません | APPID/APPSecret を入力してください |
| 140005 | Listener is null, please call setListener method first | リスナーが空です。まず setListener メソッドを呼び出してください | まず setListener メソッドを呼び出してください |
| 140006 | InitListener Cannot Be Null | initListener は空にすることはできません | initListener は空にすることはできません |
| 140010 | Invalid Parameter | パラメータエラー | パラメーターを確認する(規定のパラメーターが送信されていない、または誤ったものが送信されている、または空の文字列が送信されている) |
| 140011 | Parameter Missing | パラメータ欠損 | 必須のパラメーターが不足しています |
| 140012 | Invalid Parameter Type | パラメータタイプエラー | パラメーターの型を確認する |
| 140013 | Invalid Parameter Format | パラメータフォーマットエラー | パラメーターのフォーマットを確認する |
5.2 一発話認識/リアルタイム音声認識
| エラーコード | エラーメッセージ | 説明 | 解決策 |
|---|---|---|---|
| 200000 | Invalid Parameter | パラメータエラー | パラメーターを確認する(規定のパラメーターが送信されていない、または誤ったものが送信されている、または空の文字列が送信されている) |
| 200001 | Parameter Missing | パラメータ欠損 | 必須のパラメーターが不足しています |
| 200002 | Invalid Parameter Type | パラメータタイプエラー | パラメーターの型を確認する |
| 200003 | Invalid Parameter Format | パラメータフォーマットエラー | パラメーターのフォーマットを確認する |
| 210500 | Failed To Call Engine | サービス呼び出しに失敗しました | ビジネスに連絡してください |
| 210200 | Audio Format Is Inconsistent With Parameters | 音声フォーマットとパラメータが一致しません | 音声フォーマットとパラメーターが一致していることを確認する |
| 210201 | Reading Audio Failed | 读取音频失败 | オーディオを再送信してください |
| 210202 | Invalid Audio Sample Rate | 音声サンプリング率エラー | wav音声のサンプリング率とリクエストパラメーターが一致していることを確認する |
| 210203 | Invalid Number Of Channels | オーディオチャネル数が正しくありません | 単一チャネルオーディオであるかどうかを確認してください |
| 210204 | Failed To Save Audio | オーディオの保存に失敗しました | ビジネスに連絡してください |
| 210000 | Gateway Timeout In Receiving Data | ゲートウェイデータ受信時間切れ | 再送信する |
| 210001 | Connection Error 1 | 接続エラー1 | ビジネスに連絡してください |
| 210002 | Connection Error 2 | 接続エラー2 | ビジネスに連絡してください |
| 210003 | Disconnected | 接続が切断されました | ビジネスに連絡してください |
| 210004 | Service Not Started | サービスは起動されていません | ビジネスに連絡してください |
| 210100 | Invalid Calling Sequence | 呼び出し順序が正しくありません | ビジネスに連絡してください |
5.3 録音ファイル書き起こし
| エラーコード | エラーメッセージ | 説明 | 解決策 |
|---|---|---|---|
| 200000 | Invalid Parameter | パラメータエラー | パラメーターを確認する(規定のパラメーターが送信されていない、または誤ったものが送信されている、または空の文字列が送信されている) |
| 200001 | Parameter Missing | パラメータ欠損 | 必須のパラメーターが不足しています |
| 200002 | Invalid Parameter Type | パラメータタイプエラー | パラメーターの型を確認する |
| 200003 | Invalid Parameter Format | パラメータフォーマットエラー | パラメーターのフォーマットを確認する |
| 220500 | Failed To Call Engine | サービス呼び出しに失敗しました | ビジネスに連絡してください |
| 220502 | VAD Engine Error | VADエラー | ビジネスに連絡してください |
| 220200 | Audio Format Is Inconsistent With Parameters | 音声フォーマットとパラメータが一致しません | 音声フォーマットとパラメーターが一致していることを確認する |
| 220201 | File Size Exceeds Limit | ファイルサイズが上限を超えています | 要件に合致するファイルをアップロードしてください |
| 220202 | File Duration Exceeds Limit | ファイルの長さが上限を超えています | 要件に合致するファイルをアップロードしてください |
| 220203 | Invalid Number Of Channels | オーディオチャンネル番号エラー | 実際のオーディオ・チャンネル数が送信されたパラメータと一致していることを確認してください |
| 220403 | Audio Download Failed | 音声ダウンロード失敗 | ファイルのURLが正常にアクセスできるかどうかを確認する |
| 220203 | Invalid Number Of Channels | 音声チャンネル数エラー | アップロードしたファイルのチャンネル数とパラメーターが一致していることを確認する |
| 220301 | Connection Error 1 | 接続エラー1 | ビジネスに連絡してください |
| 220400 | Failed To Get Audio Duration | オーディオの長さを取得できませんでした | ビジネスに連絡してください |
| 220401 | Failed To Save File | ファイルの保存に失敗しました | ビジネスに連絡してください |
| 220402 | Failed To Open File | ファイルを開くことができませんでした | ビジネスに連絡してください |
| 220403 | Audio Download Failed | オーディオのダウンロードに失敗しました | ビジネスに連絡してください |
| 220404 | Task ID Not Found | taskid が存在しません | 正しい taskid を入力してください |
| 220405 | Task Execution Timeout | タスク実行タイムアウト | 再アップロード |
5.4 単語関連
| エラーコード | エラーメッセージ | 説明 | 解決策 |
|---|---|---|---|
| 200100 | Hot Word File Format Error | 単語ファイルの形式が違います | txtファイルをアップロードしてください |
| 200101 | Hot word file content is empty | 単語ファイルの内容が空です | 単語ファイルの内容を確認してください |
| 200102 | Failed To Read Hot Word Library | 単語ファイルの読み込みに失敗しました | 再度アップロードするか、ビジネスに連絡してください |
| 200103 | Character count exceeds limit | 文字数が制限を超えています | 文書最適化の文字数が制限を超えています(100万文字) |
| 200104 | Language Not Supported | 言語がサポートされていません | この言語は文書最適化機能がサポートされていません |
| 200105 | Failed To Create Document-based Optimization | 文書最適化の作成に失敗しました | 再作成するか、ビジネスに連絡してください |
| 200106 | Hot word file size exceeds limit | 単語ファイルのサイズが制限を超えています | 単語ファイルのサイズは3MB以下にしてください |
| 200107 | Hot word library ID does not exist | 単語辞書IDは見つかりません | 正しい単語辞書ID/単語を入力してください |
| 200108 | Hot Words In Use; Operations Prohibited | 単語は既に使用されており、関連操作は禁止されています | 単語は既に使用されており、関連操作は禁止されています |
| 200109 | Number of hot words exceeds limit | 単語数が制限を超えています | 一つの単語辞書で最大20000個/グループの単語を設定可能です |
DolphinVoice