"include_confidence_score": trueを追加します。
confidence_scoreオブジェクトに、各フィールドの信頼度レベルが含まれます。これにはlevel値とscore値が含まれます。
scoreは0~1の値です。levelは次のいずれかの値になります。
LOWMEDIUMHIGH
信頼度レベルの評価
Boxでは次のしきい値を推奨しています。| スコアの範囲 | 信頼度レベル | 推奨アクション |
|---|---|---|
| 0.90以上 | 高 | レスポンスを了承 |
| 0.70~0.89 | 中 | レスポンスを検証 |
| 0.70未満 | 低 | レスポンスをレビュー |
推奨されているしきい値は厳密なものではなく、また時間が経過して使用可能なテストデータが増えれば変化していく可能性があります。
制限
信頼度レベルは抽出されたフィールドの値の精度を保証するものではなく、いくつかの制約があります。信頼度スコアは保証ではない
スコアが高いほど、抽出されたフィールドの値が正確である可能性が高まりますが、それでもエラーが発生する可能性は残ります。スコアが非常に高くても、抽出が正確であることは保証されません。信頼度スコアにかかわらず、重要なデータは必ず検証するようにしてください。コンテキストが重要
信頼度スコアは、そのモデルがデータをどの程度まで理解しているかによって決まりますが、モデルは人間のレビューアーであれば認識できるビジネス固有の詳細情報を考慮しません。 例: あなたは請求書の抽出用に、company_nameという名前のフィールドを作成しました。モデルにとっては、この名前がベンダーと顧客のどちらを表すのか判別することが難しく、そのため信頼度スコアが低くなる可能性があります。
フィールドの説明を明確かつ具体的に記述することが重要です。入力するコンテキストが増えれば、モデルは抽出データをより適切に評価することができます。
人間によるレビューワークフローを組み込む
抽出データの精度を確保するには、人間参加型のワークフローが欠かせません。すべての抽出データを信頼するのでも、すべてのスコアを人間がレビューするのでもなく、プログラムによって信頼度の低いフィールドを人間による検証作業に回すことができます。 そのようなワークフローを実現するにはカスタム実装が必須です。次の処理が必要になります。- レスポンスに含まれる
confidence_scoreオブジェクトを解析します。 - 各フィールドのスコアをしきい値と比較します。
- 信頼度の低い抽出結果をレビューキューに送ります。
- 人間が値を確認して修正するためのメカニズムを実装します。
- 信頼度スコアを使用してレビューキューの優先順位を付ける (信頼度の低い抽出結果を先に処理する)。
- データセットにフィルタをかける (特定のしきい値に達していない抽出結果を自動処理から除外する)。
- 条件付きワークフローを作成する (信頼度の高い抽出結果を自動的に承認する一方、信頼度の低い抽出結果に手動レビューのフラグを付ける)。
ベストプラクティス
- フィールドに明確な説明を追加する。
- あなたが何を求めているのかを具体的に記述し、そのデータが一般的に出現する場所に関するコンテキストを含めます。
- テストを実行し、繰り返します。特定のドキュメントタイプやユースケースに見られる信頼度のパターンを監視します。
- 信頼度の高い抽出結果が実際に正しいものであった頻度を調べ、ワークフローのデータ精度に応じてしきい値を調整します。
- 人間の判断の代わりにスコアを使用するのではなく、優先順位を決めるためにスコアを使用します。
モデルのサポート
現在、信頼度の推定機能はGoogle Geminiモデルで使用できます。gemini-2.5-flashgemini-2.5-pro
ai_agent_info.modelsによって確認できます。
