メタデータ信頼度レベル

メタデータ信頼度レベルは、BoxのAIを利用したメタデータ抽出の精度の信頼度を表す尺度です。信頼度スコアは、抽出されたフィールドの値が正しいものである可能性を表す推測値で、0～1の範囲の数値になります。信頼度スコアが大きいほど、抽出されたフィールド値が正しい可能性が高くなります。

信頼度スコアは保存されることも、ログに記録されることもなく、APIレスポンスの中にのみ存在します。信頼度スコアを監査または追跡する必要がある場合、自分で信頼度スコアをキャプチャして保存しなければなりません。現状では、この機能は/ai/extract_structuredエンドポイントのみに制限されています。

信頼度スコアを使用するには、抽出 (構造化) リクエストに"include_confidence_score": trueを追加します。

curl -L 'https://api.box.com/2.0/ai/extract_structured' \
  -H 'content-type: application/json' \
  -H "authorization: Bearer $BOX_TOKEN" \
  -d '{
    "items": [
      {
        "type": "file",
        "id": "16550157147"
      }
    ],
    "fields": [
      {"key": "document_title"},
      {"key": "document_type"}
    ],
    "include_confidence_score": true
  }'

レスポンス:

{
  "answer": {
    "document_title": "Albert Einstein",
    "document_type": "Resume"
  },
  "ai_agent_info": {
    "processor": "basic_text",
    "models": [
      {
        "name": "google__gemini_2_5_flash",
        "provider": "google"
      }
    ]
  },
  "created_at": "2025-11-26T02:04:33.194-08:00",
  "completion_reason": "done",
  "confidence_score": {
    "document_title": {
      "level": "MEDIUM",
      "score": 0.875
    },
    "document_type": {
      "level": "LOW",
      "score": 0.5
    }
  }
}

confidence_scoreオブジェクトに、各フィールドの信頼度レベルが含まれます。これにはlevel値とscore値が含まれます。 scoreは0～1の値です。levelは次のいずれかの値になります。

LOW
MEDIUM
HIGH

信頼度レベルの評価

Boxでは次のしきい値を推奨しています。

スコアの範囲	信頼度レベル	推奨アクション
0.90以上	高	レスポンスを了承
0.70～0.89	中	レスポンスを検証
0.70未満	低	レスポンスをレビュー

評価の際には、リスクの許容度、ユースケースの重要性、さらに抽出をどの程度までテストし検証したかを考慮する必要があります。たとえば、少数のエラーが許容されるコンテンツライブラリ内のドキュメントのタグ付けであれば、0.70というスコアでも許容されます。一方、請求書からの財務データの抽出については、そのスコアは許容されません。

推奨されているしきい値は厳密なものではなく、また時間が経過して使用可能なテストデータが増えれば変化していく可能性があります。

制限

信頼度レベルは抽出されたフィールドの値の精度を保証するものではなく、いくつかの制約があります。

信頼度スコアは保証ではない

スコアが高いほど、抽出されたフィールドの値が正確である可能性が高まりますが、それでもエラーが発生する可能性は残ります。スコアが非常に高くても、抽出が正確であることは保証されません。信頼度スコアにかかわらず、重要なデータは必ず検証するようにしてください。

コンテキストが重要

信頼度スコアは、そのモデルがデータをどの程度まで理解しているかによって決まりますが、モデルは人間のレビューアーであれば認識できるビジネス固有の詳細情報を考慮しません。例: あなたは請求書の抽出用に、company_nameという名前のフィールドを作成しました。モデルにとっては、この名前がベンダーと顧客のどちらを表すのか判別することが難しく、そのため信頼度スコアが低くなる可能性があります。フィールドの説明を明確かつ具体的に記述することが重要です。入力するコンテキストが増えれば、モデルは抽出データをより適切に評価することができます。

人間によるレビューワークフローを組み込む

抽出データの精度を確保するには、人間参加型のワークフローが欠かせません。すべての抽出データを信頼するのでも、すべてのスコアを人間がレビューするのでもなく、プログラムによって信頼度の低いフィールドを人間による検証作業に回すことができます。そのようなワークフローを実現するにはカスタム実装が必須です。次の処理が必要になります。

レスポンスに含まれるconfidence_scoreオブジェクトを解析します。
各フィールドのスコアをしきい値と比較します。
信頼度の低い抽出結果をレビューキューに送ります。
人間が値を確認して修正するためのメカニズムを実装します。

一般的なユースケースには、次のようなものがあります。

信頼度スコアを使用してレビューキューの優先順位を付ける (信頼度の低い抽出結果を先に処理する)。
データセットにフィルタをかける (特定のしきい値に達していない抽出結果を自動処理から除外する)。
条件付きワークフローを作成する (信頼度の高い抽出結果を自動的に承認する一方、信頼度の低い抽出結果に手動レビューのフラグを付ける)。

ベストプラクティス

フィールドに明確な説明を追加する。
あなたが何を求めているのかを具体的に記述し、そのデータが一般的に出現する場所に関するコンテキストを含めます。
テストを実行し、繰り返します。特定のドキュメントタイプやユースケースに見られる信頼度のパターンを監視します。
信頼度の高い抽出結果が実際に正しいものであった頻度を調べ、ワークフローのデータ精度に応じてしきい値を調整します。
人間の判断の代わりにスコアを使用するのではなく、優先順位を決めるためにスコアを使用します。

モデルのサポート

現在、信頼度の推定機能はGoogle Geminiモデルで使用できます。

gemini-2.5-flash
gemini-2.5-pro

使用されるモデルは構成によって異なりますが、リクエストの処理に使用されたモデルの種類はレスポンスに含まれるai_agent_info.modelsによって確認できます。

​信頼度レベルの評価

​制限

​信頼度スコアは保証ではない

​コンテキストが重要

​人間によるレビューワークフローを組み込む

​ベストプラクティス

​モデルのサポート

信頼度レベルの評価

制限

信頼度スコアは保証ではない

コンテキストが重要

人間によるレビューワークフローを組み込む

ベストプラクティス

モデルのサポート