アプリのパフォーマンス・ダッシュボードを拡張する
注釈:本資料はAI技術を用いて翻訳されています。
はじめに
AccelByte Gaming Services (AGS) Extend Observabilityは、Extendアプリのパフォーマンスメトリクスを俯瞰できるGrafana Cloudダッシュボードへのアクセスを提供します。これらのダッシュボードを使用することで、詳細なログやメトリクスを読み込む必要なく、各Extendアプリの実行状況を素早く確認でき、問題を早期に発見してトラブルシューティングをより効率的に行うことができます。
この記事では、ダッシュボードへのアクセス方法、表示される情報、およびその情報の活用例について説明します。
前提条件
AGS Extend Observability ダッシュボードを使用するには、少なくとも1つの AGS Extend アプリ(Override、Service Extension、または Event Handler)を設定し、AGS と統合している必要があります。
ダッシュボードへのアクセス
Extend アプリのダッシュボードにアクセスするには、Observability の概要の手順を使用できます。Grafana Cloud にログインしたら、次の手順を実行します:
-
サイドバーの Dashboards をクリックします。
-
検索バーで「Extend dashboard」を検索します。利用可能な Extend ダッシュボードがリストに表示されます。
-
表示したいダッシュボードをクリックします:
All Extend Apps Performance ダッシュボード
All Extend Apps Performance ダッシュボードには、すべてのゲーム名前空間にわたる AGS Extend アプリのパフォーマンス・メトリクスを示すパネルのセクションが含まれています。特定のゲーム名前空間からの Extend アプリのデータを生成したい場合は、ダッシュボード上部の Game Namespace フィルターを使用します。また、アプリ ID、名前、シナリオなどのデフォルトおよびカスタムフィルターを適用して、ダッシュボードに表示されるデータを絞り込むこともできます。
生成したいデータの期間も必ず指定してください。期間設定はダッシュボードの右上にあり、デフォルトでは過去30分に設定されています。
All Extend Apps Performance ダッシュボードには、次のパネルが含まれています:
Overview セクション
このセクションのパネルは、すべての Extend アプリの一般情報と基本的なパフォーマンス・メトリクスを表示します:
Total Game Namespace パネル
アクティブにデプロイされたイメージを持つ Extend アプリがあるゲーム名前空間の総数を表示します。
Total App パネル
アクティブにデプロイされたイメージを持つ Extend アプリの総数を表示します。
App Information パネル
アクティブにデプロイされたイメージを持つすべての Extend アプリをリスト表示し、各アプリの ID、名前、ソースゲーム名前空間、および Extend シナリオ(またはアプリタイプ)を表示します。
Deployment Duration パネル
Extend アプリのデプロイメントをリスト表示し、各デプロイメントの日付、時刻、および期間を表示します。
Failed Deployment (count) パネル
イメージデプロイメントの失敗回数が最も多い上位3つの Extend アプリを表示します。
Timeout Deployment (count) パネル
デプロイメントタイムアウト期間制限を超えたイメージデプロイメント試行回数が最も多い上位3つの Extend アプリを表示します。
CPU Usage (service) パネル
指定された期間内の CPU 使用量を示すグラフを表示します。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
Memory Usage (service) パネル
Extend アプリのメモリ使用量を示すグラフを表示します。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
Replica Count & Limit パネル
アクティブにデプロイされたイメージを持つ Extend アプリのレプリカ数を示すグラフを表示します。
Total Service Error Logs パネル
アクティブにデプロイされたイメージを持つ Extend アプリから生成されたサービスエラーログの数を示すグラフを表示します。
Service Error Logs パネル
アクティブにデプロイされたイメージを持つすべての Extend アプリから生成された最新20件のサービスエラーログをリスト表示します。
Overridable feature セクション
このセクションのパネルは、Extend Override アプリに固有のパフォーマンス情報を表示します。
Received Rate パネル
Extend Override アプリから AGS が受信したリクエストのレートです。
Response Rate per Status Code パネル
AGS が Extend Override アプリに対して行ったレスポンスのレートを、gRPC ステータスコード別に分類して表示します。
Response Latency パネル
Override アプリから AGS がリクエストを受信してから AGS がレスポンスを送信するまでの遅延をミリ秒単位で示すグラフです。
Event Handler セクション
このセクションのパネルは、Extend Override アプリに固有のパフォーマンス情報を表示します。
Record Read Total パネル
Event Handler アプリがリッスンした Kafka Connect イベントの数を示すグラフです。
Records Consumed Rate パネル
Event Handler アプリがリッスンして消費した Kafka Connect イベントの数を示すグラフです。
Records Lag パネル
リクエスト時に処理に失敗したイベントの数です。
Service Extension セクション
このセクションのパネルは、Service Extension アプリに固有のパフォーマンス情報を表示します。
Request Success Rate/5m (Linkerd) パネル
Event Handler アプリから AGS バックエンドへの5分あたりの成功した HTTP リクエストのレートを示すグラフです。
Response Latency パネル
Override アプリから AGS がリクエストを受信してから AGS がレスポンスを送信するまでの遅延をミリ秒単位で示すグラフです。
5xx/5m (Linkerd) パネル
ステータスコードが400〜499(サーバーエラーレスポンス)の完了した HTTP レスポンスの数で、AGS バックエンドの一時的な問題を示します。
Event Handler ダッシュボード
Event Handler (EH) ダッシュボードには、AGS Extend Event Handler アプリのパフォーマンス・メトリクスを示すパネルのセクションが含まれています。
特定の Event Handler アプリのデータを表示するには、ダッシュボード上部で環境とゲーム名前空間を設定します。次に、App ドロップダウンから表示したいアプリを選択します。ダッシュボードには、選択したアプリのデータが表示されます。
各セクションにあるパネルと、それらが伝える情報の説明については、以下を参照してください。
EH Overview セクション
このセクションのパネルは、アプリの一般情報と基本的なパフォーマンス・メトリクスを表示します。
このセクションの特定のパネル情報については、以下を参照してください。
EH App Information パネル
一般的なアプリ情報です。
- App ID: このアプリの ID で、コードで使用されます。
- App: アプリの名前です。
- Game Namespace: このアプリが属するゲーム名前空間です。
- Extend Scenario: AGS Extend アプリのタイプ(
event-handler、function-override、またはservice-extension)です。
EH App Creation Duration パネル
選択したアプリの作成にかかった時間(分単位)です。
EH Deployment Duration パネル
選択したアプリのイメージデプロイメントに関する情報です。各項目は、デプロイされた新しいイメージバージョンを表します。
- deployment_time: イメージがデプロイされた日時です。
- deployment_id: デプロイされたイメージの ID です。
- deployment_duration: このイメージのデプロイにかかった時間(秒単位)です。
このパネルの情報を使用して、イメージデプロイメントの問題をトラブルシューティングできます。たとえば、特定のイメージがデプロイされたときにパフォーマンスが低下し始めた場合、または特定のイメージの deployment_duration が他のデプロイメントよりも長くかかった場合、その特定のイメージに問題がないか調査する価値があります。イメージに問題が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
EH Failed Deployment (count) パネル
失敗したイメージデプロイメント試行の数です。
失敗したデプロイメント試行の数が多い場合、イメージデプロイメントプロセスに問題がある可能性があります。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
EH Timeout Deployment (count) パネル
デプロイメントタイムアウト期間制限を超えたイメージデプロイメント試行の数です。
イメージのデプロイに時間がかかりすぎるパターンがある場合、デプロイメントプロセスに非効率的なロジックがある可能性があります。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
EH Replica Count & Limit パネル
選択した Extend アプリに対して作成されたレプリカの数と、作成できるレプリカの最大数です。レプリカはアプリで利用可能なリソースを増やします。このアプリの CPU またはメモリ使用率が80%を超えると、新しいレプリカが作成されます。
レプリカ数がレプリカ制限に達している場合は、AccelByte サポートに連絡してレプリカ制限の増加について相談するか、リソース使用率を減らすためのサポートを受けることができます。
EH Container OOMKilled per Replica パネル
Out of Memory Killed (OOMKilled) です。メモリ不足により強制終了または停止されたレプリカのリストです。
EH Service Container CPU Usage パネル
選択した期間内の CPU 使用量を示すグラフです。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
このグラフは、選択したアプリの CPU 使用量のみを表示します。他のアプリやサービスとの CPU 使用量の集計ではありません。
EH Service Container Memory Usage パネル
選択した期間内のメモリ使用量を示すグラフです。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
このグラフは、選択したアプリのメモリ使用量のみを表示します。他のアプリやサービスとのメモリ使用量の集計ではありません。
EH Total Service Error Logs パネル
選択した期間内に生成されたエラーログの数を示すグラフです。時刻にカーソルを合わせると、その時刻に生成されたログの数が表示されます。
これを使用して、より多くのエラーが発生し始めた時期を確認できます。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
EH Service Error Logs パネル
生成された最新20件のエラーログです。
これにより、生成された最新のエラーログが表示され、現在の問題を解決するのに役立ちます。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
EH Kafka Connect セクション
このセクションのパネルは、Kafka Connect とイベントの消費に関連する情報を表示します。
このセクションの特定のパネル情報については、以下を参照してください。
EH Partition Count パネル
このアプリに割り当てられたトピックパーティション(またはイベントソース)の数を示すグラフです。
EH Record Read Total パネル
このアプリがリッスンした Kafka Connect イベントの数を示すグラフです。
この情報を使用して、アプリが多くのリクエストを受信する時間帯を確認でき、トラブルシューティングとエラー防止に役立ちます。
EH Records Consumed Rate パネル
このアプリがリッスンして消費した Kafka Connect イベントの数を示すグラフです。
レコード読み取りと一致しない消費レートは、ロジックの問題またはリソース不足を示している可能性があります。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
EH Records Lag パネル
リクエスト時に処理できなかったイベントの数です。
レコードに遅延が発生する傾向がある場合、アプリへのリクエストの需要を処理するためのリソースが不足している可能性があります。AccelByte サポートに連絡して、アプリへのリソース割り当ての増加について相談できます。
Overridable Features ダッシュボード
Overridable Features (OF) ダッシュボードには、AGS Extend Override アプリのパフォーマンス・メトリクスを示すパネルのセクションが含まれています。
特定の Extend Override アプリのデータを表示するには、ダッシュボード上部で環境とゲーム名前空間を設定します。次に、App ドロップダウンから表示したいアプリを選択します。ダッシュボードには、選択したアプリのデータが表示されます。
各セクションにあるパネルと、それらが伝える情報の説明については、以下を参照してください。
OF Overview セクション
このセクションのパネルは、アプリの一般情報と基本的なパフォーマンス・メトリクスを表示します。
このセクションの特定のパネル情報については、以下を参照してください。
OF App Information パネル
一般的なアプリ情報です。
- App ID: このアプリの ID で、コードで使用されます。
- App: アプリの名前です。
- Game Namespace: このアプリが属するゲーム名前空間です。
- Extend Scenario: AGS Extend アプリのタイプ(
event-handler、function-override、またはservice-extension)です。
OF App Creation Duration パネル
選択したアプリの作成にかかった時間(分単位)です。
OF Deployment Duration パネル
選択したアプリのイメージデプロイメントに関する情報です。各項目は、デプロイされた新しいイメージバージョンを表します。
- deployment_time: イメージがデプロイされた日時です。
- deployment_id: デプロイされたイメージの ID です。
- deployment_duration: このイメージのデプロイにかかった時間(秒単位)です。
このパネルの情報を使用して、イメージデプロイメントの問題をトラブルシューティングできます。たとえば、特定のイメージがデプロイされたときにパフォーマンスが低下し始めた場合、または特定のイメージの deployment_duration が他のデプロイメントよりも長くかかった場合、その特定のイメージに問題がないか調査する価値があります。イメージに問題が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
OF Failed Deployment (count) パネル
失敗したイメージデプロイメント試行の数です。
失敗したデプロイメント試行の数が多い場合、イメージデプロイメントプロセスに問題がある可能性があります。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
OF Timeout Deployment (count) パネル
デプロイメントタイムアウト期間制限を超えたイメージデプロイメント試行の数です。
イメージのデプロイに時間がかかりすぎるパターンがある場合、デプロイメントプロセスに非効率的なロジックがある可能性があります。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
OF Replica Status
選択したアプリのレプリカのステータスを表示します。
OF Replica Count & Limit パネル
選択した Extend アプリに対して作成されたレプリカの数と、作成できるレプリカの最大数です。レプリカはアプリで利用可能なリソースを増やします。このアプリの CPU またはメモリ使用率が80%を超えると、新しいレプリカが作成されます。
レプリカ数がレプリカ制限に達している場合は、AccelByte サポートに連絡してレプリカ制限の増加について相談するか、リソース使用率を減らすためのサポートを受けることができます。
OF Container OOMKilled per Replica パネル
Out of Memory Killed (OOMKilled) です。メモリ不足により強制終了または停止されたレプリカのリストです。
OH Service Container CPU Usage
選択した期間内の CPU 使用量を示すグラフです。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
このグラフは、選択したアプリの CPU 使用量のみを表示します。他のアプリやサービスとの CPU 使用量の集計ではありません。
OH Service Container Memory Usage
選択した期間内のメモリ使用量を示すグラフです。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
このグラフは、選択したアプリのメモリ使用量のみを表示します。他のアプリやサービスとのメモリ使用量の集計ではありません。
OF Total Service Error Logs パネル
選択した期間内に生成されたエラーログの数を示すグラフです。時刻にカーソルを合わせると、その時刻に生成されたログの数が表示されます。
これを使用して、より多くのエラーが発生し始めた時期を確認できます。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
OF Service Error Logs パネル
生成された最新20件のエラーログです。
これにより、生成された最新のエラーログが表示され、現在の問題を解決するのに役立ちます。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
OF gRPC セクション
このセクションのパネルは、gRPC リクエストとレスポンスに関連する情報を表示します。
このセクションの特定のパネル情報については、以下を参照してください。
OF Response Rate パネル
選択した Extend アプリが受信したリクエストに対して AGS が行ったレスポンスの数です。
受信レートとレスポンスレートに不一致がある場合、AGS バックエンドの一時的な問題を示している可能性があります。これが発生した場合は、AccelByte サポートに連絡して詳細情報を入手してください。
OF Response Rate per Status Code パネル
選択した Extend アプリに対して AGS が行ったレスポンスのレートを、gRPC ステータスコード別に分類して表示します。
この数値を使用して、Extend アプリが行うと予想されるリクエストの数と、AGS がステータスコード別に受信する数を比較できます。不一致がある場合は、問題を調査できます。原因を特定できない場合は、AccelByte サポートに連絡してサポートを受けることができます。
OF Response Latency パネル
選択した Extend アプリから AGS がリクエストを受信してから AGS がレスポンスを送信するまでの遅延をミリ秒単位で示すグラフです。
レスポンス時間の大幅な遅延は、AGS バックエンドの一時的な速度低下を示している可能性があります。これが発生した場合は、AccelByte サポートに連絡して詳細情報を入手してください。
OF Received Rate パネル
選択した Extend アプリから AGS が受信したリクエストのレートです。
この数値を使用して、Extend アプリが行うと予想されるリクエストの数と、AGS が受信する数を比較できます。不一致がある場合は、問題を調査できます。原因を特定できない場合は、AccelByte サポートに連絡してサポートを受けることができます。
Service Extension ダッシュボード
Service Extension (SE) ダッシュボードには、AGS Extend Service Extension アプリのパフォーマンス・メトリクスを示すパネルのセクションが含まれています。
特定の Service Extension アプリのデータを表示するには、ダッシュボード上部で環境とゲーム名前空間を設定します。次に、App ドロップダウンから表示したいアプリを選択します。ダッシュボードには、選択したアプリのデータが表示されます。
各セクションにあるパネルと、それらが伝える情報の説明については、以下を参照してください。
SE Overview セクション
このセクションのパネルは、アプリの一般情報と基本的なパフォーマンス・メトリクスを表示します。
このセクションの特定のパネル情報については、以下を参照してください。
SE App Information パネル
一般的なアプリ情報です。
- App ID: このアプリの ID で、コードで使用されます。
- App: アプリの名前です。
- Game Namespace: このアプリが属するゲーム名前空間です。
- Extend Scenario: AGS Extend アプリのタイプ(
event-handler、function-override、またはservice-extension)です。
SE App Creation Duration パネル
選択したアプリの作成にかかった時間(分単位)です。
SE Deployment Duration パネル
選択したアプリのイメージデプロイメントに関する情報です。各項目は、デプロイされた新しいイメージバージョンを表します。
- deployment_time: イメージがデプロイされた日時です。
- deployment_id: デプロイされたイメージの ID です。
- deployment_duration: このイメージのデプロイにかかった時間(秒単位)です。
このパネルの情報を使用して、イメージデプロイメントの問題をトラブルシューティングできます。たとえば、特定のイメージがデプロイされたときにパフォーマンスが低下し始めた場合、または特定のイメージの deployment_duration が他のデプロイメントよりも長くかかった場合、その特定のイメージに問題がないか調査する価値があります。イメージに問題が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
SE Failed Deployment (count) パネル
失敗したイメージデプロイメント試行の数です。
失敗したデプロイメント試行の数が多い場合、イメージデプロイメントプロセスに問題がある可能性があります。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
SE Timeout Deployment (count) パネル
デプロイメントタイムアウト期間制限を超えたイメージデプロイメント試行の数です。
イメージのデプロイに時間がかかりすぎるパターンがある場合、デプロイメントプロセスに非効率的なロジックがある可能性があります。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
SE Replica Status
選択したアプリのレプリカのステータスを表示します。
SE Replica Count & Limit パネル
選択した Extend アプリに対して作成されたレプリカの数と、作成できるレプリカの最大数です。レプリカはアプリで利用可能なリソースを増やします。このアプリの CPU またはメモリ使用率が80%を超えると、新しいレプリカが作成されます。
レプリカ数がレプリカ制限に達している場合は、AccelByte サポートに連絡してレプリカ制限の増加について相談するか、リソース使用率を減らすためのサポートを受けることができます。
SE Container OOMKilled per Replica パネル
Out of Memory Killed (OOMKilled) です。メモリ不足により強制終了または停止されたレプリカのリストです。
SE Service Container CPU Usage
選択した期間内の CPU 使用量を示すグラフです。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
このグラフは、選択したアプリの CPU 使用量のみを表示します。他のアプリやサービスとの CPU 使用量の集計ではありません。
SE Service Container Memory Usage
選択した期間内のメモリ使用量を示すグラフです。グラフにカーソルを合わせると、特定の使用量と時刻の詳細が表示されます。
このグラフは、選択したアプリのメモリ使用量のみを表示します。他のアプリやサービスとのメモリ使用量の集計ではありません。
SE Total Service Error Logs パネル
選択した期間内に生成されたエラーログの数を示すグラフです。時刻にカーソルを合わせると、その時刻に生成されたログの数が表示されます。
これを使用して、より多くのエラーが発生し始めた時期を確認できます。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
SE Service Error Logs パネル
生成された最新20件のエラーログです。
これにより、生成された最新のエラーログが表示され、現在の問題を解決するのに役立ちます。問題の原因が見つからない場合は、AccelByte サポートに連絡してサポートを受けることができます。
SE HTTP セクション
このセクションのパネルは、HTTP リクエストとレスポンスに関連するメトリクスを表示します。
このセクションの特定のパネル情報については、以下を参照してください。
SE Request Success Rate/5m (Linkerd) パネル
選択した Extend アプリから AGS バックエンドへの5分あたりの成功した HTTP リクエストのレートを示すグラフです。
SE Response Latency パネル
選択した Extend アプリから AGS バックエンドが HTTP リクエストを受信してから AGS がレスポンスを送信するまでの遅延をミリ秒単位で示すグラフです。
レスポンス時間の大幅な遅延は、AGS バックエンドの一時的な速度低下を示している可能性があります。これが発生した場合は、AccelByte サポートに連絡して詳細情報を入手してください。
SE 2xx/5m (Linkerd) パネル
ステータスコードが200〜299(正常に完了)の完了した HTTP レスポンスの数です。
SE 4xx/5m (Linkerd) パネル
ステータスコードが400〜499(クライアントエラーレスポンス)の完了した HTTP レスポンスの数で、選択した Extend アプリの問題を示します。
これらのエラーは、クライアント(Extend アプリ)の問題を示しています。アプリをトラブルシューティングして、エラーの原因を確認してください。原因を特定できない場合は、AccelByte サポートに連絡してサポートを受けてください。
SE 5xx/5m (Linkerd) パネル
ステータスコードが400〜499(サーバーエラーレスポンス)の完了した HTTP レスポンスの数で、AGS バックエンドの一時的な問題を示します。
これらのエラーは、AGS バックエンドの一時的な問題を示しています。これが発生した場合は、AccelByte サポートに連絡して詳細情報を入手してください。