記事: https://zenn.dev/waddy/articles/cloud-run-scale-max-instances
読み取れるスケーリング条件
- インスタンスを採番し、それを 0 から順に見ていき、最初に同時接続制限の空きスロットがあるインスタンスにリクエストを dispatch する。
- 空きがない状態が発生すれば、スケーリング。
- CPU 利用率を見て、全体の平均の利用率が 60 % を越えた時に、投機的にスケーリング。
Tear Down についての考察
リクエストは採番の若い方になるべく集中されるので、末尾のインスタンスにおいて一定時間リクエスト処理がなければ、順次 tear down していってる、と考えられる。