After Bai-Ng (2002) you know how many factors to pull out. But you don't yet know:
Bai (2003) answers all three. It's the inference layer for PCA factor estimation in the same approximate factor model.
Bai's paper uses the phrase "approximate factor model" as if everyone knows what it means. Worth pinning down before the formal setup. Asset-pricing models come in three flavours of increasing realism:
One observed factor (market return), constant loading $\beta_i$ per stock, constant intercept $\alpha_i$. Classical assumption: $\varepsilon_{it}$ is i.i.d. across stocks and over time — the noise covariance $\text{Cov}(\varepsilon)$ is a diagonal matrix, every stock's idiosyncratic shock independent of every other's.
$K$ observed factors (market, size, value, momentum, profitability, …). Still assumes $\varepsilon_{it}$ are cross-sectionally uncorrelated — factors are supposed to capture all the comovement.
Clean on the chalkboard. Doesn't survive real data: even after controlling for FF5, residuals across stocks remain correlated — sector-specific news, supply-chain shocks, fund-flow effects all leak through.
Same equation form, but the noise assumption is relaxed:
$$ X_{it} = \lambda_i'\, F_t + e_{it} $$The word "approximate" refers to this relaxation. Ross's "exact" APT (1976) demanded uncorrelated $e_{it}$; Chamberlain-Rothschild's "approximate" version allows weak correlation but draws the line at the eigenvalue-scaling gap above.
Why finance needs the relaxation. In equity panels, residuals are always weakly correlated — that's just reality. Forcing exact-factor assumptions makes the model unidentifiable from data because the math says "if residuals are correlated at all, the structure could explain it instead of factors." Approximate-factor relaxes this so identification works.
This eigenvalue-scaling gap is the identification source when $K$ is unknown and $F_t$ is latent. From here, the standard terminology:
| Term | Meaning |
|---|---|
| Strong factors | Top-$K$ eigenvalues scale linearly in $N$. Signal grows with universe; PCA picks them out cleanly. |
| Weak factors | Top-$K$ eigenvalues bounded or grow slowly. S/N stays bounded; standard PCA can over-select. (Onatski 2010 designs an estimator for this regime.) |
| Common component | $\lambda_i' F_t$ — the part factors explain. |
| Idiosyncratic component | $e_{it}$ — the rest. Weak correlation allowed, independence not assumed. |
| Large-$N$, large-$T$ asymptotics | Both panel dimensions grow. Large $N$ identifies factors via cross-section (top eigenvalues separate from the bulk). Large $T$ identifies loadings via time-series (each $\lambda_i$ averaged over $T$ months). |
CAPM and Fama-French sit in case (2): factors are pre-specified and named. Approximate factor models sit in case (3) and do not pre-specify what the factors are — they're whatever the top-$K$ eigenvalues of return covariance pick out. The model is agnostic about factor meaning but cleanly identifies how many there are and how each stock loads.
When AOF runs PCA-style estimators (regressed-PCA, IPCA), we are in case (3). The papers in this learning base all work under approximate-factor assumptions and use the eigenvalue gap as their identification source. The rest of Bai's paper builds the inference layer on top of this setup.
§1.5 still relies on terms (covariance matrix, eigenvalue, AIC/BIC, "consistent") that need their own ground-up explanation. Here is each, with finance-concrete examples.
A covariance matrix for $N$ stocks' noise terms is an $N \times N$ grid:
A diagonal matrix has all off-diagonals = 0 — i.e., no two stocks' noises are correlated. Strong claim.
Finance intuition. Are Toyota's and Sony's company-specific shocks (earnings surprises, scandals, new-product cycles) truly independent? In real data, no — JPY-USD moves, BoJ policy, global business cycle all leak through as "factor-residual" effects that hit both at once. So in practice the diagonal assumption breaks. Chamberlain-Rothschild relaxed it: no factor-strength correlation allowed, but weak correlation between residuals is fine.
An eigenvalue of a covariance matrix measures the magnitude of one principal axis of variation. The largest eigenvalue = "how big is the most dominant direction in which the data moves".
Why one grows and the other doesn't.
Consequence. The gap between factor and noise eigenvalues grows with $N$. With 10 stocks you can barely tell signal from noise. With 5,000 stocks, the top factor eigenvalue is hundreds of times larger than noise eigenvalues. That gap is what makes PCA work — and exactly what the eigenvalue-ratio selector $\hat K$ measures.
Strong factor. Example: market beta. Every stock loads positively on the market (some more, some less). As $N$ grows, more loadings stack in the same direction → eigenvalue scales linearly.
Weak factor. Example: a niche sector theme like the 2024 AI-CapEx narrative. Meaningful for ~50 stocks, ~zero for the other ~4,950. Even with large $N$, eigenvalue stays small. Standard PCA can mistake it for noise (or noise for it).
Common component $\lambda_i' F_t$. Example: of Toyota's 3% return this month, suppose market contributes +0.5%, size factor +0.3%, value factor −0.1%. Total of 0.7% is the common component — explained by factors.
Idiosyncratic component $e_{it}$. The remaining $3.0\% - 0.7\% = 2.3\%$ — Toyota-specific news (CEO change, EV announcement, recall). Not assumed independent of Honda or Nissan — same-industry residual correlation is allowed.
Large-$N$, large-$T$ asymptotics. Statistical jargon for "both panel dimensions are big enough that asymptotic theory applies". CRSP US monthly: $N \approx 5{,}000$, $T \approx 700$ — both large. J-Quants Japan: $N \approx 4{,}000$, $T \approx 200$ — both large. By contrast, "S&P 500 monthly over 5 years" has $N = 500$, $T = 60$ — both small, asymptotic theorems don't kick in.
Scree plot. Literally a chart of eigenvalues in descending order. You eyeball where they "elbow" (the kink between fast and slow decay) and pick $\hat K$ at the elbow.
eigenvalue ↑ | * | * | * ← elbow at K=3 | · · · · · · | +─────────→ rank
Problem: subjective. Two analysts looking at the same scree plot can pick $K=3$ vs. $K=5$ depending on visual judgement. No reproducibility, no formal test.
AIC / BIC. Standard model-selection criteria from time-series econometrics: minimise error + penalty × parameter-count.
Problem: AIC/BIC were derived assuming "$N$ fixed, $T \to \infty$" or fully parametric models. In factor models, both $N$ and $T$ grow, and residuals are allowed to be weakly correlated. Standard AIC/BIC penalty rates don't match the asymptotic behaviour of $V(k)$ in this regime. Result: standard AIC/BIC either over-selects ($k = k_{\max}$ always) or under-selects ($k = 0$ always) — not consistent.
"Consistent" criterion. Statistical term: as $N, T \to \infty$, $\Pr(\hat K = K) \to 1$. Bai-Ng (2002) give the first criteria provably satisfying this in the approximate-factor regime. Their innovation: introduce a new rate condition — penalty must shrink slower than $\min(N,T)^{-1}$ — and design the $\text{PC}_p$ / $\text{IC}_p$ families to satisfy it.
Assumptions: $K$ known (or consistently estimated from BN); factor strengths "strong" (eigenvalues of $\Lambda'\Lambda/N$ bounded away from zero); $e_{it}$ allows weak cross-sectional and serial correlation.
Without restrictions, factors are not identified — for any invertible $H$, $X = (\Lambda H)(H^{-1} F) + e$ is observationally equivalent. PCA picks a particular normalisation:
$$ H = \frac{1}{T} V_{NT}^{-1} \, \hat F' F \, \frac{\Lambda'\Lambda}{N}, $$where $V_{NT}$ is the diagonal matrix of the top-$K$ eigenvalues of $XX'/(NT)$. Data-dependent but well-defined asymptotically.
When you report $\hat F$ you're reporting a rotation $H'F$ of the true factor. Coefficients in regressions on $\hat F$ are rotated accordingly. The fitted value $\hat\lambda_i'\hat F_t = (H^{-1}\lambda_i)'(H'F_t) = \lambda_i'F_t$ is rotation-invariant — so $R^2$-style measures are clean.
where $V_t$ is computable from cross-sectional moments of $\lambda_i$ and $e_{it}$. Rate $\sqrt N$: more stocks → sharper factor.
$W_i$ from temporal moments. Rate $\sqrt T$: longer samples → sharper loading.
| Question | Answer |
|---|---|
| Can I report a 95% CI on $\hat F_t$? | Yes, but on $H'F_t$, not $F_t$. Usually OK if you only need to explain returns. |
| Can I test $\lambda_i = 0$? | Yes, against $H^{-1}\lambda_i = 0$, which is equivalent under invertible $H$. |
| Can I report a CI on fitted return $\hat\lambda_i'\hat F_t$? | Yes — clean, rotation-invariant. |
| What if $T$ is small (rolling window)? | Bai's asymptotics fail. Use bootstrap (CRW 2023). |
Use Bai (2003) analytic SEs where panel is long ($T \geq 120$) and universe stable:
Use CRW bootstrap where:
Both coexist in the production pipeline — pick by sample size at run time.
Bai-Ng (2002) でファクター数は決められる。だがまだわからないこと:
Bai (2003) は 3 つすべてに答える。同じ近似ファクターモデルでの PCA 推定に対する推測層。
Bai 論文では「近似ファクターモデル(approximate factor model)」という用語が説明なしに使われる。形式設定に入る前に整理しておく。アセットプライシング・モデルは現実度の段階で 3 つに分けられる:
観測可能なファクター 1 つ(マーケットリターン)、各銘柄に固定ローディング $\beta_i$、固定の切片 $\alpha_i$。古典的仮定:$\varepsilon_{it}$ は銘柄間でも時間軸でも i.i.d. — ノイズ共分散 $\text{Cov}(\varepsilon)$ は対角行列で、各銘柄の個別ショックは他のあらゆる銘柄から独立。
観測可能なファクター $K$ 個(マーケット、規模、バリュー、モメンタム、収益性、…)。依然として $\varepsilon_{it}$ は銘柄間で無相関と仮定 — ファクターが共動のすべてを捉えていることが前提。
教科書では綺麗。実データには通用しない:FF5 を控除しても残差は銘柄間で相関する — 業種ニュース、サプライチェーンショック、ファンドフロー効果などが残る。
式の形は同じ、しかしノイズの仮定を緩める:
$$ X_{it} = \lambda_i'\, F_t + e_{it} $$「近似」という言葉はこの緩和を指す。Ross の「厳密」APT (1976) は $e_{it}$ の無相関を要求した;Chamberlain-Rothschild の「近似」版は弱い相関を許すが、上の固有値スケーリングのギャップで線を引く。
なぜファイナンスでこの緩和が必要か。株式パネルでは残差は常に弱く相関している — それが現実。厳密ファクター仮定を強制すると、「残差が少しでも相関するなら、その構造がファクターの代わりに説明してしまう」とモデルがデータから識別不能になる。近似ファクターはこれを緩めて識別を可能にする。
この固有値スケーリングのギャップが、$K$ が未知で $F_t$ が潜在変数のままモデルを識別する源泉。標準用語:
| 用語 | 意味 |
|---|---|
| 強い因子 | 上位 $K$ 固有値が $N$ に線形成長。ユニバースとともにシグナルが成長し、PCA がクリーンに拾える。 |
| 弱い因子 | 上位 $K$ 固有値が有界 or 緩慢な成長。S/N が有界に留まり、標準 PCA は過大選択しうる。(Onatski 2010 はこの領域用の推定量。) |
| 共通成分 | $\lambda_i' F_t$ — ファクターが説明する分。 |
| 個別成分 | $e_{it}$ — 残り。弱相関は許容、独立は仮定しない。 |
| 大 $N$・大 $T$ 漸近 | パネル両次元が成長。大 $N$ がクロスセクションでファクターを識別(上位固有値が bulk から離れる)。大 $T$ が時系列でローディングを識別(各 $\lambda_i$ を $T$ ヶ月で平均化)。 |
CAPM と Fama-French はケース (2):ファクターは事前指定で名前がついている。近似ファクターモデルはケース (3) で、ファクターが何かを事前指定しない — リターン共分散の上位 $K$ 固有値が拾うものすべてがファクター。モデルはファクターの意味については agnostic だが、いくつあって各銘柄がどうロードするかをクリーンに識別する。
AOF が PCA 系の推定量(regressed-PCA、IPCA)を走らせるとき、設定はケース (3)。学習ベースのすべての論文は近似ファクター仮定の下で動き、固有値ギャップを識別の源泉とする。Bai (2003) はこの設定の上に推測層を載せる。
§1.5 はまだ用語(共分散行列、固有値、AIC/BIC、「一致性」)に依存している。それぞれを底から、ファイナンスの具体例で展開する。
$N$ 銘柄のノイズの共分散行列は $N \times N$ の格子状の表:
対角行列とは非対角成分がすべて 0 — つまりどの 2 銘柄のノイズも互いに無相関という強い主張。
ファイナンスの直感。 トヨタとソニーの「企業特有のショック」(決算サプライズ、不祥事、新製品サイクルなど)は本当に独立か?実データでは違う — 円ドル、日銀政策、グローバル景気サイクルが「ファクター残差」効果として両方に同時に効く。だから対角の仮定は実証的に破綻する。Chamberlain-Rothschild はこれを緩めた:ファクター強度の相関はまだ NG だが、残差間の弱い相関は OK。
固有値とは、共分散行列の主要な変動方向の大きさを測る数値。最大固有値 = 「データが最も大きく振れる方向の振幅」。
なぜ片方は成長し片方は留まるか。
帰結。 ファクター固有値とノイズ固有値のギャップが $N$ とともに広がる。$N = 10$ ではシグナルとノイズの区別がほぼつかない。$N = 5{,}000$ では、トップのファクター固有値はノイズ固有値の数百倍。このギャップが PCA を機能させる根拠 — そしてまさに固有値比セレクター $\hat K$ が測るもの。
強い因子。 例:マーケット(市場ベータ)。全銘柄が大なり小なり正にロード。$N$ を増やすと同方向のロードが積み重なる → 固有値が $N$ に線形成長。
弱い因子。 例:ニッチなセクターテーマ(2024 年の AI CapEx ナラティブ)。50 銘柄程度には効くが、残り 4,950 銘柄ではほぼゼロ。$N$ を増やしてもほとんどの銘柄でロードがゼロ → 固有値があまり伸びない。標準 PCA はこれをノイズと取り違えうる(逆も)。
共通成分 $\lambda_i' F_t$。 例:トヨタの今月リターン 3% のうち、マーケットが +0.5%、規模ファクターが +0.3%、バリューが −0.1% を寄与とする。合計 0.7% が共通成分 — ファクターで説明される分。
個別成分 $e_{it}$。 残り $3.0\% - 0.7\% = 2.3\%$ — トヨタ固有のニュース(社長交代、新型 EV 発表、リコールなど)。ホンダや日産のノイズと完全独立とは仮定しない — 同業他社との残差相関は許容する。
大 $N$・大 $T$ 漸近。 統計用語で「パネル両次元が漸近理論が効く程度に十分大きい」状態。CRSP 米国月次:$N \approx 5{,}000$、$T \approx 700$ — 両方大。J-Quants 日本:$N \approx 4{,}000$、$T \approx 200$ — 両方大。逆に「S&P 500 銘柄 × 5 年」だと $N = 500$、$T = 60$ — 両方小で漸近定理は効かない。
スクリープロット (scree plot)。 固有値を大きい順にプロットしたグラフ。視覚的に「肘 (elbow)」がある場所を $\hat K$ とする。
固有値 ↑ | * | * | * ← elbow at K=3 | · · · · · · | +─────────→ 順位
問題:主観的。同じスクリープロットを 2 人の分析者が見ても $K=3$ か $K=5$ かで意見が割れうる。再現性なし、形式的検定なし。
AIC / BIC。 時系列計量経済学の標準モデル選択基準。誤差 + ペナルティ × パラメータ数 の形。
問題:AIC・BIC は「$N$ 固定、$T \to \infty$」または完全パラメトリックモデルを前提に導出された。ファクターモデルでは $N$ も $T$ も増える、かつ残差が弱相関を許す。標準的な AIC/BIC ペナルティ速度はこの領域の $V(k)$ の漸近挙動と合わない。結果、標準 AIC/BIC は $k = k_{\max}$ を常に選ぶ(過大選択)か $k = 0$ を常に選ぶ(過小選択)のいずれかで、一致性がない。
「一致性ある (consistent) 基準」。 統計用語で「サンプルサイズ $N, T$ が ∞ に発散すると、選ばれた $\hat K$ が真の $K$ と一致する確率が 1 に収束する」。Bai-Ng (2002) は近似ファクター設定でこれを満たす最初の基準を与えた。技術的貢献:「ペナルティは $\min(N,T)^{-1}$ より遅く 0 に収束する必要がある」という新しい速度条件を導入し、$\text{PC}_p$ / $\text{IC}_p$ 族を設計してこれを満たした。
仮定:$K$ は既知(または BN から一致推定);ファクターは「強い」($\Lambda'\Lambda/N$ の固有値が 0 から有界に離れている);$e_{it}$ はクロス・時系列の弱相関を許容。
制約なしではファクターは識別不能 — 任意の可逆 $H$ について $X = (\Lambda H)(H^{-1}F) + e$ は観測同値。PCA は特定の正規化を選ぶ:
$$ H = \frac{1}{T} V_{NT}^{-1} \, \hat F' F \, \frac{\Lambda'\Lambda}{N}, $$$V_{NT}$ は $XX'/(NT)$ の上位 $K$ 固有値の対角行列。データ依存だが漸近的には well-defined。
$\hat F$ を報告するとき、それは真ファクターの回転 $H'F$ を報告している。$\hat F$ への回帰係数も対応して回転される。当てはめ値 $\hat\lambda_i'\hat F_t = (H^{-1}\lambda_i)'(H'F_t) = \lambda_i'F_t$ は回転不変 — したがって $R^2$ 系の指標はクリーン。
$V_t$ は $\lambda_i$ と $e_{it}$ のクロスセクション 2 次モーメントから計算可能。$\sqrt N$ レート:銘柄が多いほどファクターが鋭くなる。
$W_i$ は時系列モーメント。$\sqrt T$ レート:期間が長いほどローディングが鋭くなる。
| 問 | 答 |
|---|---|
| $\hat F_t$ の 95% CI は付けられるか? | 付けられるが、$F_t$ ではなく $H'F_t$ への CI。リターンを説明したいだけなら通常問題なし。 |
| $\lambda_i = 0$ を検定できるか? | $H^{-1}\lambda_i = 0$ を検定するかたちで可能($H$ が可逆なら等価)。 |
| 当てはめ値 $\hat\lambda_i'\hat F_t$ の CI は? | クリーンに付けられる、回転不変。 |
| $T$ が小さい場合は? | Bai の漸近論は破綻。ブートストラップ(CRW 2023)を使う。 |
パネルが長く($T \geq 120$)、ユニバースが安定している場合 Bai (2003) の解析的 SE を使う:
以下では CRW ブートストラップ:
両者は実装パイプライン内で共存 — 実行時にサンプルサイズで分岐。