04 — Connor & Linton (2007)

Semiparametric Estimation of a Characteristic-Based Factor Model of Stock Returns
Journal of Empirical Finance 14, 694–717 · Kei Matsumae · 2026-05-15

What this paper does

  • The first semiparametric factor model in finance. Sets up the model that IPCA (Kelly-Pruitt-Su 2019) and regressed-PCA (CRW 2023) refine and extend.
  • Factor loadings $\beta_i$ are unknown smooth functions of observable characteristics $z_i$ (size, B/M, beta).
  • Estimator: two-step kernel-based procedure. First a non-parametric regression to recover loading functions, then PCA on residuals to extract latent factors.
  • Empirically: characteristics-based factors mostly mimic Fama-French (1993) factors; test isn't powerful enough to nail mispricing vs. risk.
  • For AOF: the conceptual seed. Estimator superseded — IPCA / CRW are faster, easier, and don't restrict to time-invariant $z$.

1. Why this paper exists

Pre-2007 asset pricing had two camps:

  1. Latent factor camp (Chamberlain & Rothschild 1983, Connor & Korajczyk 1986): PCA on returns; factors are abstract.
  2. Characteristic factor camp (Fama-French 1993, 1996): pre-specified long-short portfolios sorted on characteristics.

Latent factors lack economic content. Characteristic factors are ad-hoc — why these characteristics, this functional form? Connor & Linton propose a bridge: loadings are functions of characteristics, but the functions are estimated nonparametrically and factors are still latent.

2. The model

$$ r_{it} \;=\; \alpha_i \;+\; \sum_{k=1}^{K} g_k(z_i)\, F_{kt} \;+\; \varepsilon_{it}. $$
SymbolMeaning
$r_{it}$excess return
$z_i$time-invariant characteristics (size, B/M, beta)
$g_k(\cdot)$$k$-th loading function (unknown, smooth)
$F_{kt}$$k$-th latent factor return
$\alpha_i$stock fixed effect (mispricing if non-zero)

Two restrictions later papers relax:

  • $z_i$ is time-invariant. Real characteristics (size, momentum, B/M) change month-to-month. IPCA and CRW allow $z_{it}$.
  • No pricing-error function $\alpha(z)$ — alphas are fixed effects $\alpha_i$, not characteristic-driven.

3. The estimator — kernel approach

3.1 Step 1 — Estimate loading functions

For each $k$, estimate $g_k(\cdot)$ via local kernel regression. For each target $z_0$:

$$ \hat g_k(z_0) = \arg\min_g \sum_i K_h(z_i - z_0)\,(r_{it} - g\cdot F_{kt})^2 $$

iteratively, with $F_{kt}$ also estimated. The kernel analogue of cross-sectional regressions weighted by characteristic similarity.

3.2 Step 2 — Extract factors

Given $\hat g_k(\cdot)$, model is linear in $F_t$. PCA on the projected return matrix gives $\hat F_t$. Iterate steps 1–2 to convergence.

Why kernels are awkward in practice: bandwidth choice, slow when $N$ is large, curse of dimensionality with multiple characteristics (only feasible for $M \leq 3$). This is why CRW switch to sieve-based regression — same nonparametric flexibility, much faster.

4. Empirical findings

US individual stocks 1962–2001, characteristics = (log size, log B/M, market beta).

5. Connection to other papers in this series

flowchart TB CL["Connor & Linton (2007)
Time-invariant z, kernel, no α(z)"] IPCA["Kelly-Pruitt-Su (2019) IPCA
+ linear-in-z, + time-varying z
+ α(z)"] CRW["Chen-Roussanov-Wang (2023)
+ nonparametric α and β
+ fixed-T asymptotics
+ α = 0 test"] AOF["AOF Quant Model
(replication target)"] FNW["Freyberger-Neuhierl-Weber (2020)
which characteristics matter?"] CL --> IPCA --> CRW --> AOF FNW --> AOF style CL fill:#fff6e3,stroke:#b8651e

6. What this gives the AOF model

CL (2007) contributes the conceptual frame, not the estimator:

  • The right way to think about characteristics is as covariates of loadings — not as factors themselves.
  • Loadings should be allowed to be nonlinear in characteristics; restricting to linear is a testable assumption, not a structural one.
  • The same panel can support a latent factor interpretation and a characteristic-based interpretation simultaneously.

What we do not use:

  • Kernel estimator (replaced by sieve / B-spline projection in CRW).
  • Time-invariant $z_i$ assumption (replaced by time-varying $z_{it}$).
  • "Factors mimic Fama-French" interpretation — useful intuition but not the production target.

7. Reading next

← 学習ベース index · 8 本中 4 本目

04 — Connor & Linton (2007)

特性ベースファクターモデルのセミパラメトリック推定
Journal of Empirical Finance 14, 694–717 · 松前 景一郎 · 2026-05-15

論文の要点

  • ファイナンスにおける最初のセミパラメトリックファクターモデル。IPCA (Kelly-Pruitt-Su 2019) と regressed-PCA (CRW 2023) が洗練・拡張するモデルを提示。
  • ファクターローディング $\beta_i$ を観測可能な特性 $z_i$(規模、B/M、ベータ)の未知の滑らかな関数とする。
  • 推定量:2 段階カーネル手続き。まずノンパラメトリック回帰でローディング関数を復元、次に残差に PCA で潜在ファクターを抽出。
  • 実証:特性ベースファクターは概ね Fama-French (1993) ファクターを模倣。検定はリスク vs. ミスプライシングを明確に判別する力は不足。
  • AOF 用途:概念的種。推定量自体は後継に取って代わられている — IPCA / CRW がより速く、容易で、$z$ の時不変性を要求しない。

1. なぜこの論文が必要か

2007 年以前のアセットプライシングには 2 つの陣営:

  1. 潜在ファクター陣営(Chamberlain & Rothschild 1983、Connor & Korajczyk 1986):リターンに PCA。ファクターは抽象。
  2. 特性ファクター陣営(Fama-French 1993, 1996):特性ソートのロング・ショートポートフォリオを事前指定。

潜在ファクターは経済的内容が薄い。特性ファクターは ad-hoc — なぜこの特性、この関数形か? Connor & Linton は橋渡しを提案:ローディングは特性の関数だが、関数自体はノンパラメトリックに推定、ファクターは依然として潜在。

2. モデル

$$ r_{it} \;=\; \alpha_i \;+\; \sum_{k=1}^{K} g_k(z_i)\, F_{kt} \;+\; \varepsilon_{it}. $$
記号意味
$r_{it}$超過収益率
$z_i$時不変の特性(規模、B/M、ベータ)
$g_k(\cdot)$$k$ 番目のローディング関数(未知、滑らか)
$F_{kt}$$k$ 番目の潜在ファクターリターン
$\alpha_i$銘柄固有効果(非ゼロならミスプライシング)

後続論文が緩める 2 つの制約:

  • $z_i$ は時不変。現実の特性(規模、モメンタム、B/M)は月次で変動。IPCA と CRW は $z_{it}$ を許容。
  • 価格付け誤差関数 $\alpha(z)$ はない — アルファは固有効果 $\alpha_i$ であり、特性駆動ではない。

3. 推定量 — カーネルアプローチ

3.1 第 1 段階 — ローディング関数推定

各 $k$ について、ターゲット値 $z_0$ ごとにローカルカーネル回帰:

$$ \hat g_k(z_0) = \arg\min_g \sum_i K_h(z_i - z_0)\,(r_{it} - g\cdot F_{kt})^2 $$

反復的に($F_{kt}$ も同時推定)。これは特性類似度で重み付けされたクロスセクション回帰のカーネル版。

3.2 第 2 段階 — ファクター抽出

$\hat g_k(\cdot)$ が決まれば、モデルは $F_t$ について線形。射影されたリターン行列に PCA を適用し $\hat F_t$ を得る。Step 1〜2 を収束まで反復。

カーネル法が実務で扱いにくい理由:バンド幅選択、$N$ が大きいと遅い、複数特性で次元の呪い($M \leq 3$ までしか実用的でない)。CRW が篩ベース回帰に切り替えた理由 — 同じノンパラ柔軟性で、はるかに高速。

4. 実証結果

米国個別株 1962–2001、特性 = (対数規模、対数 B/M、市場ベータ)。

5. 本シリーズ内での位置づけ

flowchart TB CL["Connor & Linton (2007)
時不変 z、カーネル、α(z) なし"] IPCA["Kelly-Pruitt-Su (2019) IPCA
+ z 線形、+ 時間変動 z
+ α(z)"] CRW["Chen-Roussanov-Wang (2023)
+ ノンパラ α・β
+ 固定 T 漸近
+ α = 0 検定"] AOF["AOF Quant Model
(レプリケーション目標)"] FNW["Freyberger-Neuhierl-Weber (2020)
どの特性が重要か?"] CL --> IPCA --> CRW --> AOF FNW --> AOF style CL fill:#fff6e3,stroke:#b8651e

6. AOF モデルへの貢献

CL (2007) は概念的フレームを提供する(推定量ではなく):

  • 特性の正しい捉え方はローディングの共変量であり、ファクター自体ではない。
  • ローディングは特性について非線形を許容すべき。線形に制限するのは構造的事実ではなく検定可能な仮定。
  • 同じパネルが潜在ファクター解釈と特性ベース解釈を同時にサポートできる — 排他ではない。

採用しないもの:

  • カーネル推定量(CRW の篩 / B スプライン射影で置換)。
  • 時不変 $z_i$ 仮定(時間変動 $z_{it}$ で置換)。
  • 「ファクターは Fama-French を模倣」解釈 — 直感としては有用だが production の目標ではない。

7. 次に読むべきもの