データがある分布に従う、とはどういうことなんでしょうか。

半教師あり学習は、教師ありデータが少ない時に、いっぱいある教師なしデータを使って汎化性能を上げようという問題です。 一方、ドメイン適応は、識別したいデータと教師データが異なる分布に従うときに、識別したいデータにおける識別性能を上げようという問題です。

半教師あり学習の設定で、生成モデルを考えます。 データの分布を適当なモデル $p(x|\theta)$ で推定します。 ここで $\theta$ はパラメータです。 事前分布を $p(\theta)$ とします。 このとき、教師ありデータセット $S$ を観測するとパラメータの事後分布 $p(\theta|S)$ が決まります。 つまりモデル $\{p(x|\theta)\}_\theta$ の中で $S$ を生成しそうな分布の確率分布が得られます。 一方、教師なしデータも含めたデータセット $U$ を観測して得られる事後分布 $p(\theta|U)$ は一般に異なる分布です。 つまり $U$ を生成しそうな分布の確率分布は $S$ のそれとは異なります。

普通、半教師あり学習では i.i.d. なサンプル集合 $S$ と $U$ が同じ分布に従うことを仮定します。 その仮定を外すと、上記の通り $S$ と $U$ は異なる分布に従うと推定されるように思えます。 というよりむしろ、これらが異なる分布になるから半教師あり学習をする意味があるんではないかという気さえしてきます。 $U$ の方がデータが多いわけなので、$p(\theta|U)$ は $p(\theta|S)$ より低分散な分布になると予想されます。 そこから推定される $p(x)$ は教師ありデータと教師なしデータで異なるはずです。 例えばベイズっぽく推定するなら $X\in\{S, U\}$ として $p(x|X)=\mathbb E_{\theta|X}p(x|\theta)$ となり、$X=S$ の場合と $X=U$ の場合で異なる分布が得られる(かもしれない)わけです。

すると教師ありデータ $S$ と教師なしデータ $U$ で推定される分布が違うわけですが、最終的に汎化して欲しいのはデータをたくさん含む $U$ の方なわけです。 それで冒頭の定義を見てみると、これはドメイン適応問題として見ることもできるのだろうか、と思いました。 教師ありデータと教師なしデータが異なる分布に従うと思っても、そんなに変ではないのではないか、と。 結局は問題のモデル化をどっちにするかという話ですし、$S$ と $U$ が同じ分布に従うという仮定はある種の事前知識なわけで、それが正しい事前知識ならば使った方が良い結果が得られるようにも思うし、一般にドメイン適応の方が難しい問題だと思うので、そこに帰着させるのが意味のある議論なのかよくわからないのですが。 直感としては、$S$ がとても小さくてスパースに分布しているとき、サンプリングがたまたま偏る確率は低くないわけで、そうすると $S$ と $U$ は異なるパラメータでモデル化した方がうまくいくようなケースというのがあるのではないかという気がしています。