長いので4章まで飛ばして興味を持ったら最初から見るのを推奨する。
The OECD’s Study on Health Status Determinant: Roles of Lifestyle, Environment, Health-Care Resources and Spending Efficiency: An Analysis
by H.E. Frech III
I. Introduction
II. Measuring Health
c. Adjustment for Disease Prevalence
OECDのレポートの筆者達は死亡率は有病率で調整されるべきと述べている。
有病率の高さは医療資源の利用の増加と悪い結果に結びつく。
レポートの中で有病率を調整していないことは見かけの非効率性にバイアスをかける。Kenneth Thorpe, David Howard and Katya Galactionova (2007)らによる最近の研究では最も費用の掛かる病気に対する有病率がアメリカで欧州より高いことを示している。これらの要因のいくらかは肥満やたばこなどの生活習慣(例、肥満、心臓病、呼吸器疾患)であるが、さらに検査の高頻度の使用や病気の初期段階での治療が関係している。
III. Discussion of the OECD Choices of Measuring Health
A. PYLL Explained
Potential years of life lost(PYLL)はある特定の潜在的生存期間を基準とした計測手段だ。基準となる年齢以前の死亡は理想化された世界では起こらなかったであろう喪失年数となる。その名前が示唆するように生命が損失された年数で計測される。基本的には1人あたりや百万人あたりの潜在的喪失年数を計測することができる。
レポートでは基準は70歳に置かれている。70歳以上の生存は無視される。他にも65歳で定義される場合がある。レポートでは10万人あたりのPYLLが使用されている。PYLLは喪失年数を全体に渡って加算することにより計算することが出来る。
このことを単純な例でみるために2400人の人口がいる国を仮定する。1000人が20歳、800人が50歳、600人が80歳だ。年内に5人の人が亡くなった。1人が20歳の集団から、2人が50歳の集団から、3人が80歳の集団から亡くなったとする。この時、PYLLは
(70-20)(1/1,000)(1,000/1,800)(100,000)
+ (70-50)(2/800)(800/1,800)(100,000) = 5,000.
レポートが述べるようにPYLLはLE(Life Expectancy)と比べて死因を特定して調整できるというメリットがある。これにより医療システムと関係のない事件や事故などその他の要因を除外することが出来る。死因が報告されているのでPYLLを用いればこのような拡張が可能だ。さらに医療との係わりについて議論のある要因も除外することができる。加えて病気の種類毎にPYLLを計算して医療システムとその他の要因がPYLLに与える影響を分析することができる。
PYLLはLE同様に乳幼児死亡率による影響を受ける。この影響は病気の種類により異なる。心臓病などに関するPYLLは一般のPYLLに比べて乳幼児の死亡からの影響が小さい。これらの病気による乳幼児の死亡は稀だからだ。呼吸器系の疾患によるPYLLはLE at birthよりも強く影響を受けるかもしれない。これらの疾患が乳幼児に特に多いからだ。OECDのレポートはいくつかの死因をPYLLの計算から排除している。輸送車両による事故、転落死、自殺、事件などだ。だがこのリストで十分か否かははっきりとしていない。
事故や事件の被害者は時間を置いて関連する病気によって死亡するかもしれない。さらに事故や事件の被害者は医療資源をより多く使うかもしれない。これらの要因は考慮されていない。さらに外的要因であるものの病気を介して起こった死亡(肥満、循環器系の疾患、公害、呼吸器系の疾患)も除外されていない。よって調整したPYLLを用いても外的要因の影響を除外できていない。
B. Infant Mortality and External Factors
OECDのレポートは乳幼児死亡率はPYLLの場合LEよりも外的要因による影響を受けにくいと述べている。だが実際には逆だ。乳幼児死亡率は医療の結果として見做すには2つの大きな問題を抱えている。第一にデータの定義の問題と各国の慣行の違いに影響を受ける。例えばアメリカの医師は後に死亡する非常に小さな乳幼児の蘇生を他国より試みる慣行がある。この慣行は乳幼児死亡率を引き上げる。同様に他の国では出産の直前?(出産前)に死亡した乳幼児は死産として分類される慣行がある。特に日本とフランスで顕著だ。アメリカでは生存の可能性の極めて低い乳幼児も生産(せいざん)として記録されることが頻繫にある。フィラデルフィアでの記録を詳細に調べたGibson et. al. (2000)の研究では生存の可能性の低い乳幼児を生産として扱うこの慣行だけで乳幼児死亡率が40%過大評価されていると述べている。同様の慣行がある国の医療システムを非効率に見せてしまう。この違いは定量的にも重要だ。Korbin Liu and Maryln Moon (1992, p. 109)はこの要因を調整することにより調査対象国内でのアメリカの順位を15番目に押し上げ、日本の順位を3番目に押し下げると報告している。
さらに別の問題がある。追加の治療は生産(せいざん)ではあるものの生存確率が低い乳幼児が誕生する確率を引き上げるかもしれない。もしそうなら追加の治療は見掛けの乳幼児死亡率を引き上げてしまう。この追加の治療を行う国の見掛け上の医療費を引き上げ見掛け上の結果を悪くしてしまう。
第二により重要なことに乳幼児死亡率はその他の外的要因(特に母親の生活習慣(肥満、たばこ、飲酒、薬物の使用))に強く影響を受ける。乳幼児死亡率は出生時の体重に強く関係している(出生時の体重自体が生活習慣の影響だ)。遺伝の影響に関しては議論がある。しかし個人レベルでは明らかに生活習慣の影響が大きい。10代での妊娠は低体重の出産の確率を引き上げる。未婚の母親から生まれた乳幼児が死亡する確率は既婚の母親から生まれてくる乳幼児の2倍高い。10代での妊娠による出産の乳幼児の死亡率は1.5-3.5倍高い。アメリカの10代での妊娠は非常に多い(主にアフリカ系アメリカ人が原因で)。カナダの2.8倍、スウェーデン、日本の7倍だ。アメリカの乳幼児の出生時の体重の分布がカナダと同一ならば乳幼児死亡率はカナダより低くなる。乳幼児死亡率とは離れてもこの要因は医療費を直接引き上げる(低体重の乳幼児への医療は費用が掛かるので)。
乳幼児死亡率は平均寿命の計算において重要な要因を占めているので医療の生産性を分析するにあたって平均寿命は平均余命よりも問題のある指標であることを示唆する。Martin Neil Baily and Alan Garberはこう述べている。
平均寿命は新生児の死亡率に強く影響を受ける。ある程度は医療の影響を受けるだろうが新生児の死亡率は医療とは直接の関連性がない社会的要因に強く影響されている。平均寿命は医療の生産性を計測する指標としては適していないかもしれない(Baily and Garber 1997, pp. 188-189)。
C. Adjusting the Measure for Non-Health-Care Causes
OECDのレポートでは輸送事故のような医療とは関連のない要因による死亡が推計に混入している可能性について言及されている。その議論はより多くの他の要因についても拡大されなければならない。すでに述べたように不完全ながらもPYLLに対して調整を加える方法が考えられる。LEに対しては医療と関連のない死因を調整する方法が2通りある。どちらもモデルを必要とするので判断の必要性と議論を呼ぶ。これについては3章で議論する。最初に部分的ではあるが簡単な方法から議論する。
2. Birthweight-Specific Infant Mortality
すでに述べたように出生時の体重は生活習慣の影響を強く受ける。そして乳幼児死亡率に強く影響を与える。出生時の体重を揃えることにより外的要因の影響を除外することができる。この効果は非常に大きい。出産時の体重に関連した乳幼児の死亡率はカナダよりアメリカの方が低かった。これは2国の乳幼児死亡率の違いのすべてを出生時の体重で説明が可能なことを示している。より多くの国に対象を拡大したLiu and Moon (1992, p. 115)の研究ではアメリカとその他の国の乳幼児死亡率の違いのほとんどを出生時の体重の分布の違いで説明できることを示した。
3. Life Expectancy and Non-Health-Care Causes of Death
a. Adjusting the Life Expectancy Variable
LEは標準化されたLEに拡張することができる。標準化されたLEは外的要因を除外したLEだ。実際の水準ではなく外的要因により引き起こされた死亡が平均的だったらと仮定した場合のLEだ。アメリカの場合は外的要因が平均だと仮定した場合の期待LEとなる。この方法のより一般化された手法がOhstfeldt and Schnider (2006, pp. 5-33)により試みられた。単に外的要因を標準化するのみでなく1人あたりGDPも標準化している。
Ohstfeldt and Schniderは1人あたりGDP、輸送や転落による事故、殺人、自殺等を考慮している。1980-1999までのOECDのデータを用いて各国のLEの違いの79%を説明した。その推計は標準化LEを作成するのに用いられる。その残差(各国の実際のLEとモデルによるLEとの差)は各国の過小評価、過大評価を示している。この残差は期待LEに加えられる。その結果は各国の外的要因(と1人あたりGDP)が平均水準であった場合の期待LEとなる。この期待LEはすべての独立変数をその平均値に設定した場合のモデルによる予想値だ。結果は標準化されたLEとなる。これにより外的要因を除外できる。
OECDのレポートと比較するならば次の段階はこの標準化したLEを用いて生産関数を推計することになる。Ostfeld and Schneiderはここでは替わりにあまり一般的でない手法を用いている。彼等はこの期間の平均LEを、元のデータと標準化したデータとで比較している。違いは大きい。元のLEではアメリカのLEは75.3だった。フランスは76.6、日本は78.7、スウェーデンは77.7だった。標準化したLEではアメリカは76.9、フランスと日本は76.0、スウェーデンは76.1だった。アメリカがこの基準ではトップだった。この分析では外傷による死亡を調整してあるが生活習慣などの要因は調整していない。元の調整を加えていないLEの差はこれらの外的要因に強く影響を受けていることが示唆される(注 このOhstfeldt and Schniderの研究に対してOECDから反論が寄せられている)。
IV. Specification of the Panel Data Regressions
1. Health Care Resources
a. Total Spending
OECDのレポートの中で医療に費やされた資源を計測する方法として2通り用いられている。総支出はそれぞれの部門毎の総和として示されている。これは治療の種類(薬に対する支出やその他の支出、または政府と民間等)によって生産性が異なる場合には問題がある。総支出に対する係数はそれぞれの部門の加重平均和として推計される。
おそらく、もっとも重要なことは医療支出は医療PPPレートではなく一般のPPPレートによって共通通貨に変換されていることだ。医療支出とは医療に投入された実質の資源の量を意味することを想起する必要がある。適切でない為替レートを用いることにより医療支出を正しく計測することができなくなってしまう。医療価格がアメリカで高いのでこの誤計測はシステム的なものになる。
よく用いられるものとして3つの為替レートがある。市場レート、経済全般に対するPPPレート、医療に特化したPPPレートだ。市場レートはここでの目的には明らかに問題がある。このレートは金融取引とインフレ期待に強く影響を受ける。このレートは変動が大きく実質的に用いられた資源を表現するのに明らかに適していない。例えば2001年の1月1日のドル/ユーロレートは0.95だった。7年後の2008年の1月1日では1.47になっている。55%の上昇だ。だから仮にユーロ圏の医療支出が域内通貨でみて変化しないと仮定するならば、ドルでみて55%上昇したようにみえるだろう(注 時々見掛けるアメリカでは盲腸が100万円は素人がこれを地でやっている)。この点をIan Castles and David Hendersonが説明している。
特定の2国の市場レートは両国の価格差を適切に表していない。よって適切な比較結果を生み出さない。価格効果を取り除くことによってのみ、そして各国のGDPを共通の価格で評価することによってのみ有効な評価を生み出すことができる(Castles and Henderson, 2005, p. 9)。
PPPレートは基準となる通貨一単位の購買力にもとづいている。フランスで0.85ユーロで購入できたものがアメリカで1.00ドルかかったとする。フランスのユーロでの支出に1.18を掛ける(1/0.85)ことによりアメリカでの対応する実質資源に変換することができる。これを経済全体に渡って行ったものが(GDP)PPPレートだ。さらに産業特有(医療、製薬)のPPPレートを定義することができる。OECDのレポートや他の資料でよく見掛けるようなGDPPPPレートを用いるのはGDPPPPレートと医療PPPレートが比例的な時にのみ正しい。つまりその他の財と医療の相対価格が一定という条件が国際間に渡って満たされている時にのみGDPPPPレートの使用が正当化されるだろう。おそらく国際的に取引されたり標準化されている財で構成される産業ではこの一定の相対価格という条件は近似的に正しいだろう。
だが医療の相対価格は国によって異なる。よって医療PPPレートはGDPPPPレートとは大幅に異なると思われる。表1と図1に1990の医療PPPレート、薬価PPPレート、GDPPPPレート、さらに医療PPPレート、薬価PPPレートとGDPPPPレートとの比率を示す。ここでのPPPレートは1ドルを購入するのに必要な他国通貨の単位量だ。イタリアのGDPPPPレートが1,421というのは1ドルを購入するのに1,421リラを必要とすることを意味する。これらのレートの比率が示すのはGDPPPPレートを用いることにより生じた他国が実質に投入した資源の過小評価の度合いを示している。医療支出に対する平均比率は0.67だ。薬剤支出に対する同様の比率は0.70だった。これらOECD各国で消費されたGDPPPPレートで換算された医療資源は医療PPPレートで換算された医療資源よりも30%ほど低いことがわかる。他国のドル単位での実質資源の推計値を得るためにはGDPPPPレートで換算された医療支出に表にある比率の逆数を掛ける必要がある。その逆数はGDPPPPレートと医療PPPレートとの比率だ。これはレポートの健康の生産に用いられている見掛けの医療資源に大きな影響を与える。
表2と図2に示すように、医療PPPレートの使用はその他のOECD各国の医療の実質資源投入量を大幅に引き上げる。最初はアメリカの支出の50%だったものが78%にまで上昇する。その差は56%ある(28%ポイントの上昇)。興味深いことに医療PPPレートが用いられた場合にはアメリカの支出は最も多いものではなくなる。フランスとノルウェーがアメリカの支出を凌ぐ。
この違いは医療価格がアメリカで高いことを原因としている(注 逆に価格差は3割程度)。GDPPPPレートを用いた表2の数字は医療支出の国際間比較の際によく目にするものだ。欧州内でも、その他様々な指標を用いても実質支出の推計には大きな幅がある。
注35 比率では混乱を招く恐れがある。概念を整理するために以下の例を考える。ある年のイギリスの医療支出が2000ポンドでGDPPPPレートが1.5ドル/ポンドだったとする。ドルでのイギリスの医療支出は、1500ポンド×1.5ドル/ポンド=2250ドルになる。
次に医療価格がイギリスで低いために医療PPPレートが2.0ドル/ポンドだったとする。用いられた資源を反映したイギリスの実質医療支出は、1500ポンド×2.0ドル/ポンド=3000ドルになる。
元のGDPPPPレートの2250ドルに戻って、同様の結果を医療PPPレートとGDPPPPレートとの比率を掛けることにより導くことができる。つまり、2250ドル×(2.0ドル/ポンド)/(1.5ドル/ポンド)=3000ドルになる。
これがテキストと図2で用いた手法だ。
OECDのPPPレートの研究プログラムの中で、Ian Castlesは医療PPPレートとGDPPPPレートのどちらを用いるかにより日本とアメリカの投入された医療資源の推計に大きな差が生じることを示した。GDPPPPレートを用いた場合は1993年のアメリカの支出は日本の支出の224.5%(約2.24倍)になった。医療PPPレートを用いた場合はアメリカの医療支出は日本の支出のわずか86.9%になる。この数字を真に受ければ、この差は医療の相対価格が日本で低いことから生じている。Castlesは価格差が大きいことは尤もらしくないと考え、この結果を医療PPPレートが信頼できるものではないことの証左であると受け取った。日本の見掛けの医療価格は上で分析した他のOECDの各国よりも低い。医療PPPレートが信頼できるものではないという信念は今も昔もOECD Statistics Directorateとレポートの筆者たちの考えだ。だが医療PPPレートに頼らなくても医療価格が国際間で異なることを示す多くの方法がある。以下でそれを示す(H.E. Frech IIIは言及していないが例えばアメリカ、カナダ、イギリスなどはそれぞれ行われた手術の回数などを記録している)。
注39 その他の可能性は日本の医療データは信頼できないというものだ。この懸念から以前の研究では日本のデータは取り除いてある。
Price Controls and Systematic Measurement Errors
b. Physical Measures of Health Care Resources
医療資源を計測するその他の方法としては物質的投入の総量を用いることが考えられる。レポートでは人口1000人あたりの医療労働者の人数の指標を作成している。この指標では看護士を医師の半分として評価している。この指標は医療支出の計測の代替として用いられている。レポートでは重み付けは限定的なものだと述べられているが、この種類の重み付けは客観的なデータから得られたものでMark Pauly (1993)によってなされている。Paulyはより多くの種類の労働者(多くの未熟練、半熟練労働者)を含め、アメリカでの相対賃金を用いて重み付け指標を作成している。よって他の限定された計測方法よりも信頼できるものになっている。さらに数量の違いも重要だ。医師と看護士は合計でアメリカの医療労働者の18.6%を占めるにすぎない。医師が3.4%で看護士が15.2%だ。Paulyの分析は1988のデータにもとづいている。医師のウェイトはその他の労働者の4.83倍とされている。OECDのレポートでは医師のウェイトは看護士の2倍だ。OECDの数字は人口1000人あたりの医療労働者の人数で示されている。この方法よりは労働人口の比率を用いたほうが良い。その他の改善方法は医師にのみ焦点を絞ることだ。
医療に投入される物質的資源を分析することにより興味深い点がいくつか浮かび上がる。第一にアメリカの医療で実際に用いられる資源の量は一般に用いられるGDPPPPレートでの支出とは大幅に食い違うということだ。医療PPPレートを用いた場合と同様に、だがより驚くべきことに、アメリカの医療は特に資源を多く使っているというわけではないことが分かる。例えば最も包括的なPaulyの指標を用いるとアメリカの医療資源の使用は12ヶ国中6番目で平均を下回る。医師と看護士のみのより範囲の狭い指標を用いても14ヶ国中4番目になる。医師のみでは18ヶ国中9番目でまた平均を下回る。アメリカでは相対的に看護師の割合が高くその他の労働者はOECDの平均よりも少ない。よってOECDのレポートはアメリカの医療資源の使用を過大評価している。最も重要なことはアメリカは医療において多くの労働資源を用いているのではないということだ。GDPPPPレートの使用は大いに誤解を招くものだ。そのデータを用いることは大きなバイアスを生み出し不正確な描写となってしまう。
V. Results of the Panel Data Regressions
A. Lifestyle Variables
肥満はよく国民の健康状態の決定要因と見做される。広い意味での生活習慣の代理指標と考えられるからだ。基本的には肥満は寿命を縮める。
レポートが肥満を考慮に入れるべきだと述べていることは正しいかもしれない。さらに肥満の人はより多くの医療資源を消費する傾向にある。Roland Sturm (2002)は肥満は36%医療資源の消費の増加につながり77%薬の消費の増加につながることを示した。Eric Finkelstein, Ian Flebelkorn and Guijin Wang (2003, pp. w3-219, w3-224)はアメリカの医療消費の5.3%は肥満が原因で9.1%は肥満と過体重が原因であることと示唆している。OECDのレポートはこう述べている。
肥満に関するデータは容易に比較可能なものとはなっていない。28の国でデータが集められているがしかし非常に不正確だ。さらにほとんどの国では自己申告である一方、他の国では実際の身長と体重とから計測されている。
同じ箇所でレポートは概念的な問題を挙げる。
より根本的には肥満を国民の健康状態の決定要因と見做すべきか(生産関数の右辺に入れるべきか)健康状態の計測そのものと見做すべきか(生産関数の左辺に入れるべきか)という問題がある。肥満は生活習慣に強く影響されていて医療にあまり関係していないというのははっきりしているように思われる。
VI. The DEA Approach
VII. The Productive Efficiency of Different Health Care Systems
A. Estimates
WHOの関連する仕事がOECDと同様に非難されている。観察できない異質性を医療の非効率性として割り当てている仮定に対してだ。
過去の研究には生活習慣の重要性を示したものがいくつかある。Victor Fuchsは年齢を調整したネバダ州とその隣のユタ州の死亡率を比較した。これらの州は乾燥した気候から医療までほとんど似通っている。それでもネバダ州とユタ州との死亡率の違いは驚くべきものだ。40-49歳の成人では男性で54%女性で69%高い。原因は生活習慣の違いではっきりしている。ユタ州のモルモン教徒は健康な生活を心がけておりアルコールとタバコの消費は少なく離婚率も低い。ネバダ州は逆だった。この2州の健康の違いを2州の医療の違いと見做すことは大きな誤りだろう。
OECDのレポート以外にも医療の効率性を調べた研究はいくつもある。これらの結果はレポートの主張とは完全に異なっている。Or, Wang and Jamisonの推計はレポートの推計と直接比較可能な数字ではない。彼等はレポート同様に各国の異質性を制御するためにダミー変数を用いている。だが彼等はこのダミー変数の係数を医療の効率性を示すものとしては解釈していない。レポートと違い彼等は医療資源投入(ここでは医師/人口比率)の効果が各国において異なることを許容している。彼等はこの変数の係数の違いが医療の効率性を示すものと解釈している。彼等の効率性指標は係数の傾きの違いでOECDのレポートの効率性の違いはダミー変数の違いとなっている。傾きの違いで効率性を推計することはレポートの説明よりも概念的に優れている。外的要因に対してより影響されにくい。それでもOr, Wang and Jamisonの方法はより弱い形でとはいえ同様の批判に対して脆弱だ。生産関数の傾きは交絡要因の影響によっても各国において変化する可能性がある。
Or, Wang and Jamisonの方法はレポートのものと違いがあるので、推計された年数に関して直接比較可能ではない。一方で各国の生産性の順位は比較可能だ。表10は異なる資源投入の指標、異なる統計アプローチ、異なるLEの計測方法に関してアメリカの順位の大幅な変動を示している。
これらはレポートのものと大幅に異なっている。特にアメリカの順位ははるかに高い。Or, Wang and Jamisonの女性の平均寿命の推計ではアメリカの順位は21ヶ国中12番目でイギリス、ノルウェー、スウェーデンより高い。男性では21ヶ国中5番目になっている。順位はそれぞれの計測指標に対して一貫したものとはなっていない。乳幼児死亡率では21ヶ国中9番目になっている。65歳での平均余命では女性で21ヶ国中17番目、男性で21ヶ国中9番目だ。心臓血管系の疾患による死亡を調整すればアメリカの順位はさらに高く女性で21ヶ国中7番目、男性で21ヶ国中1番目になる。
OECDのレポートはPYLLや乳幼児死亡率などのその他の健康指標に関する推計も行っている。PYLLの結果は示されていないが、Or, Wang and Jamisonのデータをもとに心臓病固有のPYLLを示すことができる。これらの推計ではレポートと違ってアメリカが効率的であるという結果になる。女性ではアメリカがOECDで最も効率的だ。これらの結果はレポートの結果と簡単に調和させることができる。Or, Wang and Jamisonの方法は医療資源の投入を医師のみで計測している。だが最も大事なことは上で述べたように各国の異質性を効率性の違いに割り当てていないことだ。さらにOr, Wang and Jamisonの心臓病に関する推計はより詳細なミクロの研究とも整合的だ。この研究ではアメリカの生産性はドイツやイギリスの生産性よりも高いことが示されている(Bailey and Garber, 1997)。
レポートでは、興味深いことにアメリカの自己負担率はOECDの平均よりも低い(13.3% vs 19.3%、自己負担率の高さの順位では28ヶ国23番目、低さの順位では28ヶ国中5番目)。さらになんらかの民間の保険でカバーされている人口の割合はフランス、スイス、オランダの方がアメリカよりも高い。
(以下省略)
VIII. Suggested Improvements
IX. Conclusion
(省略)
(追記)直近の日本の医療費がGDPに占める割合は11%を超えるといわれている。1993のアメリカと日本の支出比が224%だったらしいので現在は145-163%の範囲にあると思われる。同様の計算を当てはめると56-63%の範囲になる(計算違いだったらすみません)。これまた数字を真に受けるならば日本の医療資源投入(つまり医療費)はアメリカの2倍近くになる。