Survey Estimates by Calibration on Complex Auxiliary Information

Summary In the last decade, calibration estimation has developed into an important field of research in survey sampling. Calibration is now an important methodological instrument in the production of statistics. Several national statistical agencies have developed software designed to compute calibrated weights based on auxiliary information available in population registers and other sources. This paper reviews some recent progress and offers some new perspectives. Calibration estimation can be used to advantage in a range of different survey conditions. This paper examines several situations, including estimation for domains in one-phase sampling, estimation for two-phase sampling, and estimation for two-stage sampling with integrated weighting. Typical of those situations is complex auxiliary information, a term that we use for information made up of several components. An example occurs when a two-stage sample survey has information both for units and for clusters of units, or when estimation for domains relies on information from different parts of the population. Complex auxiliary information opens up more than one way of computing the final calibrated weights to be used in estimation. They may be computed in a single step or in two or more successive steps. Depending on the approach, the resulting estimates do differ to some degree. All significant parts of the total information should be reflected in the final weights. The effectiveness of the complex information is mirrored by the variance of the resulting calibration estimator. Its exact variance is not presentable in simple form. Close approximation is possible via the corresponding linearized statistic. We define and use automated linearization as a shortcut in finding the linearized statistic. Its variance is easy to state, to interpret and to estimate. The variance components are expressed in terms of residuals, similar to those of standard regression theory. Visual inspection of the residuals reveals how the different components of the complex auxiliary information interact and work together toward reducing the variance. Resume Depuis une dizaine d'annees, l'estimation par le calage occupe un roole important dans la theorie et la pratique des enqueetes par sondage. Cet article survole quelques developpements importants en ce domaine et en presente quelques aspects nouveaux. L'estimation par le calage est avantageuse dans differents contextes. C'en est ainsi pour les trois types de sondage abordes dans cet article: l'estimation pour des sous-populations (domaines) pour unechantillonnage en une seule phase, l'estimation pour l'echantillonnage en deux phases et l'estimation pour l'echantillonnage a deux degres avec une ponderation integree. Dans le cadre de ces exemples, l'information auxiliaire est typiquement d'une certaine complexite, en ce sens qu'elle peut comporter plusieurs composantes. Cette structure polyvalente se refl ete dans le calcul des poids de calage. Par exemple, pour un sondage prevoyant un echantillonnage a deux degres, on peut disposer et d'information aupres des unites primaires et d'information aupres des unites secondaires. Ainsi, lors du calage, il convient de profiter, simultanement et de facon efficace, des deux types d'information. L'information auxiliaire complexe permettra, dans nos exemples, plus d'une fac on d'effectuer le calage. On peut calculer les poids par un calage direct, sur l'ensemble de l'information, ou bien, le calage peut se faire en deuxetapes, dont la premiere se sert d'une partie de l'information pour arrivera des poids preliminaires qu'on utilise ensuite dans un calcul de poids finaux. Pour connaiitre l'efficacite des differents estimateurs par calage, une evaluation de leurs variances respectives s'impose. A cause de la nature non-lineaire d'un estimateur par calage, sa variance ne possede pas une forme simple et explicite. On procede a une linearisation de l'estimateur. Normalement, c'est une procedure fastidieuse, comportant un developpement en serie de Taylor avec une evaluation d'un nombre de derivees partielles. Pour les fins de cet article, il faut trouver la forme linearisee d'un bon nombre de differents estimateurs par calage. Pour cette raison, nous suivons une procedure simplifiee, la “linearisation automatisee”, qui amene rapidement au resultat appropriee. Suite a la linearisation d'un estimateur par calage, il est facile d'obtenir une proche approximationa la variance. Dans plusieurs de nos exemples, la variance de l'estimateur par calage se presente comme une somme de deux composantes, chacune donnee en fonction de certains residus de regression ou de regression generalisee. Nous montrons comment une inspection visuelle de ces residus fournit des clefs importantes pour identifier et interpreter les sources de la variabilite.