Probabilistic inference from big & complex data

Big, high-dimensional and complex data are now routinely collected across fields ranging broadly from industry to government to the sciences.  Although there is an increasingly rich literature on algorithms for analyzing such data, almost all solutions have taken one of two types of approaches.  The first breaks data into smaller chunks and analyzes these chunks completely separately, ignoring dependence in the analysis.  The second relies on optimization algorithms to obtain a single “point” estimate of quantities of interest, typically without any measure of how uncertain this estimate is.  There remains a disturbing lack of methods for characterizing statistical uncertainties in these settings, leading to fundamental problems in many applications areas (e.g., the sciences).  This talk will provide an overview of some recent approaches for scaling up probabilistic and Bayesian inferences to massive scale data (e.g., from computational advertising, genomics and neurosciences).  Often in massive data settings, probability models and computational algorithms need to be specifically designed to allow scaling up.  I also discuss promising ongoing directions, from both applied and theoretical perspectives.