Varios artículos en Nexos utilizan estadísticas de homicidio para sustentar diversas opiniones acerca de las consecuencias del combate frontal al narcotráfico. Estos artículos abundan en insinuaciones del tipo “correlación no implica causalidad, pero los datos sostienen que…”. En cambio, el artículo de José Merino (“Los operativos conjuntos y la tasa de homicidios: Una medición”) acerca del impacto de los “operativos conjuntos” del gobierno federal sobre el nivel de violencia homicida sitúa el debate sobre las consecuencias del combate al narcotráfico en una lógica netamente causal mediante el uso del “método de emparejamiento”. Merino propone que este debate no debe basarse meramente en la insinuación, que debemos admitir nuestro interés en descubrir relaciones de causalidad, y que en consecuencia debemos recurrir a métodos de ajuste estadístico que permitan construir inferencias causales correctas.[1]

Celebro la sofisticación que Merino aporta a este debate, pero no estoy convencido de que el efecto inequívoco de la intervención militar haya sido un aumento desmedido en el número de muertes violentas. Lejos de afirmar que el método de emparejamiento permita inferencias causales correctas, sostengo que es necesario desmenuzar sus supuestos para entender que quedan trabas que impiden estimar el efecto de las intervenciones armadas. Quizás algún día logremos estimar los efectos a corto y largo plazo de las intervenciones militares sobre la violencia homicida; por el momento, el argumento de Merino no arroja los “números de la guerra” atribuibles a los operativos conjuntos.

Los límites del método de emparejamiento

Empecemos por reconocer que sólo los experimentos con asignación aleatoria de observaciones a las categorías de tratamiento y control permiten estimar sin sesgos el impacto causal de una variable sobre otra. En el contexto de la guerra contra el crimen organizado, es evidente que la asignación de recursos militares a diferentes estados de la República no ha sido aleatoria, lo cual dificulta la interpretación de cualquier medida de asociación estadística entre “intervención militar” y “tasa de homicidios” como una relación causal. Sólo los críticos más obcecados del calderonismo se empeñarían en analizar estos datos como si fueran el producto de un experimento en el que el gobierno federal tira volados para decidir qué estados recibirán un operativo conjunto. Al no ser producto de un diseño experimental, el análisis del efecto de los operativos conjuntos sobre las tasas estatales de homicidio requiere el uso de herramientas sofisticadas de ajuste estadístico. El análisis de Merino echa mano de una de estas herramientas, el “método de emparejamiento” de observaciones basadas en una medida de “propensión al tratamiento”.[2] Merino afirma que ésta es una de las herramientas “que sí permiten establecer relaciones causales”, pero no advierte que esta afirmación es válida sólo bajo ciertos supuestos.

El método de emparejamiento busca aproximar el ideal de asignación aleatoria de unidades a grupos de tratamiento y control en contextos no experimentales, como el del ataque frontal al narcotráfico. En el caso que nos ocupa, buscamos unidades de control para cada uno de los estados en los que se ha registrado un “operativo conjunto” —es decir, consideramos que la intervención militar es el tratamiento. En principio, las unidades de control deben parecerse a las unidades tratadas en todos los aspectos relevantes para entender la violencia homicida. La única diferencia entre unidades tratadas y unidades de control debiera ser, justamente, la existencia de una intervención militar en las primeras. De esta manera, cualquier diferencia en el nivel de homicidios entre estos grupos se podría atribuir al efecto de la intervención militar. En muchas situaciones es difícil encontrar unidades de control suficientemente parecidas a las unidades tratadas, sobre todo si los determinantes de la violencia son muchos, pero incluso entonces basta con que las unidades de control sean similares a las unidades tratadas en términos de una cantidad conocida como la “propensión al tratamiento”. En este caso, buscaríamos “emparejar” estados según su propensión a recibir un operativo conjunto.

¿Cómo se construye esta medida de propensión? El paso crucial es que la medida se base en todas las explicaciones relevantes de la violencia. De lo contrario, el análisis sufrirá del mismo “sesgo por variables omitidas” que encontramos en modelos de regresión convencionales.[3] La medida de propensión debe además garantizar una condición de “equilibrio” entre observaciones tratadas y de control. Así, el objetivo principal del método de emparejamiento es eliminar observaciones para obtener en los datos restantes un mejor equilibrio en la distribución de determinantes de la violencia entre unidades tratadas y unidades de control. Si la distribución de estos determinantes en ambos grupos fuera idéntica, bastaría con comparar el nivel de homicidios entre unidades tratadas con el nivel de homicidios entre las unidades de control para estimar el efecto causal sin sesgo alguno.[4] Si la condición de equilibrio no existiera o fuera tan solo aproximada, sería necesario incluir explícitamente estos determinantes en un modelo estadístico ulterior. Siendo esta la circunstancia más común, suele decirse del método de emparejamiento que es útil para preprocesar datos antes de recurrir a un análisis estadístico más convencional. [5]

Para profundizar en estos dos aspectos, supongamos que la violencia homicida en los estados—y, por ende, la propensión a intervenirlos—depende de su cercanía a la frontera norte, de la capacidad operativa de las policías locales y de la violencia homicida en años anteriores. Dada la variedad de los estados mexicanos, es improbable que encontremos dos estados idénticos en estos tres aspectos cruciales. Sin embargo, podríamos calcular una medida de propensión a recibir un operativo conjunto que sea una función de estos tres determinantes. El método de emparejamiento requiere que se busquen “parejas” entre aquellas observaciones que tengan medidas similares de propensión, incluso si estas parejas no son del todo idénticas con respecto a cada uno de los cinco aspectos que hemos supuesto determinantes. Aquí es necesario enfatizar dos puntos: Primero, el método de emparejamiento no garantiza una inferencia causal adecuada si el cálculo de la medida de propensión omite alguno de estos cinco determinantes. Segundo, el método no garantiza que una simple comparación de promedios baste para identificar un efecto causal cuando el emparejamiento es inexacto, es decir, cuando las medidas de propensión de las unidades tratadas (en este caso, aquellos estados intervenidos militarmente) son muy distintas a las medidas de propensión de las unidades de control.

Cálculos errados

Figura 1

El análisis de Merino pasa ligeramente sobre los dos puntos esenciales identificados en el párrafo anterior. La Figura 1 reconstruye parte de su análisis con base en datos de INEGI, distinguiendo las observaciones con operativos conjuntos de aquellas sin intervención militar (eje vertical) y distinguiendo ambas según su propensión a recibir un operativo conjunto (eje horizontal).[6] De la inspección de esta gráfica se desprenden varias dudas razonables. Primero, ¿es prudente contemplar los datos “estado/año” como observaciones independientes? Tiendo a pensar que no: No podemos tratar Chihuahua 2009 y Chihuahua 2010 como datos independientes pues el alto nivel de homicidios en Chihuahua en 2010 seguramente depende del alto nivel de homicidios en Chihuahua en 2009. En lenguaje técnico, probablemente existe un alto grado de “correlación serial” en las series estatales de homicidios. Es también obvio que existen problemas de “correlación espacial”; el hecho de que Tamaulipas y Nuevo León compartan una frontera porosa implica que los niveles de homicidio en estas dos entidades tienden a variar conjuntamente.

Segundo, ¿es creíble que la propensión a implementar un operativo conjunto dependa sólo de la tasa de homicidio en el año inmediato anterior? De nuevo, creo que la respuesta es negativa. Merino mismo sugiere que “los operativos conjuntos no ocurrieron aleatoriamente o por azar, sino que tuvieron lugar justamente en estados donde había más violencia o el crimen organizado era más visible”. De entrada, la segunda variable, “visibilidad del crimen organizado”, no aparece como variable explicativa en el modelo de propensión. Uno supondría que hay otros determinantes de la propensión a intervenir; para garantizar una lectura causal de los coeficientes estadísticos en el análisis de Merino, habría que incluir todos estos determinantes.

Tercero, incluso si la tasa de homicidios del año previo fuera la única variable relevante, la Figura 1 revela que no existe equilibrio en la distribución de propensiones entre las observaciones con operativo conjunto (tratadas) y las observaciones sin operativo conjunto (de control). Por ejemplo, entre los estados/año sin operativo conjunto, Sonora 2010 es la única observación con riesgo relativamente alto de intervención militar. Para que el método de emparejamiento funcione, requeriríamos casos con riesgo alto de intervención para que funjan como “unidades de control” similares a las catorce “unidades tratadas” que aparecen en la parte superior derecha de la gráfica.

¿Que se puede concluir acerca del efecto de los operativos conjuntos?

El método de emparejamientos garantiza la posibilidad de encontrar “efectos causales” sólo bajo ciertos supuestos difíciles de aproximar, y que desgraciadamente no se cumplen en el análisis de Merino. En particular, es necesario utilizar un modelo de propensión más completo y reconocer que la falta de equilibrio entre unidades tratadas y de control requiere un paso adicional. Presento aquí un análisis alternativo, basado en las series de homicidio de INEGI, que admite estas limitaciones. No se trata, desde luego, de la única manera posible de obtener estimaciones del efecto de los operativos conjuntos sobre la tasa de homicidios. Si se trata en cambio de un análisis que usa el método de emparejamientos con mayor cautela.

Parto del supuesto de que no podemos tratar los datos estado/año como si se tratara de observaciones independientes. Más allá de los problemas de correlación serial y/o espacial que muy probablemente caracterizan estos datos, el método de correspondencia requiere emparejar observaciones basadas en determinantes de la violencia “previos al tratamiento”. Si estos determinantes son consecuencia de la variable de tratamiento, no deben incluirse en el análisis. Por ejemplo, no podemos considerar la tasa de homicidios de Chihuahua en 2009 como un determinante “previo” al operativo conjunto en 2010, toda vez que el operativo conjunto ya existía desde 2008 y por lo tanto es anterior a la tasa de homicidios en 2009. Para propósitos de esta nota, he omitido todos los datos posteriores al primer año de un operativo conjunto por no cumplir con esta condición. Siguiendo esta regla, considero un total de ocho “operativos conjuntos” independientes (Figura 2). Por razones similares busco “parejas” para estas ocho unidades entre datos contemporáneos; por ejemplo, evito considerar a San Luis Potosí en 2010 como posible observación contrafáctica para algún estado intervenido en 2008 o 2009, puesto que el dato de homicidios en este estado/año depende en parte de los años de violencia previos en otros estados colindantes.

Además del nivel de homicidios del año previo, incluyo en el modelo de propensión la tasa de cambio en el nivel de homicidios. Justifico este supuesto bajo el argumento de que el Ejército interviene no sólo aquellos estados con tasas altas de homicidio, sino especialmente aquellos en los que se detecta un aumento más acelerado de esta tasa.[7] La Figura 2 resume los emparejamientos derivados de este ejercicio. Las líneas conectan cada una unidad tratada con un “operativo conjunto” con su correspondiente pareja contrafáctica de control.[8] Por ejemplo, a Tamaulipas 2008 corresponde la pareja San Luis Potosí 2008. Es evidente que, como en el análisis original, no existen en realidad unidades de control válidas para Guerrero 2007, Chihuahua 2008, y Sinaloa 2008. Aunque el “emparejamiento” no es perfecto, el ejercicio sí reduce la disparidad que existe entre estados con y sin operativo conjunto. Por ejemplo, la tasa media de homicidios entre todas las observaciones sin operativo conjunto es 8.6, mientras que el incremento promedio de la tasa de homicidios con respecto al año previo es 0.13. Al considerar únicamente las ocho unidades contrafácticas de la Figura 2, los promedios aumentan, respectivamente, a 13.34 y 0.19 y se acercan más a los promedios del conjunto de estados intervenidos (25.34 y 0.77).

La diferencia en la propensión que subsiste entre unidades tratadas y unidades de control y que es evidente en la Figura 2 es la razón por la que hay que modelar la tasa de homicidios de estas dieciséis observaciones como función de la existencia de operativos conjuntos y de la medida de propensión calculada. Excluir la medida de propensión equivale a asumir que el ejercicio de emparejamiento es perfecto, un supuesto a todas luces falso. El supuesto más plausible es que el ejercicio de emparejamientos dista de producir equilibrio entre unidades tratadas y de control. Al incluir la medida de propensión como variable adicional en un modelo de regresión, el efecto estimado de la intervención militar es un orden de magnitud menor al reportado por Merino y en ningún caso se acerca a estándares convencionales de significancia estadística.[9] En pocas palabras, no hay evidencia de que los operativos conjuntos alteren la tasa de homicidios mas allá de lo que cabría esperar dado el entorno en el que se han implementado dichos operativos. Así, cabe esperar que la tasa de homicidios en Chihuahua sea altísima debido a factores anteriores a la implementación del operativo conjunto, y no a consecuencia del operativo conjunto.

El lector avezado en el análisis estadístico objetara que una estimación basada en tan pocas observaciones es endeble. Esta objeción es razonable, pues un mayor número de datos genera mayor certidumbre acerca de los coeficientes estimados. En este caso, sin embargo, hay dos consideraciones adicionales. Primero, a pesar del reducido número de observaciones, los errores estándar de las otras variables en el modelo son muy precisos.[10] Segundo, la aportación principal del método de emparejamiento se basa precisamente en el argumento de que es preferible sacrificar “eficiencia” en la estimación a cambio de menor “sesgo” en la estimación. La alternativa—analizar muchos datos perfectamente desequilibrados—permite obtener estimaciones muy precisas de un coeficiente terriblemente sesgado. Un uso más cauto del método de emparejamiento no permite concluir que habría muchos menos muertos en ausencia de las intervenciones militares.

Guillermo Rosas. Doctor en ciencia política y profesor en la Universidad de Washington en St. Louis.


[1] Se puede encontrar la documentación y una versión más detallada de esta nota en http://grosas.wustl.edu.

[2] Rosenbaum y Rubin son los promotores originales del propensity score matching (P. R. Rosenbaum y D. B. Rubin. “The Central Role of the Propensity Score in Observational Studies for Causal Effect”. Biometrika, 70:41–55, 1983.)

[3] Estos modelos generalmente encuentran una asociación estadística positiva entre “operativo conjunto” y “violencia homicida”, lo cual se suele interpretar, con mucha manga ancha, como una relación causal.

[4] De manera análoga, un experimento con asignación aleatoria de tratamiento y control permite estimar el efecto de un nuevo medicamento justamente porque la distribución de todas las demás variables que afectan la salud de un individuo se presumen idénticas en ambos grupos (es decir, hay proporciones similares de fumadores, de mujeres, de jóvenes, étcetera, en ambos grupos).

[5] Ver D. Ho, K. Imai, G. King, and E. Stuart. “Matching as Nonparametric Preprocessing for Improving Parametric Causal Inference”. Political Analysis, 15(3):199–236, 2007.

[6] Siguiendo el código de Merino, la medida de propensión es la probabilidad estimada de que un estado/año tenga un operativo conjunto dada la tasa de homicidios del año previo, basada en un modelo “probit”.

[7] La variable en este caso es (He,t-He,t-1)/He,t-1; H es la tasa de homicidio (inegi100 en el código de Merino), e es el estado y t es el año.

[8] El algoritmo es el de “nearest neighbor matching” sin reemplazo. Merino basa su análisis en un algoritmo más sofisticado que, desafortunadamente, no resuelve el problema de falta de equilibrio entre unidades tratadas y de control.

[9] El análisis estadístico que sustenta esta conclusión se puede encontrar en http://grosas.wustl.edu.

[10] En regresiones alternativas incluí observaciones posteriores al año de intervención, lo que permite incluir 19 observaciones intervenidas y otras tantas de control (se pierden 8 observaciones intervenidas por valores faltantes en la variable “incremento de homicidios”). Incluso en este caso, la intervención militar no produce un efecto estadísticamente significativo.