Comparison between SVM and Logistic Regression: Which One is Better to Discriminate?

Comparaci\'on entre SVM y regresi\'on log\'istica: \textquestiondown cuál es más recomendable para discriminar?

DIEGO ALEJANDRO SALAZAR1, JORGE IV\'AN V\'ELEZ2, JUAN CARLOS SALAZAR3

1Universidad Nacional de Colombia, Escuela de Estadística, Medellín, Colombia. MSc student. Email: diasalazarbl@unal.edu.co
2Universidad Nacional de Colombia, Grupo de Investigaci\'on en Estad\'istica, Medellín, Colombia. Researcher. Email: jorgeivanvelez@gmail.com
3Universidad Nacional de Colombia, Escuela de Estadística, Medellín, Colombia. Universidad Nacional de Colombia, Grupo de Investigaci\'on en Estad\'istica, Medellín, Colombia. Associate professor. Email: jcsalaza@unal.edu.co

Abstract

The classification of individuals is a common problem in applied statistics. If X is a data set corresponding to a sample from an specific population in which observations belong to g different categories, the goal of classification methods is to determine to which of them a new observation will belong to. When g=2, logistic regression (LR) is one of the most widely used classification methods. More recently, Support Vector Machines (SVM) has become an important alternative. In this paper, the fundamentals of LR and SVM are described, and the question of which one is better to discriminate is addressed using statistical simulation. An application with real data from a microarray experiment is presented as illustration.

Key words: Classification, Genetics, Logistic regression, Simulation, Support vector machines.

Resumen

La clasificaci\on de individuos es un problema muy com\un en el trabajo estad\istico aplicado. Si X es un conjunto de datos de una poblaci\on en la que sus elementos pertenecen a g clases, el objetivo de los m\etodos de clasificaci\on es determinar a cu\al de ellas pertenecer\a una nueva observaci\on. Cuando g=2, uno de los m\etodos m\as utilizados es la regresi\on log\istica. Recientemente, las M\aquinas de Soporte Vectorial se han convertido en una alternativa importante. En este trabajo se exponen los principios b\asicos de ambos m\etodos y se da respuesta a la pregunta de cu\al es m\as recomendable para discriminar, vía simulaci\on. Finalmente, se presenta una aplicaci\on con datos provenientes de un experimento con microarreglos.

Palabras clave: clasificación, genética, máquinas de soporte vectorial, regresión logística, simulación.

[Recibido en septiembre de 2011. Aceptado en febrero de 2012]

