La ley de Benford: una introducción

En la mayoría de las aplicaciones de la estadística es un número que significa algo. Se refieren a la temperatura en la ciudad, con el ingreso promedio por región o el número de ratas en un edificio del banco. La ley de Benford es también acerca de tales números, pero nos dice, al menos a primera vista, nada acerca de la realidad misma. Parece ser sólo acerca de la forma en la que se anotan los números. Más programas de análisis, sin embargo, que la realidad hace jugar un papel. Pero lo que no está claro exactamente.

Las formulaciones de la ley

La más sencilla variante de la ley de Benford establece que en un conjunto de datos, la cantidad de números que comiencen con un 1 es mucho mayor que el número de dígitos que comienza con un número diferente. Una formulación más exacta indica que la probabilidad p es un número en un conjunto de datos que comienza con un dígito d es igual a
  • p = log - log = log

En este documento, el registro de logaritmo normal con base 10. De acuerdo con la definición de la función de registro es y = log exactamente que cuando x = 10 y ^, y viceversa. Como p = log = 0,301 yp = log = 0.046 es lo primero como una figura a partir de acuerdo a la ley de Benford, incluso más de seis veces más común que el 9. Las probabilidades para todos los prefijos posibles se enumeran en la siguiente lista. La figura 1 muestra las mismas oportunidades de nuevo que se muestran gráficamente a través de la línea azul.

Figura 1: Probabilidad de acuerdo a Benford
  • p = 0,301
  • p = 0,176
  • p = 0,125
  • p = 0,097
  • p = 0,079
  • p = 0,067
  • p = 0,058
  • p = 0,051
  • p = 0,046

La línea verde en la figura 1 indica las probabilidades sumadas. Para d = 2, por ejemplo, la línea verde muestra la probabilidad de que el número comienza con un 1 ó 2. Esto es, por supuesto, ser igual a p + p. Es fácil demostrar que la probabilidad se suman para todos los prefijos posibles, de hecho, es igual a 1. Esa prueba es el siguiente:
p + p + ... + p =
(log - log) + (log - log) + ... + - log) =
log - log =
1-0 =
1
Hay formulaciones más elaboradas de la ley de Benford también ven las posibilidades de aparición de los números en diferentes posiciones, pero no hemos considerado aquí.
Cuando se inicia un generador de números aleatorios ordenador todas las cifras son tan común y la ley es razonablemente seguro para poner a un lado. Pero cuando la realidad misma proporciona los datos - aunque hay muchas secuencias matemáticas con la misma propiedad - hay una posibilidad razonable de que los números hacen obedecer la ley de Benford. Parece una conclusión absurda y, de ser cierto, es en el mejor de una ocurrencia tardía que el recopilador de datos seria no tiene que preocuparse. Pero sí es un patrón y se trata a menudo suficiente para ser tomado en serio. Se pide una explicación.

La práctica

La frecuencia desigual de números de salida es a menudo suficiente para ser de uso práctico. Especialmente cuando se trata de datos financieros proporciona una oportunidad para distinguir los datos manipulados a partir de datos reales. Servicios de detección de fraude utilizan realmente la ley de Benford para asegurarse de que no es alguien en algún lugar tiene los números de ejecutar la manipulación. Cuando la gente tiene números que las cifras iniciales, pero rara vez se inventan las oportunidades que deben tener según la figura 1. Hay incluso casos judiciales en los que se presentan las desviaciones de la ley como prueba. Si la ley es una ocurrencia tardía, entonces es que tiene consecuencias.

Una ley empírica

La ley de Benford es una ley empírica. No es una propuesta que está matemáticamente deriva de axiomas ?? s u otras declaraciones. Es un patrón que en muchos - pero no todos - impide que las colecciones de datos. En suma, es una situación poco satisfactoria. Algo que ocurre a menudo sin duda tener una causa? Pero, ¿qué? Si se conoce la causa, sino que también puede ser determinado cuando la ley es y cuando no lo hace. Para que causa en la que estado buscando y aunque ahora hay un poco de claridad ha llegado a la situación, todavía hay un montón de preguntas.
Las dos personas - Simon Newcomb y Frank Benford - descubrieron independientemente la ley, no sólo se han dado cuenta del patrón, pero también identificaron un mecanismo que pudiera causar. Ambos argumentaron la ley de Benford atrás hasta la siguiente observación bastante curiosa: cuando los números empíricos siempre se hallará en logaritmo y cuando logaritmos se distribuyen de manera uniforme, se sigue la ley de Benford. Una distribución uniforme significa que la probabilidad de la ocurrencia de un número en un conjunto de datos para todos los números es el mismo tamaño. Un misterio que ni los exploradores pueden resolver a satisfacción de todos, es por eso que los logaritmos de muchos conjuntos de datos se distribuyen uniformemente. Pero misterios son sólo es interesante si se entienden. Por lo tanto, se presentan en las siguientes declaraciones de Benford Newcomb y luego miramos brevemente a la cuestión de qué delantal;

El nombre de la ley

Hay, como se ha mencionado, dos descubridores de la ley de Benford. De éstos, con diferencia, la primera fue Simon Newcomb. En 1881 se publicó, aunque con una redacción diferente, la ley que se da arriba. Su artículo, sin embargo, era apenas se dio cuenta y fue rápidamente olvidado. En 1938 Frank Benford redescubrió la ley sin conocimiento de la obra de Newcomb. Que la ley debe su nombre puede ser históricamente inexacta, el artículo de Benford de duda más fácil de seguir y otro más detallado que el de Newcomb. Por otra parte, él tiene - y Newcomb apenas - la ley probado en la base de datos empíricos reunidos. Ciertamente llamativo que tanto los hombres han descubierto la ley de la misma manera, al señalar que se utilizaron algunos libros con más frecuencia que otros.

La razón

En algún lugar alrededor de 1881 Simon Newcomb se encontró cara a cara con logaritmetafels entonces todavía habituales. Las tablas consistieron en una serie de folletos que cada folleto contenía números que comenzaron con los dígitos 1 a 9; para cada dígito de un folleto separado. Vio que los folletos para los números que comienzan con 1 fueron significativamente más sucio que los otros libros. Obtener los números que comienzan con una o algunas veces más a menudo? Otra conclusión fue casi imposible y Newcomb fue en busca de una explicación. Para que la declaración fue otra observación importante. Los folletos con anti-logaritmos mostraron la dependencia de la figura no se inicia. Los libros anti-registro empiezan por 1 eran tan sucio como los libros que comenzaron con un 9. Como se ha mencionado, en 1938 Frank Benford observaron exactamente lo mismo. También fue en busca de una explicación. Para entender de dónde Newcomb Benford y estaban hablando, una breve discusión de cómo logaritmetafels necesario.
Cálculo con logaritmetafels
Logaritmetafels eran en los tiempos de Newcomb y Benford, cuando no había computadoras, utilizadas para facilitar la multiplicación de números grandes. Después de todo, cuando z = x * y luego: log = log + registro. Si el registro se ha calculado a continuación, uno puede mirar en otro folleto sobre el valor de z. Estos otros libros contienen lo que estaba entonces todavía llamado los anti-logaritmos. De esta manera, la multiplicación de números podría ser reemplazada por una suma de los logaritmos. La adición es simplemente mucho más rápido que la multiplicación, especialmente en grandes cantidades. Las tres veces que un registro o anti-registro para ser buscado eran operaciones ciertamente de más, pero que no superan la carga de la multiplicación.
Salvaje, por ejemplo, para calcular el valor de 123 * 456, a continuación, fue primero el logaritmo del número 123 se ve arriba en el folleto con los números que comienzan con un 1. Su valor era de 2.089905. Lo mismo se hizo para 456, pero ahora, por supuesto, en el folleto con los números que comiencen con un 4. El valor del mismo es 2,658965. La suma de dos números es 4,748870. Este es el logaritmo de la respuesta y por lo tanto la respuesta es igual a 10 ^. Esta potencia de 10 es, como se ha mencionado, el anti-logaritmo.
Ahora viene un giro importante ?? ??. En las tablas anti-registro no se buscó el número 4.748870, pero sólo la parte después de la coma, por lo 748870. El anti-log de un número x es de hecho igual a 10 ^ x y x + y está escrito como b con b es un entero e y es un número entre 0 y 1, entonces tenemos = 10 ^ 10 ^ 10 ^ b * y. El término b sólo indica mediante el cual poder de 10 anti-registro de y para multiplicarse. En otras palabras, b indican donde la coma debe ser.
Argumento Newcomb ?? s
El enigma donde Newcomb representaba era explicar por qué las cifras iniciales de los números que tenían que esperar - los datos en bruto - que mostró la dependencia del número de inicio y los logaritmos de los números no es. Todos los últimos libros deben ser igualmente sucio. El análisis de Newcomb no literalmente seguir aquí. Seguimos más o menos el análisis de Frank Benford y autores posteriores. Formalmente, todo viene a ser lo mismo.
El análisis comienza con una reescritura de los datos en bruto en notación científica. Cada número x se puede reescribir como de hecho
  • x = a ^ b 10

en donde a es un número real entre 1 y 10 y b es un número entero que es negativo, es ahora, o puede ser positivo. Por ejemplo, si x = 0,0314, entonces esto puede escribirse como x = 3,14 * 10 ^, y así sucesivamente. Cuando un número está escrito en notación científica, a continuación, su logaritmo éstas forman esclarecedor.
  • Si x = a * 10 ^ entonces log = log b +

El primer dígito de x es por supuesto, el primer dígito de un. La principal diferencia es que tenemos que buscar x muchos intervalos diferentes, mientras que sólo tenemos que ser visto en una notación científica. El número x se inicia con un 1 si y sólo si a es entre 1 y 2.
Los dos observaciones de Newcomb ahora pueden ser conectados entre sí. La afirmación de que el primer dígito de x 1 es lo mismo que decir que el primer dígito de un es un primero. A su vez, es como decir que de registro es entre registro y registro, o entre 0 y 0.301. Si ahora los números transformados logarítmicamente se distribuyen de manera uniforme, entonces la probabilidad de que A está entre 1 y 2 es igual a la probabilidad de que A está entre 2 y 3, y así sucesivamente. Traducido de nuevo a los datos en el dominio en bruto, sin embargo, esto significa que la probabilidad de que un comienzo con un 1 es mayor que la probabilidad de que un comienzo con un 2. Después de todo, la primera probabilidad es igual a log - log = log y la posibilidad de una 2 primera cifra inicial es equivalente a log - log y así sucesivamente. Está claro que estas declaraciones se corresponden exactamente con lo que la ley requiere de Benford.
La conclusión es clara. Cuando los logaritmos de los puntos de datos observados se distribuyen uniformemente, a continuación, los propios datos en bruto seguir la ley de Benford.

Benford y Newcomb dejaron en claro en las condiciones abstractas en las que puede aplicar la ley de Benford. Esto es cierto en cualquier caso cuando los logaritmos de los puntos de datos se distribuyen en un conjunto de datos uniforme. Pero eso no es ciertamente todos los problemas disipado.
El primer problema es la cuestión de por qué los logaritmos se dividen empíricamente reunido puntos de datos uniforme. Tanto Newcomb y Benford especulan acerca de esto, pero sus especulaciones se encuentran generalmente demasiado vaga. Argumentan que cada número observado es el resultado de procesos complejos. Piense en las estadísticas de ganancias. Estos son sin duda los números simples, pero las causas que han producido el número son indudablemente inmenso complejo. Newcomb y Benford argumentan que si el ruido de estos procesos "multiplicador" y cuando hay relativamente mucho es en estos procesos que pueden esperarse entonces que los registros de los puntos de datos se distribuyen de manera bastante uniforme. Eso no es una posición razonable, pero si está bien, es una cuestión que debe estudiarse más a fondo tanto empírica y matemáticamente. Después de todo, existen otros mecanismos concebibles que conducen a los mismos resultados.
Un segundo problema es que el mecanismo de Newcomb y Benford fundamentalmente no afirma que los registros de los datos deben ser distribuidos de manera uniforme, pero que el registro de término en notación científica distribuye uniformemente. Si los registros se distribuyen a todo el conjunto de datos uniforme, a continuación, aunque los términos son también distribuyeron un uniforme, pero lo contrario no se aplica. Por lo tanto, hay particiones "raras" son concebibles que conducen a la ley de Benford, pero que no se distribuyen de manera uniforme
Un tercer problema es que no está claro si la ley de Benford no se pudo establecer de alguna manera diferente. Caer de nuevo en los logaritmos de los datos observados es bastante comprensible dado el contexto en el que se descubrió la ley, pero ¿quién nos dice que esta es la única manera de que tal cosa se puede construir como la ley de Benford?
(0)
(0)

Comentarios - 0

Sin comentarios

Añadir un comentario

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Caracteres a la izquierda: 3000
captcha