A Lei de Newcomb-Benford no combate a fraudes (V.3, N.10, P.3, 2020)

Facebook Instagram YouTube Spotify
Tempo de leitura: 4 minutos
#acessibilidade Três barras 3D azuis com os números 1, 2 e 3 no topo. A barra do número 1 é mais alta que a do número 2, que é mais alta que a do número 3.

Em 1881, o astrônomo e matemático Simon Newcomb (1835-1909) notou em um livro com tabelas de logaritmos que as primeiras páginas eram muito mais gastas do que as últimas (sim, antigamente, quando não tínhamos uma calculadora científica em nossos bolsos, existiam tabelas com os valores de logaritmos, senos, cossenos, etc). Essa observação o levou a formular o que mais tarde seria a chamada Lei de Newcomb-Benford, que diz que a probabilidade de um número começar com dígitos menores é muito maior do que a de começar com dígitos maiores, ou seja, a chance do primeiro dígito ser 1 é maior do que a chance de ser 2, que é maior do que a chance de ser 3 e assim por diante. Mas será que isso acontece mesmo na prática?

Em 1938, o físico Frank Benford (1883-1948) coletou milhares de dados de diversas fontes e tipos, como pesos moleculares, constantes físicas, áreas superficiais de rios, contas de eletricidade, preços de ações, números presentes em revistas Reader’s Digest, etc., analisou os primeiros dígitos e descobriu que todos os conjuntos de dados seguiam, em maior ou menor grau, a mesma proporção, com números menores sendo mais frequentes que números maiores. A descoberta foi nomeada como Lei de Benford.

Particularmente, prefiro me referir a ela como Lei de Newcomb-Benford já que ambos foram importantes na descoberta, mas também é possível encontrar referências como Lei de Benford, Lei dos Números Anômalos, Lei do Primeiro Dígito ou mesmo como NB-Lei.

É contraintuitivo, não? Se, por exemplo, eu usasse os números de visualizações dos textos do Guia e extraísse só o primeiro dígito, eu esperaria que os números de 1 a 9 aparecessem em frequências parecidas, mas segundo a Lei de Newcomb-Benford, a probabilidade de um número começar com determinado dígito D é igual a P(D1) = log10(D1 + 1) − log10(D1). Utilizando a fórmula chegamos aos valores abaixo:

A chance do primeiro número ser 1 é de 30.1%, a chance de ser 2 é de 17.6%, 3 é de 12.5%, 4 de 9.7%, 5 de 7.9%, 6 de 6.7%, 7 de 5.8%, 8 de 5.1% e 9 de 4.6%. Essa distribuição costuma de aplicar melhor a conjuntos de dados com escalas maiores. Também é possível usar a equação para descobrir a probabilidade de um número iniciar com uma sequência de dígitos, como a probabilidade dos dois primeiros dígitos serem determinado número entre 10 e 99, por exemplo, seguindo a fórmula P(D2) = log10(D1D2 + 1) − log10(D1D2).

Agora você talvez esteja pensando: “Tá, mas de que me serve saber de tudo isso?”

Bom, esta lei está presente em muitos lugares, você já pode ter cruzado com várias aplicações dela e não se deu conta porque nem sabia que ela existia. Sua principal utilidade é em auditorias auxiliando na detecção de fraudes.

Na década de 70, um economista chamado Hal Varian sugeriu que a Lei de Newcomb-Benford fosse utilizada para detectar fraudes em dados socioeconômicos partindo da ideia de que um fraudador tenderia a distribuir os números de maneira mais uniforme, a fim de não levantar suspeitas. Desta forma, enquanto dados reais seguiriam a distribuição da Lei de Newcomb-Benford (não apenas para o primeiro dígito), números fraudados teriam um comportamento muito diferente.

Em 2011 um grupo de cientistas analisou dados macroeconômicos do período entre 1999 e 2009 fornecidos pelos países da Zona Euro à União Europeia. Os dados fornecidos pela Grécia foram os que mais se desviaram da distribuição esperada, indicando uma possível fraude nos números.

Já em 2020, dois pesquisadores usaram a Lei de Newcomb-Benford para analisar possíveis manipulações nos casos confirmados de Covid-19 reportados pela China. Eles não apenas não encontraram evidências de manipulação, como também compararam os dados aos dos EUA e da Itália, todos os três com uma distribuição do primeiro dígito muito parecida, conforme o esperado.

Algumas sequências infinitas de números inteiros seguem perfeitamente a Lei de Newcomb-Benford, tais como: os números da Sequência de Fibonacci, fatoriais e potência de dois. É claro que também existem dados aos quais ela não se aplica, como números sequenciais, números estipulados por humanos (como um preço que seria R$ 100,00 e se torna R$ 99,99) e dados com um mínimo ou máximo (como alguns levantamentos de casos de Covid-19 que só incluem os dados a partir de X casos ou apenas de municípios com mais de Y pessoas).

Vejamos um último exemplo. Usando os números de visualizações dos textos do Guia, extraí apenas o primeiro dígito, calculei a distribuição e coloquei o resultado no gráfico abaixo:

De todos os primeiros dígitos, 25.8% foram 1, 14.2% foram 2, 12.3% foram 3, 12.9 foram 4, 10.3 foram 5, 4.5 foram 6, 7.1 foram 7, 7.1 foram 8 e 5.8 foram 9. O que você acha? Esses números são autênticos? A que outros dados você poderia aplicar a Lei de Newcomb-Benford?

Fontes:

Fonte da imagem destacada: Designed by macrovector / Freepik

https://en.wikipedia.org/wiki/Benford%27s_law

Newcomb, Simon. “Note on the Frequency of Use of the Different Digits in Natural Numbers.” American Journal of Mathematics, vol. 4, no. 1, 1881, pp. 39–40. DOI: 10.2307/2369148

Benford, Frank. “The Law of Anomalous Numbers.” Proceedings of the American Philosophical Society, vol. 78, no. 4, 1938, pp. 551–572. DOI: 10.1080/08974438.2020.1796880

Rauch, Bernhard, et al. “Fact and fiction in EU-governmental economic data.” German Economic Review 12.3 (2011): 243-255. DOI: 10.1111/j.1468-0475.2011.00542.x

Koch, Christoffer and Okamura, Ken, “Benford’s Law and COVID-19 Reporting” (April 28, 2020). Disponível no SSRN. DOI: 10.2139/ssrn.3586413

SANTOS, Josenildo dos et al. “Aplicações da lei de Newcomb-Benford na auditoria tributária do imposto sobre serviços de qualquer natureza (ISS)”. Rev. contab. finanç. 2009, vol.20, n.49, pp.63-78. ISSN 1808-057X. DOI: 10.1590/S1519-70772009000100006

Compartilhe:

Leave a Reply

Your email address will not be published.Required fields are marked *