Python e a problemática da divulgação de dados pessoais pelos tribunais brasileiros

Uma perspectiva jurídica e tecnológica sobre o balanço entre publicidade e privacidade de dados

Henrique Junqueira Branco
25 min readJun 23, 2022

Sobre os autores

Tatiana Azevedo Delpech

Advogada (OAB/SP 325.132), legal designer e cientista de dados jurídicos. Atua na área de direito digital e proteção de dados.
LinkedIn: www.linkedin.com/in/tatianadelpech

Henrique Junqueira Branco

Engenheiro mecânico de formação, cientista de dados e engenheiro de machine learning como profissão e instrutor por diversão.
LinkedIn: www.linkedin.com/in/henriqueajnb

Introdução

Este artigo busca identificar e levantar a problemática envolvendo a divulgação de dados pessoais, através de processos públicos, pelos tribunais brasileiros, tomando como referência a identificação do CPF (Cadastro de Pessoas Físicas) no momento da qualificação da parte e exposto para um público de mais de um milhão de pessoas, sem necessidade, quando possível acessar o processo em inteiro teor.

Objetivo

Este trabalho não tem a pretensão de resolver o impasse entre o princípio da publicidade dos atos processuais e a privacidade dos dados pessoais, mas sim de mostrar, através dos métodos de automação, que é facilmente possível que robôs captem dados pessoais, como o CPF, possibilitando sua violação e mal uso.

Tal situação contraria os princípios e os direitos do titular de dados, previstos na Lei Geral de Proteção de Dados (Lei nº 13.709/2018), conhecida como LGPD. Esse impasse tem dimensões ainda maiores e que tendem a aparecer cada vez mais.

O presente trabalho, no entanto, quer apresentar somente uma fatia dessa problemática, demonstrando-a através de um código de programação na linguagem de alto nível Python.

Definição do problema

O Código de Processo Civil (CPC/2015) prevê o princípio da publicidade dos atos processuais, com exceção dos processos classificados como segredo de justiça. Este princípio integra o devido processo legal e representa uma das mais sólidas garantias do direito de defesa, previsto constitucionalmente, uma vez que a sociedade, a princípio, tem o interesse de presenciar e conhecer a realização da justiça.

A importância da publicidade dos atos processuais é tão grande que o ordenamento jurídico brasileiro considera nulos todos os atos realizados sem a observância dessa garantia processual.

No entanto, a própria Constituição Federal brasileira (CF/88) traz um novo entendimento à proteção de dados pessoais, que se torna um direito fundamental.

Tal situação é também suscitada pela ANPD (Autoridade Nacional de Proteção de Dados) em seu Guia Orientativo Tratamento de Dados Pessoais pelo Poder Público, versão 1.0, de janeiro de 2022¹, especificamente no item 84, página 20:

“No setor público, o processo de adequação às disposições da LGPD tem suscitado muitas dúvidas a respeito dos parâmetros a serem observados para a disponibilização pública de informações pessoais. De forma geral, a análise dessas situações envolve uma ponderação entre direitos: de um lado, o direito à privacidade e o direito à proteção de dados pessoais e, de outro, o direito de todos os indivíduos à informação sobre as atividades do Poder Público. Este último se traduz, por exemplo, na divulgação, com base no interesse público, de informações relativas à execução de políticas públicas e ao exercício de competências legais pelos órgãos e entes públicos que permitam aos cidadãos o exercício do controle social sobre as atividades do Poder Público. Frequentemente, todavia, para atender ao princípio da publicidade, o Estado é obrigado a divulgar dados pessoais.”

É no encontro desses dois princípios (privacidade e publicidade) que nasce a problemática identificada neste artigo.

Durante a qualificação das partes, ou seja, no momento da petição inicial, da contestação, ou do primeiro momento processual, o advogado coloca, por escrito, todas as informações necessárias para identificar aquela parte, incluindo o CPF. Este ato de qualificação é uma obrigação legal.

O CNJ (Conselho Nacional de Justiça), através da Resolução n. 121 de 2010, determinou no § 1º do artigo 3º que advogados devidamente cadastrados nos tribunais podem ter acesso irrestrito ao inteiro teor de processos judiciais não classificados como segredo de justiça, dando primazia ao princípio da publicidade, mas desde que demonstrado “interesse” para fins de registro.

Deve-se considerar que o cadastro nacional de advogados da OAB (Ordem dos Advogados do Brasil) registra, na data de 21 de fevereiro de 2022², o número de 1.236.599 (um milhão, duzentos e trinta e seis mil e quinhentos e noventa e nove) advogados. Tal quantidade é considerada elevada, sendo o Brasil um país com um dos maiores índices de advogado por habitante no mundo. Isso sem contar o número de magistrados, membros do Ministério Público e serventuários de justiça, que possuem acesso amplo aos processos.

Diante desse número bastante significativo, resta a pergunta: é necessário que toda essa quantidade de pessoas tenha acesso ao CPF de milhões de habitantes podendo, assim, formar um sistema automatizado para captura e criação de banco de dados? Qual é o interesse dessa quantidade de pessoas em potencial a ter acesso a milhares de CPFs disponíveis nos sistemas de justiça?

Frisa-se que a problemática levantada não é o acesso ao processo em si, que é uma importante prerrogativa do advogado. O presente estudo não quer atacar os direitos do advogado, mas sim questionar se a exposição do CPF, como um dado específico e que integra a lide somente para os interessados no processo, é realmente necessária para um público tão grande.

Hipótese

A hipótese que se observa diante do problema levantado é que a qualificação da parte no corpo do processo de inteiro teor fere o princípio da necessidade, previsto na LGPD. Essa é a fatia, objeto do estudo e do código de programação, que prova que o CPF no corpo do processo está vulnerável para captura indevida.

Entretanto, o advogado é obrigado a mencionar esses dados por escrito no corpo do processo, especialmente durante a qualificação da parte, isso sem falar na divulgação desses mesmos dados quando juntada a procuração nos autos.

Vale lembrar que, por se tratar de procuração com a assinatura física da parte, é muito comum advogados digitalizarem ou escanearem esses documentos para inserir no processo, e muitos desses documentos podem ser salvos como imagem para depois serem transformados em formato PDF.

Se houver documentos oriundos de imagens, é necessário utilizar sistemas de reconhecimento óptico de caracteres, ou OCR (Optical Character Recognition, em inglês). OCR é uma tecnologia para reconhecer e identificar caracteres a partir de uma imagem ou mapa de bits, seja ela escaneada, escrita à mão, datilografada ou impressa. O OCR permite transformar uma imagem em um arquivo de texto e, assim, possibilitar a busca textual proposta nesse estudo. A aplicação do OCR em si não está incluída neste trabalho, porém, vale ressaltar que a aplicação dessa tecnologia é simples, com baixo custo e facilmente oferecido pelas grandes empresas, como Google, IBM, Microsoft e Amazon.

Durante o protocolo de um processo, o advogado é obrigado a incluir todas as informações necessárias e conhecidas das partes, incluindo o CPF, no ambiente virtual do processo, como por exemplo o E-SAJ no Tribunal de Justiça de São Paulo. Nessa situação, provavelmente esses dados seguem para o banco de dados do referido Tribunal, o que os colocam em um ambiente mais seguro.

O cadastro do CPF é feito através do upload de um arquivo contendo a imagem escaneada do documento, e também pelo preenchimento de um formulário, conforme está demonstrado na imagem abaixo. A imagem foi retirada do sistema E-SAJ do Tribunal de Justiça de São Paulo. A análise da segurança dos dados pessoais nos bancos de dados dos Tribunais também não é um objeto deste estudo.

Fonte: Portal do E-SAJ do TJSP

Embora os sistemas de justiça (entende-se como sistemas de tramitação e acompanhamento processual) tentem fazer com que advogados identifiquem peças como confidenciais no momento do protocolo, a simples publicação por escrito deixa os dados pessoais vulneráveis a vazamentos.

Além disso, dados em processos classificados como segredo de justiça podem ser vazados, uma vez que algum advogado, intencionalmente ou não, pode publicar dados de forma equivocada. A decretação do segredo de Justiça é feita pelo magistrado. Assim, até que seja tomada uma decisão judicial, pode ser tarde demais e os dados já terem sido vazados.

Portanto, a hipótese de lesão à LGPD deriva do fato de que esses dados, mais especificamente o CPF, estão vulneráveis para captura e tratamento, sem a devida autorização do titular desses dados, para qualquer advogado que tenha se cadastrado no site do Tribunal de Justiça.

Ademais, mesmo que os dados devam ser inseridos no processo por interesse legal, simplesmente expor o CPF das partes envolvidas para um público tão grande não parece ser algo necessário à sociedade, o que acaba causando um desvio aos princípios da necessidade e finalidade, previstos na LGPD.

Os dados pessoais, como o CPF, sempre estiveram expostos nos processos, contudo é inegável dizer que a partir do momento em que tais processos se tornaram digitais o risco de violação e de mal uso desses dados ganhou uma outra proporção e dimensão, principalmente no mundo atual, em que os dados que trafegam na internet passaram a ganhar cada vez mais importância, uma vez que podem ser alvos de operações comerciais cada vez mais digitalizadas.

Aos dados pessoais são atribuídos interesses econômico e mercadológico e, com isso, gera a necessidade da sua proteção, com o intuito de preservar a privacidade e a intimidade de seus titulares, o que justificou a criação de regulamentações nesse sentido em todo o mundo, em especial ao RGPD (Regulamento Geral de Proteção de Dados) europeu e a supracitada LGPD brasileira.

Então, por que ainda manter esses dados disponíveis no inteiro teor do processo? É realmente necessário que esses dados estejam lá?

O cadastro dos dados no momento do protocolo do processo não é suficiente?

Não seria necessário repensar em como o advogado deve qualificar as partes nas peças processuais, a fim de evitar a divulgação de dados pessoais quando o processo for consultado em inteiro teor?

Não seria imprescindível pensar em algum sistema que possa mascarar esses dados quando divulgados? Ou mesmo pensar em alterações legislativas, ou regulamentadoras, que estejam de acordo com o novo valor comercial que os dados pessoais estão tomando atualmente?

Com base na simulação de violação de dados presente neste estudo, espera-se que se intensifique a discussão sobre esse problema e que sejam tomadas as devidas providências, para que tais dados, como o CPF, não sejam facilmente identificados e, dessa forma, colocando seus titulares em risco.

Análise de risco

Embora o código de programação deste estudo se concentre na captação de CPF em processos judiciais, sabe-se que há muitos outros dados obrigatórios no momento da qualificação, ou mesmo durante o processo. Tudo fica exposto: nome completo, estado civil, profissão, nacionalidade, CPF, RG (Registro Geral), endereço, etc.

Somente a divulgação do CPF em si já representa um risco. Segundo o site do Serasa³, um dos serviços de proteção de crédito mais importantes do Brasil, o vazamento do CPF é considerado grave, uma vez que pode acarretar em fraudes e golpes. Ainda afirma o Serasa:

“No mundo, cerca de 65% das violações e vazamentos de dados envolvem roubo de identidade. Dependendo dos dados vazados, os criminosos conseguem até abrir contas bancárias ou fazer grandes compras em nome da vítima. Além disso, é comum que criminosos realizem fraudes envolvendo cartão de crédito. Há casos em que tentam inclusive fazer extorsão, solicitando dinheiro para não usarem ou publicarem os dados roubados. Outro problema moderno é a venda das informações na “Dark Web”, onde não há fiscalização. Seja qual for a situação, ter os dados vazados pode gerar sérios problemas. O evento ocorrido em 2021, quando 223 milhões de pessoas tiveram suas informações vazadas, entre eles políticos e até mesmo falecidos, causou um alvoroço no Brasil. Na tentativa de vender seu material mais rapidamente, o hacker disponibilizou uma “amostra grátis” na internet com 5,6 milhões de CPFs. Por isso, a lista de CPFs vazados começou a circular na internet. Um site chamado “Fui vazado” foi lançado para que as pessoas pudessem verificar se seu CPF estava ou não no meio dos que o hacker já havia tornado público. Mas, o STF (Supremo Tribunal Federal) determinou que a Polícia Federal bloqueasse o site e um inquérito policial foi aberto. Assim, o “Fui vazado CPF” não se encontra mais disponível e quem quer fazer uma consulta CPF vazado deve utilizar outros meios.
A motivação do Supremo no caso se deu também porque dados de 2,5 mil políticos estavam no meio da amostra grátis vazada pelo hacker (…). Vazou CPF de muita gente! “A comercialização de informações e dados privados e sigilosos de membros desta Corte atinge diretamente a intimidade, privacidade e segurança pessoal de seus integrantes”, disse Alexandre de Moraes, ministro do Supremo Tribunal Federal, em despacho. Ou seja, ter o CPF vazado é um problemão para todos os brasileiros e maiores cuidados devem ser tomados.”

Para realmente mensurar o risco da divulgação de dado pessoal, a LGPD em seu artigo 3°, inciso XVII considera a elaboração de um relatório de impacto à proteção de dados pessoais, isto é, um documento que contém a descrição dos processos de tratamento de dados pessoais que podem gerar riscos às liberdades civis e aos direitos fundamentais, bem como medidas, salvaguardas e mecanismos de mitigação de risco.

Esse documento inclui a avaliação de risco de cada dado tratado, tomando por base o modelo de matriz de risco preconizado na norma ABNT NBR ISO/IEC 31000: 2018, que trata de sistemas de gestão de segurança da informação.

Ao encarregado de dados do Tribunal de Justiça de São Paulo, foi solicitado se a entidade já possui esse relatório, para saber como o próprio Tribunal classifica o risco de um possível vazamento de CPF. No dia 05 de abril de 2022, o encarregado informou que o relatório está em fase de elaboração.

Em relação a essa demanda, no site do E-SAJ do Tribunal de Justiça de São Paulo constam os seguintes termos em destaque:

Os atos processuais são públicos, ressalvadas as hipóteses de segredo e sigilo e observadas as normas de proteção de dados pessoais, a privacidade e a intimidade. Caberá ao usuário a responsabilidade por eventual uso ou divulgação das informações obtidas neste portal.”

No entanto, esse aviso não impede que um possível vazamento aconteça, e muito menos afasta a responsabilidade dos agentes de proteção de dados dos Tribunais.

É inegável dizer que a divulgação de dados pessoais pelos tribunais brasileiros contribui na construção da reputação digital de uma pessoa, facilitando a produção de dossiês e influenciando em contratações ou em qualquer ato da vida pública e privada de alguém.

Dados processuais, incluindo movimentações e processos em inteiro teor, já são indexados de forma totalmente legal em sites de busca jurídica, como Jus Brasil⁴, Escavador⁵ e Justiça Online⁶. Legaltechs, como a empresa brasileira de automação jurídica Loy Legal⁷, já fazem varredura automatizada de processos com os dados expostos de forma legal.

Princípios e fundamentos legais

O princípio da publicidade dos atos processuais está previsto na Constituição Federal no artigo 5º, inciso LX, combinado com o artigo 93, inciso IX da mesma carta, conforme descrito abaixo:

“Art. 5º Todos são iguais perante a lei, sem distinção de qualquer natureza, garantindo-se aos brasileiros e aos estrangeiros residentes no País a inviolabilidade do direito à vida, à liberdade, à igualdade, à segurança e à propriedade, nos termos seguintes: (…)
LX - a lei só poderá restringir a publicidade dos atos processuais quando a defesa da intimidade ou o interesse social o exigirem.

Art. 93. Lei complementar, de iniciativa do Supremo Tribunal Federal, disporá sobre o Estatuto da Magistratura, observados os seguintes princípios: (…)
IX - todos os julgamentos dos órgãos do Poder Judiciário serão públicos, e fundamentadas todas as decisões, sob pena de nulidade, podendo a lei limitar a presença, em determinados atos, às próprias partes e a seus advogados, ou somente a estes, em casos nos quais a preservação do direito à intimidade do interessado no sigilo não prejudique o interesse público à informação; (Redação dada pela Emenda Constitucional nº 45, de 2004)”

Conforme citado anteriormente, o princípio da publicidade também está previsto no artigo 189 do Código de Processo Civil (CPC/15), conforme exposto:

“Art. 189. Os atos processuais são públicos, todavia tramitam em segredo de justiça os processos:
I - em que o exija o interesse público ou social;
II - que versem sobre casamento, separação de corpos, divórcio, separação, união estável, filiação, alimentos e guarda de crianças e adolescentes;
III - em que constem dados protegidos pelo direito constitucional à intimidade;
IV - que versem sobre arbitragem, inclusive sobre cumprimento de carta arbitral, desde que a confidencialidade estipulada na arbitragem seja comprovada perante o juízo.
§ 1º O direito de consultar os autos de processo que tramite em segredo de justiça e de pedir certidões de seus atos é restrito às partes e aos seus procuradores.
§ 2º O terceiro que demonstrar interesse jurídico pode requerer ao juiz certidão do dispositivo da sentença, bem como de inventário e de partilha resultantes de divórcio ou separação.”

Também no Código de Processo Civil, em seu artigo 319, estão previstos os requisitos obrigatórios na petição inicial, incluindo a qualificação das partes, a seguir:

“Art. 319. A petição inicial indicará:
I - o juízo a que é dirigida;
II - os nomes, os prenomes, o estado civil, a existência de união estável, a profissão, o número de inscrição no Cadastro de Pessoas Físicas ou no Cadastro Nacional da Pessoa Jurídica, o endereço eletrônico, o domicílio e a residência do autor e do réu;
III - o fato e os fundamentos jurídicos do pedido;
IV - o pedido com as suas especificações;
V - o valor da causa;
VI - as provas com que o autor pretende demonstrar a verdade dos fatos alegados;
VII - a opção do autor pela realização ou não de audiência de conciliação ou de mediação.
§ 1º Caso não disponha das informações previstas no inciso II, poderá o autor, na petição inicial, requerer ao juiz diligências necessárias a sua obtenção.
§ 2º A petição inicial não será indeferida se, a despeito da falta de informações a que se refere o inciso II, for possível a citação do réu.
§ 3º A petição inicial não será indeferida pelo não atendimento ao disposto no inciso II deste artigo se a obtenção de tais informações tornar impossível ou excessivamente oneroso o acesso à justiça.”

O artigo acima trata das informações e peças necessárias na petição inicial, sob risco de indeferimento, no qual o inciso II determina expressamente a qualificação da partes, com inclusão do CPF, para pessoa física, ou CNPJ (Cadastro Nacional de Pessoa Jurídica), para pessoa jurídica, colocando, nos parágrafos seguintes, as razões plausíveis para a não obrigatoriedade somente quando tal informação for desconhecida ou não acessível ao advogado.

Vale salientar que essa obrigatoriedade não é nova, uma vez que já era prevista de igual modo no artigo 282 do antigo Código de Processo Civil de 1973. Logo, como mencionado anteriormente, a divulgação de dados pessoais, especialmente o CPF, não é algo novo. No entanto, quando tal dispositivo foi criado, ou seja, antes do processo digital, não se falava em segurança e privacidade de dados, principalmente por não haver na época a possibilidade de criar sistemas automatizados por meio de computadores com acesso amplo e irrestrito para captura e mal uso desses dados.

É imprescindível a necessidade dos sistemas de justiça em obter esses dados. Primeiramente, conforme supracitado, para garantir a transparência e, com isso, o amplo direito de defesa, visto que o devido processo legal e o contraditório são direitos fundamentais.

Em outro ponto, a identificação das partes, incluindo o CPF, permite que os sistemas de justiça identifiquem os casos de ocorrência de prevenção, litispendência e coisa julgada, conforme bem explicitado no parágrafo único do artigo 14 da Lei n. 11.419/2006, que dispõe sobre a informatização do processo judicial.

O mesmo novel também traz a obrigatoriedade de inclusão do CPF no artigo 15 “caput”, in verbis:

“Art. 15. Salvo impossibilidade que comprometa o acesso à justiça, a parte deverá informar, ao distribuir a petição inicial de qualquer ação judicial, o número no cadastro de pessoas físicas ou jurídicas, conforme o caso, perante a Secretaria da Receita Federal.”

Mesmo antes da promulgação da LGPD, em agosto de 2020, a necessidade de proteção de dados em processos judiciais já estava sendo discutida e foi amplamente tratada pelo Conselho Nacional de Justiça (CNJ) através da Resolução nº 121 de 2010, que disciplina a divulgação dos dados processuais eletrônicos na internet.

A resolução ratificou o fato das consultas dos processos serem públicas, obedecendo ao princípio da publicidade, porém limitadas a algumas informações pelo qual o CNJ chamou de dados básicos”, conforme artigos 2º e 3º abaixo:

“Art. 2.º Os dados básicos do processo de livre acesso são:
I - número, classe e assuntos do processo;
II - nome das partes e de seus advogados;
III - movimentação processual;
IV - inteiro teor das decisões, sentenças, votos e acórdãos.

Art. 3.º O advogado cadastrado e habilitado nos autos, as partes cadastradas e o membro do Ministério Público cadastrado terão acesso a todo o conteúdo do processo eletrônico.
§ 1º. Os sistemas devem possibilitar que advogados, procuradores e membros do Ministério Público cadastrados, mas não vinculados a processo previamente identificado, acessem automaticamente todos os atos e documentos processuais armazenados em meio eletrônico, desde que demonstrado interesse, para fins, apenas, de registro, salvo nos casos de processos em sigilo ou segredo de justiça.
§ 2º. Deverá haver mecanismo que registre cada acesso previsto no parágrafo anterior.”

Observa-se que o acesso amplo ao CPF das partes por potencialmente todos os advogados do Brasil está garantido no § 1º do artigo 3º da resolução, contudo, desde que demonstrado o “interesse” para fins de registro.

Verifica-se também que o CPF não é mencionado como um dado básico a ser disponibilizado no processo e, por isso, não se pode confundir com o artigo seguinte:

“Art. 4.º As consultas públicas dos sistemas de tramitação e acompanhamento processual dos Tribunais e Conselhos, disponíveis na rede mundial de computadores, devem permitir a localização e identificação dos dados básicos de processo judicial segundo os seguintes critérios: (Redação dada pela Resolução nº 143, de 30.11.2011)
I - número atual ou anteriores, inclusive em outro juízo ou instâncias;
II - nomes das partes;
III - número de cadastro das partes no cadastro de contribuintes do Ministério da Fazenda;
IV - nomes dos advogados;
V - registro junto à Ordem dos Advogados do Brasil.”

Salienta-se aqui que o CPF mencionado no inciso III é tratado como um critério de consulta de processo judicial. Entretanto, um dado ser considerado como um mecanismo de consulta não significa a possibilidade de divulgação do mesmo.

Ou seja, é preciso diferenciar o fato de que um processo poder ser consultado através do CPF não permite que o mesmo CPF da parte deva estar disponível para terceiros.

O embasamento legal, até o presente momento, sobre a qualificação das partes, em especial à divulgação do CPF das partes no inteiro teor do processo, entra em conflito com os princípios da finalidade e da segurança preconizados na LGPD.

Fundamento legal na LGPD

Os princípios da LGPD constam no artigo 6º da Lei:

“ Art. 6º As atividades de tratamento de dados pessoais deverão observar a boa-fé e os seguintes princípios:
I - finalidade: realização do tratamento para propósitos legítimos, específicos, explícitos e informados ao titular, sem possibilidade de tratamento posterior de forma incompatível com essas finalidades;
II - adequação: compatibilidade do tratamento com as finalidades informadas ao titular, de acordo com o contexto do tratamento;
III - necessidade: limitação do tratamento ao mínimo necessário para a realização de suas finalidades, com abrangência dos dados pertinentes, proporcionais e não excessivos em relação às finalidades do tratamento de dados;
IV - livre acesso: garantia, aos titulares, de consulta facilitada e gratuita sobre a forma e a duração do tratamento, bem como sobre a integralidade de seus dados pessoais;
V - qualidade dos dados: garantia, aos titulares, de exatidão, clareza, relevância e atualização dos dados, de acordo com a necessidade e para o cumprimento da finalidade de seu tratamento;
VI - transparência: garantia, aos titulares, de informações claras, precisas e facilmente acessíveis sobre a realização do tratamento e os respectivos agentes de tratamento, observados os segredos comercial e industrial;
VII - segurança: utilização de medidas técnicas e administrativas aptas a proteger os dados pessoais de acessos não autorizados e de situações acidentais ou ilícitas de destruição, perda, alteração, comunicação ou difusão;
VIII - prevenção: adoção de medidas para prevenir a ocorrência de danos em virtude do tratamento de dados pessoais;
IX - não discriminação: impossibilidade de realização do tratamento para fins discriminatórios ilícitos ou abusivos;
X - responsabilização e prestação de contas: demonstração, pelo agente, da adoção de medidas eficazes e capazes de comprovar a observância e o cumprimento das normas de proteção de dados pessoais e, inclusive, da eficácia dessas medidas.”

Dentre todos os princípios, destacam-se os da finalidade e da necessidade. Afinal, a obrigatoriedade de inserir o CPF duas vezes no processo (no momento do cadastro, para protocolo, e por escrito na qualificação, sendo que este último faz com que apareça esse dado no processo de inteiro teor), em tese, fere esses dois princípios.

Cabe agora verificar a natureza do dado CPF, objeto desse estudo.

O artigo 5º da LGPD define como sendo um dado sensível o “dado pessoal sobre origem racial ou étnica, convicção religiosa, opinião política, filiação a sindicato ou a organização de caráter religioso, filosófico ou político, dado referente à saúde ou à vida sexual, dado genético ou biométrico, quando vinculado a uma pessoa natural.”

Embora o CPF não seja um dado sensível, pois por si só não expõe a origem racial ou étnica, opiniões políticas e convicções religiosas ou filosóficas ou mesmo dados relativos à saúde, à vida sexual ou orientação sexual da pessoa, a sua divulgação e o seu mal uso podem acarretar em cartões clonados e fraudes no e‑commerce, além de golpes usando engenharia social.

Também é necessário ressaltar que a LGPD proíbe a requisição de dados, como o CPF, quando desnecessário, como por exemplo no momento de alguma compra. Como se trata de processos judiciais e, conforme tratado anteriormente, a obtenção do CPF da parte para fins processuais é justificável, no entanto, isso não se confunde mais uma vez com o fato desse dado não precisar estar disponível sem necessidade no inteiro teor dos processos.

Metodologia

A fim de testar a hipótese apresentada, desenvolveu-se um código de programação, aqui chamado de “script”, em linguagem Python.

O script se encontra na página do GitHub de um dos autores⁸, porém em modo privado, pois se estivesse em modo aberto poderia servir de base para mal uso, o que não é objetivo deste trabalho.

É importante ressaltar que outros infinitos métodos, em outras linguagens de programação, também podem ser criados com o mesmo objetivo de capturar dados pessoais de processos judiciais.

O script foi desenvolvido para provar a vulnerabilidade desse dado pessoal, o CPF, porém não se concentra no momento da captação dos dados a partir dos processos disponibilizados nos sites e APIs (Application Programming Interface), assim parte-se do pressuposto que essa captação em massa é altamente possível.

Aliás, tal captação em massa já ocorre através de sistemas de buscadores de processos, em inúmeras linguagens de programação, através de técnicas conhecidas como raspagem de rede, ou web scraping em inglês. Trata-se da extração de dados da internet de maneira automatizada. Em geral, esse método é usado por pessoas, empresas e, infelizmente, criminosos, que desejam usar a vasta quantidade de dados da web disponível publicamente para tomar decisões mais inteligentes ou cometer crimes.

O sistema E-SAJ do Tribunal de Justiça de São Paulo⁹ disponibiliza a captação de processos em inteiro teor para download em extensão PDF. O código de programação deste estudo se inicia partindo do pressuposto de que o usuário já tem o(s) processo(s) baixado(s) em formato PDF.

Outro tratamento prévio para aplicação deste script é a necessidade de utilização de sistemas de reconhecimento óptico de caracteres, OCRs, em arquivos em formato PDF oriundos de imagens e não reconhecíveis em busca textual.

Para identificação dos CPFs, foram utilizados vários módulos nativos do Python, principalmente o módulo re (regular expressions em inglês), referente à parte de expressões regulares, que é uma sequência de caracteres que forma um padrão de pesquisa. Esse módulo é utilizado para verificar se um conjunto de caracteres (ou strings em linguagens de programação) contém o padrão de pesquisa especificado.

Adicionalmente, foram baixadas as seguintes ferramentas:

  • Streamlit¹⁰: uma biblioteca de código aberto desenvolvida em linguagem Python que facilita a criação de uma interface web, tecnicamente chamada de front-end.
  • Apache Tika¹¹: um conjunto de ferramentas que detecta e extrai metadados e textos de milhares de tipos de arquivos diferentes, como PPT, XLS e PDF.

Após os pacotes necessários serem devidamente baixados, criou-se uma função para mascarar os CPFs potencialmente vulneráveis, uma vez que não é o objetivo deste estudo disponibilizar a visualização e deixar esses dados ainda mais vulneráveis do que já estão.

A partir do momento em que o arquivo do processo foi baixado em formato PDF, foi utilizado o pacote Tika como analisador (termo parsing em inglês) de determinação de estrutura lógica do arquivo. Em outras palavras, o pacote Tika possibilita analisar cada caractere contido em um arquivo no formato PDF para depois transformá-lo em formato TXT, o que facilita a identificação de padrões textuais.

Importante ressaltar que este estudo traz tão somente a identificação dos CPFs em padrão textual, podendo existir outros CPFs que não estejam exibidos em padrão de texto, como por exemplo CPFs expostos em imagens escaneadas.

Para a disponibilização em uma interface na internet, foi escolhido o serviço Streamlit, que permite a transposição do script em Python para a linguagem HTML. Como design dessa página, de forma simples e clara, foi usada a linguagem Markdown através do Streamlit. O intuito da disponibilização dessa interface é permitir que um usuário comum interaja com o projeto sem precisar ter nenhum conhecimento em programação.

Desta forma, uma estrutura de decisão do Python foi criada para gerar um arquivo TXT a partir de um PDF. Essa mesma estrutura também permite que, uma vez já criado o arquivo no formato desejado, não seja necessário reprocessá-lo, permitindo, assim, uma leitura e captação de CPFs mais performáticos.

Para a identificação dos CPFs, foi criada uma expressão regular, que é um padrão de busca textual proveniente de um conjunto de técnicas em um escopo maior de processamento de linguagem natural.

Lembrando que o CPF, ou Cadastro de Pessoas Físicas, é o registro de contribuintes mantido pela Receita Federal do Brasil no qual são inscritas, a princípio, todas as pessoas naturais residentes no Brasil. Trata-se de um dado de caráter pessoal e intransferível. O padrão criado consiste em um número composto por 11 dígitos decimais, sendo que os nove primeiros dígitos são agrupados em três grupos de três dígitos separados por um ponto, seguidos de um hífen e de dois últimos dígitos.

Os últimos dois dígitos verificadores após o hífen são calculados através de um algoritmo que soma o produto de cada dígito que compõe o CPF por um peso e calcula o resto da divisão dessa soma por 11. Por isso, esse cálculo é chamado de “módulo 11” e não faz parte do script desse estudo. No entanto, a aplicação do algoritmo “módulo 11” pode ser facilmente inserida como mais um método de identificação de veracidade de um CPF, evitando, desta forma, que este seja confundido com outros 11 dígitos aleatórios inseridos em um processo.

Ao final, após a identificação por padrão de busca textual, e uma vez que cada CPF foi encontrado, foi realizado uma contagem que define quantas vezes determinado CPF aparece em cada processo.

Origem das bases de dados

As bases de dados deste estudo foram processos aleatórios captados no site do Tribunal de Justiça de São Paulo, pelo sistema E-SAJ, através do ingresso ao sistema no perfil de advogado, como pode ser visto e facilmente automatizado através do fluxograma abaixo, separado em duas fases:

Fonte: elaborado pela autora do artigo, Tatiana Delpech

Outro caminho para fazer o download de processos é através do script do professor de jurimetria José de Jesus Filho aberto em seu GitHub¹².

O inteiro teor dos processos no sistema E-SAJ do Tribunal de Justiça de São Paulo pode ser acessado por advogados de todo o Brasil devidamente cadastrados no sistema, além de magistrados, Ministério Público e serventuários da justiça, através do hiperlink “Processos” e após “Consulta Processual” a partir da página principal do site do Tribunal¹³.

A partir da página de Consulta Processual¹⁴ é necessário, em algum momento, o advogado se cadastrar no sistema com login e senha para se ter acesso amplo a todos os processos, salvo os processos que correm em segredo de justiça.

Logo, é possível escolher quais os processos pesquisar, havendo quatro opções disponíveis: Consulta de Processos do 1º Grau, Consulta de Processos do 2º Grau, Colégio Recursal/Turma de Uniformização ou Consulta de Ordem de Processos.

Após, o critério de pesquisa para consulta se dá por: número de processo, nome da parte, documento da parte, nome do advogado, OAB, facilmente obtido no site do Cadastro Nacional de Advogados¹⁵, número da carta precatória de origem, número de documento da delegacia ou CDA (Certidão de Dívida Ativa).

É importante mencionar que nesse momento existe o sistema de segurança reCAPTCHA, um serviço oferecido pelo Google¹⁶, que fornece, para os sites inscritos, imagens de palavras que o software de reconhecimento óptico de caracteres (OCR) não foi capaz de identificar, ajudando no aprendizado de máquinas e permitindo a verificação de não robôs no acesso. Esse sistema dificulta a ação de robôs, porém não impede a automação e nem é demandado quando o usuário navega cadastrado.

Com base nesses critérios de pesquisa, foram selecionados 4 (quatro) processos para mensuração de resultados, todos da área cível e não incluídos como segredo de justiça. São eles:

  • 1000028-43.2018.8.26.0220
  • 1001229-19.2015.8.26.0368
  • 1023706-35.2020.8.26.0053
  • 1057339-27.2019.8.26.0100

Resultados

Para comprovar a hipótese, não é necessário fazer o levantamento de centenas ou milhares de processos, como explicitado acima, basta levantar um dado apenas, um CPF qualquer. Como mensuração de resultados, serão usados os quatro processos supracitados.

Para provar a violação da Lei Geral de Proteção de Dados, não há métricas utilizadas em si, uma vez que não há elementos comparativos. Há apenas a captura de CPFs que potencialmente podem ser vazados.

O acesso à interface front-end, para que o usuário comum possa interagir com o projeto e fazer o upload dos processos para identificação dos CPFs, pode ser acessado neste link (caso o link apresente problemas, favor entrar em contato com os autores).

Nessa página, o usuário pode carregar os arquivos em formato PDF com limite de 200MB por arquivo.

Dos quatro processos aleatoriamente selecionados, foram verificados os seguintes resultados:

Fonte: imagens elaborada pelos próprios autores

Relembrando que os CPFs são mascarados pelo script por questão de segurança, no entanto estão expostos nos processos.

A hipótese se confirmou. É possível um terceiro, sem qualquer interesse das partes ou no processo, ter acesso ao CPF e, possivelmente, aos demais dados pessoais disponíveis, violando, assim, a Lei Geral de Proteção de Dados, principalmente o princípio da necessidade.

Conclusão

Os resultados apresentados demonstram apenas uma fatia de uma problemática ainda maior, que são os limites e a necessidade de divulgação de dados pessoais em processos eletrônicos.

Como exposto nos objetivos, este artigo não tem a pretensão de resolver o impasse entre o princípio da publicidade dos atos processuais e a privacidade dos dados pessoais, mas sim de mostrar, como foi provado, que é fácil a captação de dados pessoais, como o CPF, sem necessidade, o que contraria os princípios e os direitos do titular de dados previstos na Lei Geral de Proteção de Dados.

Até poucos anos atrás, dados pessoais não eram tão mensuráveis economicamente. O mundo muda rápido e o Poder Judiciário, ao bem embarcar em novas tecnologias e disponibilizar dados, precisa se atentar melhor à questão de privacidade.

Hoje quem é parte em algum processo judicial corre risco de ter seus dados e sua vida exposta. Os limites do segredo de justiça não são suficientes. A simples necessidade de cadastro para acesso de advogados, magistrados, membros do Ministério Público e demais serventuários da Justiça não é suficiente. Basta apenas um indivíduo dentro desse grupo de milhões de pessoas estar mal intencionado para dar acesso e possibilitar vazamento de dados. É necessário avaliar, mitigar esse risco e, principalmente, informar desse risco à população.

É preciso criar urgentemente recursos de máscara e anonimização de alguns dados expostos nos processos, sejam nos processos já disponibilizados nos sistemas dos tribunais de justiça, como no caso do Tribunal de Justiça do Estado de São Paulo, ou seja na Base Nacional de Dados do Poder Judiciário-DataJud¹⁷ como fonte primária de dados do Sistema de Estatística do Poder Judiciário.

No script, duas linhas de código criando uma função no Python foram suficientes para mascarar os CPFs expostos. O presente projeto apresenta um problema, mas também sugere uma solução.

É esperado que, com este trabalho, essa questão venha a ser melhor discutida e, dessa forma, melhores soluções venham a ser implantadas.

Referências

[1]: https://www.gov.br/anpd/pt-br/documentos-e-publicacoes/guia-poder-publico-anpd-versao-final.pdf

[2]: https://www.oab.org.br/institucionalconselhofederal/quadroadvogados

[3]: Sem autor: “CPF vazado: quais os riscos e como prevenir o vazamento de dados?”. Serasa, 2022. Disponível em <https://www.serasa.com.br/premium/blog/vazamento-de-dados-como-prevenir/> Acesso em: 07 de abril de 2022.

[4]: https://www.jusbrasil.com.br

[5]: https://www.escavador.com/

[6]: https://justica.online/

[7]: https://loylegal.com/

[8]: https://github.com/TatianaADelpech

[9]: https://esaj.tjsp.jus.br/esaj/portal.do?servico=740000

[10]: https://streamlit.io/

[11]: https://tika.apache.org/

[12]: https://github.com/jjesusfilho/tjsp/blob/main/R/tjsp_baixar_cpopg.R

[13]: https://www.tjsp.jus.br/

[14]: https://esaj.tjsp.jus.br/esaj/portal.do?servico=190090

[15]: https://cna.oab.org.br/

[16]: https://developers.google.com/recaptcha/intro

[17]: https://atos.cnj.jus.br/atos/detalhar/3428 e https://atos.cnj.jus.br/atos/detalhar/4176

--

--

Henrique Junqueira Branco

Life-time learner data scientist with great passion for new insights and technologies