Cientista de Dados

Outro
Período integral
Remoto
Outsourcing

A Dadoteca é uma empresa inovadora no setor de tecnologia, dedicada a fornecer soluções de alta qualidade para nossos clientes por meio de um ambiente de trabalho colaborativo que impulsiona o desenvolvimento profissional e a inovação.

Atividades

Projetar e implementar modelos de OCR utilizando frameworks e bibliotecas avançadas para extração de dados de documentos estruturados e não estruturados.
Analisar, preparar e pré-processar grandes volumes de dados textuais, numéricos e, quando aplicável, espectrais, para uso em modelos de machine learning e deep learning.
Desenvolver pipelines completos de processamento de dados, incluindo extração, transformação, armazenamento e disponibilização dos resultados de OCR.
Integrar soluções de OCR com outras ferramentas e sistemas, automatizando fluxos de trabalho e processos de análise de dados.
Realizar treinamentos, ajustes finos e manutenção de modelos de OCR para melhorar a acurácia em diferentes idiomas, fontes, formatos e níveis de ruído.
Explorar e aplicar técnicas de Processamento de Linguagem Natural (PNL) para enriquecer a análise, categorização e organização dos textos extraídos.
Aplicar técnicas de Quimiometria e análise multivariada (PCA, PLS, regressão multivariada e métodos de classificação) para modelagem, interpretação de dados complexos e apoio à tomada de decisão.
Desenvolver modelos preditivos combinando dados textuais, numéricos e químicos/sensoriais, quando aplicável.
Atualizar modelos quimiométricos para previsão de targets químicos (ex.: Nicotina, Açúcar) e sensoriais (Impact, Amount, Ripeness, Quality, Irritation e taste wheel), incluindo aplicações em SWIR.
Garantir a qualidade analítica dos resultados gerados pelas plataformas analíticas por meio da gestão de indicadores, revisão de resultados e manutenção contínua dos modelos.
Verificar a acurácia dos resultados apresentados em dashboards e ferramentas digitais utilizadas pelas plataformas analíticas.
Apoiar o desenvolvimento de modelos de regressão utilizando técnicas quimiométricas.
Colaborar com equipes multidisciplinares para garantir a integração das soluções de OCR e Quimiometria em projetos maiores de análise de dados.
Monitorar e melhorar o desempenho dos modelos em produção, assegurando escalabilidade, robustez, confiabilidade e aderência a padrões de qualidade e segurança.
Pesquisar continuamente novas tecnologias relacionadas a OCR, Inteligência Artificial e Quimiometria, mantendo-se atualizada(o) com as tendências do setor.
Orientar tecnicamente colegas e apoiar equipes em projetos de alta complexidade.

Requisitos

Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística, Química, Engenharia Química ou áreas correlatas. Pós-graduação ou especialização em Ciência de Dados, IA ou Quimiometria é desejável.
Experiência consolidada em projetos de ciência de dados, com foco em OCR, processamento de imagens e/ou análise multivariada.
Conhecimento prático em Quimiometria, incluindo PCA, PLS, regressão multivariada, métodos de classificação e validação de modelos.
Conhecimento avançado em frameworks de deep learning (TensorFlow, PyTorch ou Keras).
Experiência com bibliotecas de OCR como Tesseract, Google Vision, AWS Textract, ABBYY FineReader ou similares.
Habilidade com técnicas de pré-processamento de imagens (OpenCV ou PIL).
Domínio de Python ou R para aplicações de ciência de dados e modelagem estatística.
Familiaridade com bancos de dados relacionais e não relacionais.
Experiência com Git e práticas de MLOps.
Inglês Fluente.

Competências

Capacidade de traduzir problemas de negócio complexos em soluções analíticas eficientes.
Liderança técnica e orientação de equipes em projetos de alta complexidade.
Compromisso com a entrega de soluções de alta qualidade e impacto mensurável.
Comunicação clara de insights técnicos para públicos técnicos e não técnicos.
Proatividade para propor soluções inovadoras e superar desafios técnicos.

Diferenciais

Experiência aplicada em Quimiometria com dados reais, incluindo interpretação de modelos e comunicação de resultados para áreas de negócio.
Familiaridade com Google Vision AI, AWS Textract ou Azure Cognitive Services.
Conhecimento avançado em PNL.
Experiência com implantação de soluções de OCR e modelos quimiométricos em ambientes produtivos e escaláveis (Azure, AWS ou Google Cloud).
Certificações como Microsoft Certified: Azure AI Engineer Associate ou Google Cloud Professional Data Engineer.

Outro
Período integral
Remoto
Outsourcing

Candidate-se agora

Este site usa cookies

A FACTORIAL utiliza cookies para personalizar conteúdos e anúncios, para fornecer características das redes sociais e para analisar o nosso tráfego. Também compartilhamos informações sobre o seu uso do nosso site com os nossos parceiros das redes sociais, publicidade e análise, que podem combiná-las com outras informações que tenham recebido ou recolhido a partir do seu uso dos seus serviços.

Gerenciar cookies

Necessário

Os cookies necessários ajudam a tornar um site utilizável, permitindo funções básicas, como navegação na página e acesso a áreas seguras do site. O site não pode funcionar corretamente sem estes cookies.

Estatísticas

Os cookies estatísticos ajudam os proprietários de sites a compreender como os visitantes interagem com os esses sites, recolhendo e comunicando informações anonimamente.

Marketing

Os cookies de marketing são utilizados para localizar os visitantes através de sites. A intenção é exibir anúncios que sejam relevantes e envolventes para o usuário individual e, assim, mais valiosos para editores e anunciantes de terceiros.

Preferências

Os cookies de preferência permitem a um site recordar informações que alteram a forma como o site se comporta ou se parece, como o seu idioma preferido ou a região em que se encontra.