Cientista de Dados

  • Outro
  • Período integral
  • Remoto
  • Outsourcing

A Dadoteca é uma empresa inovadora no setor de tecnologia, dedicada a fornecer soluções de alta qualidade para nossos clientes por meio de um ambiente de trabalho colaborativo que impulsiona o desenvolvimento profissional e a inovação.


Atividades

  • Projetar e implementar modelos de OCR utilizando frameworks e bibliotecas avançadas para extração de dados de documentos estruturados e não estruturados.

  • Analisar, preparar e pré-processar grandes volumes de dados textuais, numéricos e, quando aplicável, espectrais, para uso em modelos de machine learning e deep learning.

  • Desenvolver pipelines completos de processamento de dados, incluindo extração, transformação, armazenamento e disponibilização dos resultados de OCR.

  • Integrar soluções de OCR com outras ferramentas e sistemas, automatizando fluxos de trabalho e processos de análise de dados.

  • Realizar treinamentos, ajustes finos e manutenção de modelos de OCR para melhorar a acurácia em diferentes idiomas, fontes, formatos e níveis de ruído.

  • Explorar e aplicar técnicas de Processamento de Linguagem Natural (PNL) para enriquecer a análise, categorização e organização dos textos extraídos.

  • Aplicar técnicas de Quimiometria e análise multivariada (PCA, PLS, regressão multivariada e métodos de classificação) para modelagem, interpretação de dados complexos e apoio à tomada de decisão.

  • Desenvolver modelos preditivos combinando dados textuais, numéricos e químicos/sensoriais, quando aplicável.

  • Atualizar modelos quimiométricos para previsão de targets químicos (ex.: Nicotina, Açúcar) e sensoriais (Impact, Amount, Ripeness, Quality, Irritation e taste wheel), incluindo aplicações em SWIR.

  • Garantir a qualidade analítica dos resultados gerados pelas plataformas analíticas por meio da gestão de indicadores, revisão de resultados e manutenção contínua dos modelos.

  • Verificar a acurácia dos resultados apresentados em dashboards e ferramentas digitais utilizadas pelas plataformas analíticas.

  • Apoiar o desenvolvimento de modelos de regressão utilizando técnicas quimiométricas.

  • Colaborar com equipes multidisciplinares para garantir a integração das soluções de OCR e Quimiometria em projetos maiores de análise de dados.

  • Monitorar e melhorar o desempenho dos modelos em produção, assegurando escalabilidade, robustez, confiabilidade e aderência a padrões de qualidade e segurança.

  • Pesquisar continuamente novas tecnologias relacionadas a OCR, Inteligência Artificial e Quimiometria, mantendo-se atualizada(o) com as tendências do setor.

  • Orientar tecnicamente colegas e apoiar equipes em projetos de alta complexidade.


Requisitos

  • Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística, Química, Engenharia Química ou áreas correlatas. Pós-graduação ou especialização em Ciência de Dados, IA ou Quimiometria é desejável.

  • Experiência consolidada em projetos de ciência de dados, com foco em OCR, processamento de imagens e/ou análise multivariada.

  • Conhecimento prático em Quimiometria, incluindo PCA, PLS, regressão multivariada, métodos de classificação e validação de modelos.

  • Conhecimento avançado em frameworks de deep learning (TensorFlow, PyTorch ou Keras).

  • Experiência com bibliotecas de OCR como Tesseract, Google Vision, AWS Textract, ABBYY FineReader ou similares.

  • Habilidade com técnicas de pré-processamento de imagens (OpenCV ou PIL).

  • Domínio de Python ou R para aplicações de ciência de dados e modelagem estatística.

  • Familiaridade com bancos de dados relacionais e não relacionais.

  • Experiência com Git e práticas de MLOps.

  • Inglês Fluente.


Competências

  • Capacidade de traduzir problemas de negócio complexos em soluções analíticas eficientes.

  • Liderança técnica e orientação de equipes em projetos de alta complexidade.

  • Compromisso com a entrega de soluções de alta qualidade e impacto mensurável.

  • Comunicação clara de insights técnicos para públicos técnicos e não técnicos.

  • Proatividade para propor soluções inovadoras e superar desafios técnicos.


Diferenciais

  • Experiência aplicada em Quimiometria com dados reais, incluindo interpretação de modelos e comunicação de resultados para áreas de negócio.

  • Familiaridade com Google Vision AI, AWS Textract ou Azure Cognitive Services.

  • Conhecimento avançado em PNL.

  • Experiência com implantação de soluções de OCR e modelos quimiométricos em ambientes produtivos e escaláveis (Azure, AWS ou Google Cloud).

  • Certificações como Microsoft Certified: Azure AI Engineer Associate ou Google Cloud Professional Data Engineer.