Cientista de Dados

  • Outro
  • Período integral
  • Remoto
  • Outsourcing

A Dadoteca é uma empresa inovadora no setor de tecnologia, dedicada a fornecer soluções de alta qualidade para nossos clientes por meio de um ambiente de trabalho colaborativo que impulsiona o desenvolvimento profissional e a inovação.

Atividades:

  • Projetar e implementar modelos de OCR utilizando frameworks e bibliotecas avançadas para extração de dados de documentos estruturados e não estruturados.

  • Analisar, preparar e pré-processar grandes volumes de dados textuais e numéricos para uso em modelos de aprendizado de máquina e deep learning.

  • Desenvolver pipelines de processamento de dados, incluindo extração, transformação e armazenamento dos resultados de OCR.

  • Integrar soluções de OCR com outras ferramentas e sistemas para automatizar fluxos de trabalho e processos de análise de dados.

  • Realizar treinamentos e ajustes finos em modelos de OCR para melhorar a acurácia em cenários específicos, como diferentes idiomas, fontes, formatos e níveis de ruído.

  • Explorar e aplicar técnicas de PNL (Processamento de Linguagem Natural) para enriquecer a análise e categorização dos textos extraídos.

  • Aplicar técnicas de Quimiometria e análise multivariada (como PCA, PLS, regressão multivariada e métodos de classificação) para modelagem, interpretação de dados complexos e apoio à tomada de decisão.

  • Desenvolver modelos preditivos combinando dados textuais, numéricos e espectrais, quando aplicável.

  • Colaborar com equipes multidisciplinares para garantir a integração das soluções de OCR e Quimiometria em projetos maiores de análise de dados.

  • Monitorar e melhorar o desempenho dos modelos em produção, garantindo escalabilidade, robustez e confiabilidade.

  • Pesquisar novas tecnologias relacionadas a OCR, inteligência artificial e Quimiometria, mantendo-se atualizado(a) com as tendências do setor.


Requisitos:

  • Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística, Química, Engenharia Química ou áreas correlatas. Pós-graduação ou especialização em Ciência de Dados, IA ou Quimiometria é desejável.

  • Experiência consolidada em projetos de ciência de dados, com foco em OCR, processamento de imagens e/ou análise multivariada.

  • Conhecimento prático em Quimiometria, incluindo técnicas como PCA, PLS, regressão multivariada, métodos de classificação e validação de modelos.

  • Conhecimento avançado em frameworks de deep learning, como TensorFlow, PyTorch ou Keras.

  • Experiência com bibliotecas de OCR, como Tesseract, Google Vision, AWS Textract, ABBYY FineReader ou similares.

  • Habilidade com técnicas de pré-processamento de imagens (OpenCV ou PIL) para melhoria da qualidade dos documentos.

  • Conhecimento em linguagens de programação como Python ou R, com foco em aplicações de ciência de dados e modelagem estatística.

  • Familiaridade com bancos de dados relacionais e não relacionais para armazenamento e consulta de dados.

  • Experiência com ferramentas de versionamento de código (Git) e práticas de MLOps.


Competências:

  • Capacidade de traduzir problemas de negócios complexos em soluções analíticas e técnicas eficientes.

  • Orientar equipes em projetos de alta complexidade e contribuir para o crescimento técnico de colegas.

  • Compromisso com a entrega de soluções de alta qualidade e impacto mensurável.

  • Habilidade de apresentar insights técnicos a públicos técnicos e não técnicos de forma clara e objetiva.

  • Proatividade para propor soluções inovadoras e superar desafios técnicos.


Diferenciais:

  • Experiência aplicada em Quimiometria para dados reais, incluindo interpretação de modelos e comunicação de resultados para áreas de negócio.

  • Familiaridade com modelos pré-treinados como Google Vision AI, AWS Textract ou Azure Cognitive Services.

  • Conhecimento em técnicas avançadas de PNL para análise e organização de textos extraídos.

  • Experiência com implantação de soluções de OCR e modelos quimiométricos em ambientes de produção e escaláveis, incluindo nuvem (Azure, AWS, Google Cloud).

  • Certificações relevantes, como Microsoft Certified: Azure AI Engineer Associate ou Google Cloud Professional Data Engineer.