A Dadoteca é uma empresa inovadora no setor de tecnologia, dedicada a fornecer soluções de alta qualidade para nossos clientes por meio de um ambiente de trabalho colaborativo que impulsiona o desenvolvimento profissional e a inovação.
Projetar e implementar modelos de OCR utilizando frameworks e bibliotecas avançadas para extração de dados de documentos estruturados e não estruturados.
Analisar, preparar e pré-processar grandes volumes de dados textuais, numéricos e, quando aplicável, espectrais, para uso em modelos de machine learning e deep learning.
Desenvolver pipelines completos de processamento de dados, incluindo extração, transformação, armazenamento e disponibilização dos resultados de OCR.
Integrar soluções de OCR com outras ferramentas e sistemas, automatizando fluxos de trabalho e processos de análise de dados.
Realizar treinamentos, ajustes finos e manutenção de modelos de OCR para melhorar a acurácia em diferentes idiomas, fontes, formatos e níveis de ruído.
Explorar e aplicar técnicas de Processamento de Linguagem Natural (PNL) para enriquecer a análise, categorização e organização dos textos extraídos.
Aplicar técnicas de Quimiometria e análise multivariada (PCA, PLS, regressão multivariada e métodos de classificação) para modelagem, interpretação de dados complexos e apoio à tomada de decisão.
Desenvolver modelos preditivos combinando dados textuais, numéricos e químicos/sensoriais, quando aplicável.
Atualizar modelos quimiométricos para previsão de targets químicos (ex.: Nicotina, Açúcar) e sensoriais (Impact, Amount, Ripeness, Quality, Irritation e taste wheel), incluindo aplicações em SWIR.
Garantir a qualidade analítica dos resultados gerados pelas plataformas analíticas por meio da gestão de indicadores, revisão de resultados e manutenção contínua dos modelos.
Verificar a acurácia dos resultados apresentados em dashboards e ferramentas digitais utilizadas pelas plataformas analíticas.
Apoiar o desenvolvimento de modelos de regressão utilizando técnicas quimiométricas.
Colaborar com equipes multidisciplinares para garantir a integração das soluções de OCR e Quimiometria em projetos maiores de análise de dados.
Monitorar e melhorar o desempenho dos modelos em produção, assegurando escalabilidade, robustez, confiabilidade e aderência a padrões de qualidade e segurança.
Pesquisar continuamente novas tecnologias relacionadas a OCR, Inteligência Artificial e Quimiometria, mantendo-se atualizada(o) com as tendências do setor.
Orientar tecnicamente colegas e apoiar equipes em projetos de alta complexidade.
Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística, Química, Engenharia Química ou áreas correlatas. Pós-graduação ou especialização em Ciência de Dados, IA ou Quimiometria é desejável.
Experiência consolidada em projetos de ciência de dados, com foco em OCR, processamento de imagens e/ou análise multivariada.
Conhecimento prático em Quimiometria, incluindo PCA, PLS, regressão multivariada, métodos de classificação e validação de modelos.
Conhecimento avançado em frameworks de deep learning (TensorFlow, PyTorch ou Keras).
Experiência com bibliotecas de OCR como Tesseract, Google Vision, AWS Textract, ABBYY FineReader ou similares.
Habilidade com técnicas de pré-processamento de imagens (OpenCV ou PIL).
Domínio de Python ou R para aplicações de ciência de dados e modelagem estatística.
Familiaridade com bancos de dados relacionais e não relacionais.
Experiência com Git e práticas de MLOps.
Inglês Fluente.
Capacidade de traduzir problemas de negócio complexos em soluções analíticas eficientes.
Liderança técnica e orientação de equipes em projetos de alta complexidade.
Compromisso com a entrega de soluções de alta qualidade e impacto mensurável.
Comunicação clara de insights técnicos para públicos técnicos e não técnicos.
Proatividade para propor soluções inovadoras e superar desafios técnicos.
Experiência aplicada em Quimiometria com dados reais, incluindo interpretação de modelos e comunicação de resultados para áreas de negócio.
Familiaridade com Google Vision AI, AWS Textract ou Azure Cognitive Services.
Conhecimento avançado em PNL.
Experiência com implantação de soluções de OCR e modelos quimiométricos em ambientes produtivos e escaláveis (Azure, AWS ou Google Cloud).
Certificações como Microsoft Certified: Azure AI Engineer Associate ou Google Cloud Professional Data Engineer.