A Dadoteca é uma empresa inovadora no setor de tecnologia, dedicada a fornecer soluções de alta qualidade para nossos clientes por meio de um ambiente de trabalho colaborativo que impulsiona o desenvolvimento profissional e a inovação.
Projetar e implementar modelos de OCR utilizando frameworks e bibliotecas avançadas para extração de dados de documentos estruturados e não estruturados.
Analisar, preparar e pré-processar grandes volumes de dados textuais e numéricos para uso em modelos de aprendizado de máquina e deep learning.
Desenvolver pipelines de processamento de dados, incluindo extração, transformação e armazenamento dos resultados de OCR.
Integrar soluções de OCR com outras ferramentas e sistemas para automatizar fluxos de trabalho e processos de análise de dados.
Realizar treinamentos e ajustes finos em modelos de OCR para melhorar a acurácia em cenários específicos, como diferentes idiomas, fontes, formatos e níveis de ruído.
Explorar e aplicar técnicas de PNL (Processamento de Linguagem Natural) para enriquecer a análise e categorização dos textos extraídos.
Aplicar técnicas de Quimiometria e análise multivariada (como PCA, PLS, regressão multivariada e métodos de classificação) para modelagem, interpretação de dados complexos e apoio à tomada de decisão.
Desenvolver modelos preditivos combinando dados textuais, numéricos e espectrais, quando aplicável.
Colaborar com equipes multidisciplinares para garantir a integração das soluções de OCR e Quimiometria em projetos maiores de análise de dados.
Monitorar e melhorar o desempenho dos modelos em produção, garantindo escalabilidade, robustez e confiabilidade.
Pesquisar novas tecnologias relacionadas a OCR, inteligência artificial e Quimiometria, mantendo-se atualizado(a) com as tendências do setor.
Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística, Química, Engenharia Química ou áreas correlatas. Pós-graduação ou especialização em Ciência de Dados, IA ou Quimiometria é desejável.
Experiência consolidada em projetos de ciência de dados, com foco em OCR, processamento de imagens e/ou análise multivariada.
Conhecimento prático em Quimiometria, incluindo técnicas como PCA, PLS, regressão multivariada, métodos de classificação e validação de modelos.
Conhecimento avançado em frameworks de deep learning, como TensorFlow, PyTorch ou Keras.
Experiência com bibliotecas de OCR, como Tesseract, Google Vision, AWS Textract, ABBYY FineReader ou similares.
Habilidade com técnicas de pré-processamento de imagens (OpenCV ou PIL) para melhoria da qualidade dos documentos.
Conhecimento em linguagens de programação como Python ou R, com foco em aplicações de ciência de dados e modelagem estatística.
Familiaridade com bancos de dados relacionais e não relacionais para armazenamento e consulta de dados.
Experiência com ferramentas de versionamento de código (Git) e práticas de MLOps.
Capacidade de traduzir problemas de negócios complexos em soluções analíticas e técnicas eficientes.
Orientar equipes em projetos de alta complexidade e contribuir para o crescimento técnico de colegas.
Compromisso com a entrega de soluções de alta qualidade e impacto mensurável.
Habilidade de apresentar insights técnicos a públicos técnicos e não técnicos de forma clara e objetiva.
Proatividade para propor soluções inovadoras e superar desafios técnicos.
Experiência aplicada em Quimiometria para dados reais, incluindo interpretação de modelos e comunicação de resultados para áreas de negócio.
Familiaridade com modelos pré-treinados como Google Vision AI, AWS Textract ou Azure Cognitive Services.
Conhecimento em técnicas avançadas de PNL para análise e organização de textos extraídos.
Experiência com implantação de soluções de OCR e modelos quimiométricos em ambientes de produção e escaláveis, incluindo nuvem (Azure, AWS, Google Cloud).
Certificações relevantes, como Microsoft Certified: Azure AI Engineer Associate ou Google Cloud Professional Data Engineer.