Como Engenheiro de Software, sou apaixonado por ML/IA/Ciência de Dados e tenho desenvolvido projetos próprios na área de IA Generativa, incluindo:
MeinaMix -- Stable Diffusion Models
- Pioneiro em um dos primeiros modelos de IA generativa de estilo anime open-source, contribuindo para a qualidade e acessibilidade na geração de imagens.
- Possui mais de 15 milhões de usos e 1 milhão de downloads.
-- Meina Assistant -- Sistema de Integração IA
- Lidero o desenvolvimento de um assistente pessoal inteligente para automação de tarefas, integrando Deep Speech, LLMs, visão computacional, AI Agents e RAG.
-- Meina TTS -- Clonagem de Voz Avançada em Tempo Real
- Desenvolvi um algoritmo inovador para clonagem de voz em tempo real: ele reconhece a fala, usa ASR avançado para transcrevê-la para texto em qualquer idioma e gera saída de fala com a voz de um arquivo de áudio de apenas 10 segundos fornecido pelo usuário.
- Utiliza o backend do Chatterbox com as capacidades ASR do Faster-Whisper, resultando em áudio de voz clonado em tempo quase real, reproduzido via microfone. Possui VAD (Detecção de Atividade de Voz) personalizado para processar requisições apenas quando a voz é detectada, alcançando velocidades impressionantes de até 20ms.
-- Meina Rag -- Sistema RAG para Resumir Arquivos PDF
- Desenvolvi um sistema RAG (Retrieval Augmented Generation) personalizado capaz de escanear arquivos PDF, salvar seus valores em um banco de dados local e permitir consultas relacionadas aos tópicos do PDF.
- Utilizei o framework Langchain e o Ollama para o backend dos modelos LLM, alcançando alta precisão mesmo com o uso de modelos LLM menores.
--Meina Sound -- Custom Soundboard Application
- Desenvolvi um aplicativo de mesa de som com passagem de microfone para diversas plataformas, utilizando Python e NumPy para oferecer personalização avançada.
-- Meina Voice -- TTS de Qualquer Idioma para Qualquer Idioma em Tempo Real
- Desenvolvi um algoritmo que reconhece a fala, utiliza ASR avançado para transcrevê-la para texto em qualquer idioma e gera uma saída de fala.
- Utiliza o backend do Chatterbox em conjunto com as capacidades de tradução do Faster-Whisper, o que resulta em tradução e saída de voz em tempo quase real.