Pesquisa

TAMANDARÉ-0

Precursor de toda a nossa pesquisa, fruto de mais de 20 anos de desenvolvimentos de José Damico ainda antes de fundar a SciCrop. Este modelo visou criar o primeiro alicerce, criando uma arquitetura de ontologia de informações baseados em dados da Internet. Com ele, foi possível criar o conceito de Semantic Web, onde dados da rede passam a virar informações com contextualização. Esse processo permitiu a evolução do uso de dados abertos para criação e treinamento de modelos.

Repositório: https://scholar.google.com.br/scholar?oi=bibs&cluster=11885297119059764586&btnI=1&hl=pt-BR

TAMANDARÉ-1

Evolução do nosso modelo genérico para o agronegócio. Construimos uma ontologia específica para o agronegócio, permitindo que os modelos passasem a contextualizar as áraes de conhecimento deste setor. Os treinamentos dos modleos passaram a compreender termos e conceitos do agronegócio, trazendo maior acurácia nas respostas relacionadas a este tema.

Repositório: N/A

CANA-1

Nosso modelo treinado para a cultura da cana-de-açúcar. Conceitos específicos sobre usinas, produção de cana-de-açúcar, açúcar, e derivados, foram treinados em um modelo menor, para permitir respostas mais precisas dentro deste contexto. Utilizamos nossa pesquisa de LLMs com especial uso do Tamandaré, que já absorvia uma ontologia para o agronegócio, e unimos ao modelo aberto e bem mais maduro do Llama.

Repositório: https://huggingface.co/infinitestack/tinyllama-sugarcane

SAM2VEC

Aplicação de Segment Anything Model para conversão de glebas e talhões em vetores.

Repositório: https://github.com/Scicrop/sam2vec

JAVA SENTENCE-BERT EMBEDDING & RAG ENGINE

Este projeto demonstra como integrar modelos modernos de IA com sistemas Java legados usando ONNX. Embora a maior parte do desenvolvimento de IA hoje ocorra em Python, muitas empresas ainda dependem fortemente de ecossistemas Java. Esta solução preenche essa lacuna, permitindo a geração contínua de embeddings e a recuperação de documentos usando modelos transformer populares. Este código/biblioteca foi desenvolvido inicialmente para o InfiniteStack da SciCrop e agora é de código aberto como uma iniciativa da SciCrop Academy.

Repositório: https://github.com/Scicrop/javaSentenceBertEmbedding

CSV2PARQUET

Csv2Parquet é uma biblioteca baseada em Java projetada para simplificar a conversão de arquivos CSV para o formato Parquet, gerar esquemas Avro dinamicamente e realizar análises abrangentes de arquivos Parquet. Esta ferramenta é otimizada para desempenho e escalabilidade, tornando-a ideal para processar grandes conjuntos de dados. Esta biblioteca foi desenvolvida inicialmente para o InfiniteStack da SciCrop.

Repositório: https://github.com/Scicrop/csv2parquet

CANOPY HEIGHT MODEL

Desenvolvemos um modelo para estimar a altura do topo da copa em qualquer lugar da Terra. O modelo estima a altura do topo da copa para cada pixel da imagem Sentinel-2 e foi treinado usando dados esparsos de GEDI LIDAR como referência. Nesta bifurcação, corrigimos alguns pequenos bugs e adicionamos alguma automação para a estimativa da copa nos biomas do Brasil. Agora você pode escolher a AOI (Área de Interesse) do local onde deseja prever a altura da copa. Também adicionamos suporte para paralelização em GPU para a inferência.

Repositório: https://github.com/Scicrop/brazil-canopy-height-model