NVIDIA optimaliseert Google’s Gemma LLM voor AI-versnellers en RTX AI-pc’s

2024/02/22

NVIDIA heeft onlangs de ontwikkelingen in het optimaliseren van industriestandaard LLM’s versneld met zijn AI-geïnfuseerde RTX GPU’s, nu het bedrijf nu het geavanceerde Gemma-model van Google verbetert.

NVIDIA verbetert TensorRT-LLM en meerdere softwarebronnen om kostenefficiënte prestaties te bieden met zijn AI- en RTX-GPU’s

[ Persbericht ]: NVIDIA heeft vandaag, in samenwerking met Google, optimalisaties gelanceerd op alle NVIDIA AI-platforms voor Gemma – de ultramoderne nieuwe lichtgewicht open taalmodellen van Google met 2 miljard en 7 miljard parameters die overal kunnen worden uitgevoerd. het verlagen van de kosten en het versnellen van innovatief werk voor domeinspecifieke gebruiksscenario’s.

Teams van de bedrijven werkten nauw samen om de prestaties van Gemma te versnellen – gebaseerd op hetzelfde onderzoek en dezelfde technologie die werd gebruikt om de Gemini-modellen te maken – met NVIDIA TensorRT-LLM, een open-sourcebibliotheek voor het optimaliseren van de inferentie van grote taalmodellen, wanneer deze op NVIDIA draait. GPU’s in het datacenter, in de cloud en op pc’s met NVIDIA RTX GPU’s.

Hierdoor kunnen ontwikkelaars zich richten op de geïnstalleerde basis van meer dan 100 miljoen NVIDIA RTX GPU’s die wereldwijd beschikbaar zijn in krachtige AI-pc’s.

Ontwikkelaars kunnen Gemma ook draaien op NVIDIA GPU’s in de cloud, inclusief op de A3-instanties van Google Cloud op basis van de H100 Tensor Core GPU en binnenkort ook op NVIDIA’s H200 Tensor Core GPU’s – met 141 GB HBM3e-geheugen van 4,8 terabytes per seconde – die Google op deze manier zal implementeren. jaar.

Enterprise-ontwikkelaars kunnen bovendien profiteren van NVIDIA’s rijke ecosysteem aan tools – waaronder NVIDIA AI Enterprise met het NeMo-framework en TensorRT-LLM – om Gemma te verfijnen en het geoptimaliseerde model in hun productieapplicatie te implementeren.

Gemma komt chatten met RTX

Ondersteuning voor Gemma wordt binnenkort toegevoegd door Chat met RTX , een technische demo van NVIDIA die gebruik maakt van retrieval-augmented generatie en TensorRT-LLM-software om gebruikers generatieve AI-mogelijkheden te bieden op hun lokale, RTX-aangedreven Windows-pc’s. Met Chatten met RTX kunnen gebruikers een chatbot personaliseren met hun gegevens door eenvoudig lokale bestanden op een pc te koppelen aan een groot taalmodel.

Nieuwsbron: NVIDIA Blog

NVIDIA verbetert TensorRT-LLM en meerdere softwarebronnen om kostenefficiënte prestaties te bieden met zijn AI- en RTX-GPU’s

Gemma komt chatten met RTX

Geef een reactie Reactie annuleren