Nvidias neue Tesla-Karten erfüllen die Anforderungen der wachsenden Kapazitäten von AI-Diensten - Rechnen - 2019

Anonim

Jetzt, da Nvidia den Consumer-Markt mit seinen neuesten Grafikkarten auf der Basis der "Pascal" -Architektur adressiert hat, adressieren die nächsten Lösungen des Pascal-Rollouts des Unternehmens den tiefen Markt für neuronale Netze, um maschinelles Lernen zu beschleunigen. Diese Lösungen kommen in Form der neuen Beschleunigungskarten Tesla P4 und Tesla P40 von Nvidia zum Einsatz, um die Arbeitsbelastung durch Inferenzen, die von Diensten mit künstlicher Intelligenz ausgeführt werden, zu beschleunigen.

Es gibt im Wesentlichen zwei Arten von Beschleunigerkarten für tiefe neuronale Netze: Training und Inferenz. Ersteres sollte für sich selbst sprechen und das Training eines tiefen neuronalen Netzwerks beschleunigen, bevor es auf dem Feld eingesetzt wird. Inferenz ist jedoch der Prozess des Bereitstellens einer Eingabe in das tiefe neuronale Netzwerk und das Extrahieren von Daten basierend auf dieser Eingabe. Dazu gehört das Übersetzen von Sprache in Echtzeit und das Lokalisieren von Gesichtern in Bildern.

Laut Nvidia sind die neuen Tesla P4- und Tesla P40-Beschleunigerkarten für Inferenzanwendungen konzipiert und enthalten spezielle Inferenzanweisungen auf Basis von 8-Bit-Operationen. Damit sind sie 45-mal schneller als ein Intel Xeon E5-2690v4-Prozessor. Sie bieten auch eine 4x Verbesserung gegenüber der früheren Generation der "Maxwell" Tesla-Karten des Unternehmens, der M40 und M4.

Das Unternehmen sagte diese Woche während seiner GTC Beijing 2016 Konferenz, dass der Tesla P4 einen kleinen Formfaktor hat, der ideal für Rechenzentren ist. Es ist 40-mal energieeffizienter als CPUs, die für Inferenzen verwendet werden, und ein einzelner Tesla P4-Server kann 13 reine CPU-Server ersetzen, die für Video-Inferenz-Workloads entwickelt wurden. Der Tesla P40 eignet sich ideal für tiefgreifende Lernaufgaben. Ein Server mit acht dieser Beschleuniger kann mehr als 140 CPU-basierte Server ersetzen.

Im Vergleich zum vorherigen Tesla M40 packt der neue P40 mehr CUDA-Kerne, höhere Taktraten, einen schnelleren Speichertakt, eine höhere Einzelpräzision von 12 TFLOPS und eine höhere Anzahl von Transistoren bei 12 Milliarden. Der Leistungsbedarf (Thermal Envelope) bleibt jedoch gleich, und Nvidia hat es geschafft, die Leistung pro Watt zu steigern, ohne dass die Karte mehr Strom benötigt. Das gilt auch für das langsamere Tesla P4-Modell im Vergleich zur älteren Tesla M4-Karte.

"Mit dem Tesla P100 und jetzt Tesla P4 und P40 bietet NVIDIA die einzige End-to-End-Deep-Learning-Plattform für das Rechenzentrum, die die enorme Leistungsfähigkeit von AI für eine breite Palette von Branchen freisetzt", sagte Ian Buck, General Manager von beschleunigtes Computing bei Nvidia. "Sie verkürzen die Trainingszeit von Tagen auf Stunden. Sie ermöglichen Einblicke, die sofort extrahiert werden können. Und sie produzieren Echtzeit-Antworten für Verbraucher aus KI-betriebenen Diensten. "

Nvidia hat den Tesla P100 während seiner lokalen GTC 2016 Konferenz vor fünf Monaten vorgestellt. Diese Karte ist ideal für die Beschleunigung des Trainings neuronaler Netzwerke und bietet eine Leistungssteigerung von mehr als 12 Mal im Vergleich zur Maxwell-basierten Lösung der vorherigen Generation. Neuronale Netzwerke müssen erst trainiert werden, bevor sie im Feld eingesetzt werden. Die neue Tesla-Karte beschleunigt den Prozess und verkürzt das KI-Training von Wochen auf Tage.

Zusätzlich zu den beiden neuen Tesla-Karten hat Nvidia mit TensorRT eine Bibliothek zur "Optimierung von Deep-Learning-Modellen für die Produktionsbereitstellung" auf den Markt gebracht. Das Nvidia DeepStream SDK wurde für die gleichzeitige Dekodierung und Analyse von bis zu 93 HD-Videostreams entwickelt. Im Folgenden finden Sie jedoch eine kurze Liste der Hardware-Details für Nvidias zwei neue Tesla-Karten, die jetzt verfügbar sind:

Tesla P40Tesla P4
GPUGP102GP104
CUDA-Kerne3, 8402, 560
Basisuhr1, 303 MHz810 MHz
Boost Uhr1, 531 MHz1, 063 MHz
GDDR5 Speicheruhr7, 2 Gbps6 Gbps
Speicherbusbreite384-Bit256-Bit
GDDR5 Betrag24GB8GB
Mit einfacher Genauigkeit12 TFLOPS5.5 TFLOPS
TDP250 Watt50 bis 75 Watt