Seattle Startup Moondream veröffentlichte das kompakte visuelle Sprachmodell Moondream2 mit nur 1,6 Milliarden Parametern, hat sich jedoch in verschiedenen Benchmark -Tests gut abspielt, sogar besser als einige Modelle mit größeren Parametern. Als Open-Source-Modell kann MoonDream2 lokal auf Geräten mit niedrigem Performance wie Smartphones ausführen und verfügt über leistungsstarke Bild- und Textverarbeitungsfunktionen, einschließlich Q & A, OCR, Objektzählung und Klassifizierung. Die Punktzahl von über 60% für Docvqa, TextVQA und GQA zeigt seine leistungsstarken Fähigkeiten, wenn sie lokal ausgeführt werden. Moondream hat Saatgutrunden in Höhe von 4,5 Millionen US -Dollar erhalten und aktualisiert das Modell weiterhin, um seine Leistung zu verbessern.
Kürzlich hat Moondream, ein Startup in Seattle, ein kompaktes visuelles Sprachmodell namens Moondream2 gestartet. Trotz seiner geringen Größe hat sich das Modell in verschiedenen Benchmarks gut entwickelt und viel Aufmerksamkeit erregt. Als Open -Source -Modell wird von Moondream2 erwartet, dass sie die lokale Bilderkennung auf Smartphones implementieren.

Moondream2 wurde im März offiziell veröffentlicht. Seit seiner Veröffentlichung hat das Moondream -Team das Modell kontinuierlich aktualisiert, um seine Benchmark -Leistung kontinuierlich zu verbessern. Die Juli -Ausgabe zeigte signifikante Verbesserungen des OCR- und Dokumentationsverständnisses, insbesondere bei der Analyse historischer Wirtschaftsdaten. Das Modell erzielte mehr als 60% auf DOCVQA, TextVQA und GQA und zeigt seine leistungsstarken Fähigkeiten, wenn sie lokal ausgeführt werden.
Ein charakteristisches Merkmal von Moondream2 ist die kompakte Größe: nur 1,6 Milliarden Parameter, wodurch es nicht nur auf Cloud-Servern, sondern auch auf lokalen Computern und sogar auf einigen Geräten mit niedrigem Leistungsbereich wie Smartphones oder Single-Board-Computern ausgeführt wird.
Trotz seiner geringen Größe ist seine Leistung mit einigen Wettbewerbsmodellen mit Milliarden von Parametern vergleichbar und übertrifft diese größeren Modelle in einigen Benchmarks sogar.
Im Vergleich von visuellen Sprachmodellen für mobile Geräte wiesen die Forscher darauf hin, dass Moondream2 zwar nur 170 Millionen Parameter hat, aber die Leistung mit dem des 700 Millionen Parametermodells vergleichbar ist und nur geringfügig minderwertig mit dem SQA -Datensatz funktioniert. Dies zeigt, dass es trotz der hervorragenden Leistung des kleinen Modells Herausforderungen beim Verständnis eines bestimmten Kontextes gibt.

Vikhyat Korrapati, der Entwickler des Modells, sagte, Moondream2 sei auf anderen Modellen wie Siglip, Microsoft-Datensätzen von PHI-1.5 und LLAVA aufgebaut. Das Open -Source -Modell ist jetzt kostenlos auf Github erhältlich und verfügt über eine Demo -Version auf dem Umarmungsgesicht. Auf der Codierungsplattform hat Moondream2 auch die Aufmerksamkeit der Entwicklergemeinschaft auf sich gezogen und mehr als 5.000 Sterne -Bewertungen erhalten.
Der Erfolg erregte die Aufmerksamkeit der Anleger: Moondream sammelte in einer Saatgut -Runde, die von Felicis Ventures, Microsoft M12Github Fund und Ascend von Microsoft, erfolgreich 4,5 Millionen US -Dollar einbrachte. Der CEO des Unternehmens, Jay Allen, arbeitet seit vielen Jahren für Amazon Web Services (AWS) und leitet das wachsende Startup.
Der Start von Moondream2 markiert die Geburt einer Reihe professionell optimierter Open -Source -Modelle, die weniger Ressourcen erfordern, wenn sie eine ähnliche Leistung wie größere, ältere Modelle liefern. Obwohl es einige kleine lokale Modelle auf dem Markt gibt, wie beispielsweise der Smart Assistant von Apple und Googles Gemini Nano, lagern diese beiden Hersteller immer noch komplexere Aufgaben für die Cloud, um sie zu lösen.
Huggingface: https: //huggingface.co/vikhyatk/moondream2
GitHub: https: //github.com/vikhyat/moondream
Schlüsselpunkte:
Moondream hat Moondream2 auf den Markt gebracht, ein visuelles Sprachmodell mit nur 160 Millionen Parametern, das auf kleinen Geräten wie Smartphones ausgeführt wird.
Das Modell verfügt über starke Funktionen für Text- und Bildverarbeitung, kann Fragen beantworten, OCR ausführen, Objekte zählen und Benchmarks klassifizieren und ein ausgezeichnetes Benchmarking durchführen.
Moondream sammelte erfolgreich 4,5 Millionen US -Dollar an Finanzmitteln, und der CEO arbeitete bei Amazon, und das Team aktualisierte und verbesserte die Modellleistung weiter.
Die Entstehung von Moondream2 hat mobile KI -Anwendungen neue Möglichkeiten gebracht, und seine Open -Source -Funktionen haben auch die aktive Teilnahme und Innovation der Entwicklergemeinschaft gefördert. Mit der kontinuierlichen Entwicklung von Technologie werden kleine und effiziente KI -Modelle wie Moondream2 in Zukunft eine wichtige Rolle in mehr Feldern spielen.