Bogen -Eingabeaufforderung (Abstraktions- und Argumentationskorpus)
Aufforderungen zur Lösung von ARC -Aufgaben mit GPT4 oder ähnlichem.
Löst 46 der öffentlichen 800 Aufgaben im ARC 1 -Datensatz.
Nicht getestet auf den versteckten 100 Aufgaben, da GPT4 geschlossen ist.
Erkenntnisse über Eingabeaufforderungen
- Große Eingabeaufforderungen und geringe Chance für eine korrekte Lösung.
- Versteht kodierte Daten mit langen Längen, aber RLE schadet die Argumentationsfunktionen. In einigen Fällen kann RLE jedoch funktionieren.
- Versteht Koordinaten und kann einfache Formen, Linien, Kisten und Tetris -Formen erkennen.
- Transformationen wie Drehen 90 oder Flip werden selten korrekt berücksichtigt.
- Nicht schlüssig, was ist der beste Weg, um Farben darzustellen. Manchmal werden Rohfarben -Ganzzahlwerte als mathematische Werte interpretiert, was die Vorhersage durch Chaos verursacht. Die Farben in Text zu verschleiern, hilft. Anstatt die
color zu verwenden, verwende ich die Word ID oder Layer . Unentschlossen, was funktioniert.
Sprachmodelle
- OpenAIs GPT4 - löst einige der Bogenaufgaben, und die Fehlverpredungen kommen sehr nahe an die erwartete Ausgabe.
- OpenAIs GPT3.5 - Nicht in der Lage, Lichtbogenaufgaben zu lösen, aber manchmal kommen die Fehlverpredungen der erwarteten Ausgabe nahe.
- Googles BARD -Version 2023.07.13 - konnte keine Aufgaben lösen.
Beispiele für falsche Vorhersagen
IMO Die falschen Vorhersagen sind interessanter als die richtigen Vorhersagen. Diese Vorhersagen kommen der erwarteten Ausgabe sehr nahe.






Repo -Struktur
Es gibt 2 Dires:
- Eingabeaufforderungen/korrekt - gute Vorhersagen, die die Aufgaben löst.
- Eingabeaufforderungen/falsche - Fehlverpredungen, die bei der Lösung der Aufgaben nahe kommen.
Die Dateien sind Markdown -Dokumente mit 3 oder 4 Abschnitten.
- Abschnitt A - Metadaten über die Modelle, an denen es ausprobiert wurde. Alle Dokumente sagen im Moment
gpt4 . - Abschnitt B - die Eingabeaufforderung . ARC -Aufgabe erweitert mit nützlichen Informationen. Maschine erzeugt.
- Abschnitt C - Die Antwort . Die Antwort von GPT4 oder einem ähnlichen Modell.
- Abschnitt D - Optionaler Abschnitt mit menschlichen Kommentaren darüber, was mit der Argumentation schief gelaufen ist.
Zwietracht
Ich hänge in den Bogenkanälen auf Lab42 und Yannic Kilcher ab. Tolle Orte für die Erörterung der schnellen Technik.
Lizenz
Apache oder MIT.