アークプロンプトコレクション(抽象化と推論コーパス)
GPT4または同様のアークタスクを解決するためのプロンプト。
ARC 1データセットのパブリック800タスクの46を解決します。
GPT4は閉じているため、非表示の100タスクでテストされていません。
プロンプトについての学習
- 大きなプロンプトと正しいソリューションの低いチャンス。
- ランレングスのエンコードされたデータを理解していますが、RLEは推論機能に害を及ぼします。ただし、場合によってはRLEが機能する場合があります。
- 座標を理解し、単純な形状、線、箱、テトリスの形状を検出できます。
- 回転90やフリップなどの変換が正しく考慮されることはめったにありません。
- 決定的な色を表す最良の方法は何ですか。生の色の整数値が数学値として解釈される場合があり、予測に大混乱を引き起こすことがあります。色をテキストに視聴するのに役立ちます。単語の
colorを使用する代わりに、単語IDまたはLayerを使用します。何が機能するかわからない。
言語モデル
- OpenaiのGPT4-いくつかのアークタスクを解決し、予測が予想される出力に非常に近いものになります。
- OpenaiのGPT3.5-アークタスクを解決することはできませんが、場合によっては予測が予想される出力に近づくことがあります。
- Google's Bardバージョン2023.07.13-タスクを解決できませんでした。
誤った予測の例
IMO誤った予測は、正しい予測よりも興味深いものです。これらの予測は、予想される出力に非常に近づきます。






レポ構造
2つの監督があります:
- プロンプト/正しい - タスクを解決する良い予測。
- プロンプト/間違っている - タスクの解決に近づく誤公開。
ファイルはマークダウンドキュメントで、3つまたは4つのセクションがあります。
- セクションA-試行されたモデルに関するメタデータ。すべてのドキュメントには、現時点で
gpt4が書かれています。 - セクションB-プロンプト。有用な情報で増強されたARCタスク。生成されたマシン。
- セクションC-返信。 GPT4または同様のモデルからの応答。
- セクションD-推論で何が間違っていたのかについての人間のコメントを含むオプションセクション。
不和
Lab42とYannic KilcherのARCチャンネルでたむろします。迅速なテクニックについて議論するのに最適な場所。
ライセンス
ApacheまたはMIT。