象形文字を翻訳するためのモバイルアプリケーション(2018)
??象形文字を検出、分類、音訳するモバイルアプリケーション。

古代エジプト人の生活様式の多くは、誰も彼らのシンボルの意味を解読できなかったために失われていました。この象形文字の辞書は、数千ページの長さになり、何かを見上げることは退屈な作業になりました。インターネットが出現したとしても、それを検索するためにHieroglyphicのGardinerコードを知らないという問題はまだ残っていました。
この問題を解決するために、Dua-Khetyはモバイルアプリケーションとして作成され、 Android ( Javaで実装)とiOS ( Swift & Objective Cで実装)デバイスの両方で利用できます。プロセス全体がオフラインで行われます。つまり、サービスは便利で、高速で、使いやすく、いつでもどこでもアクセスできます。
検出と分類以外にアプリケーションには多くの機能があります。これには、ユーザーがガーディナーのコードを入力し、それが表す象形文字に関する情報を受け取ることができる象形文字の辞書も含まれています。分類器を改善し、将来のアプリのパフォーマンスを改善するためのガーディナーコードと説明。これらの機能は、リモートサーバーに保存され、PHPスクリプトを使用して操作されたMySQL databasesに依存しています。これは、後にストレージおよびデータベースソリューションのためにGoogle's Firebaseサービスに移行されました。
各機能は別のビューで実装され、分類などのユーザーには見えないプロセスには、それぞれに独自のビューもあります。モバイルアプリケーションは、リモートサーバー上の2つのデータベースと通信できます。 1つは歴史とソーシャルフィードの機能で使用される社会的コンテンツを保持し、もう1つは象形文字のコードでソートされた象形文字に関する情報を保持し、象形文字辞書で使用され、分類に関する詳細情報を提供します。
セグメンテーションの場合、これはユーザーが撮影したビットマップをMATオブジェクトに変換し、白黒に変換し、半径3で画像をぼかすことにより、 OpenCVを使用して達成されます。平均が計算されます。その後、画像は計算された平均の最小値と255の最大値でしきい値が付けられています。その後、平均 * 0.66のしきい値と平均 * 1.33と最適であることがわかったアパーチャサイズ3で適用されます。その後、コンポーネントが抽出され、元の画像の個々の象形文字の周りに境界ボックスを描くために使用されます。その後、これらを取り囲み、小さな画像の配列に入れます。 (元の画像から)トリミングされた画像は、正確さを最大化するために分類器に供給される前に、黒と白に変換され、同じ方法で保有されます。
分類器は、シャムネットワークの概念を使用します。このようなネットワークは、イメージの入力ペアと同じクラスのかどうかを表すラベルとして取得することにより、通常のネットワークとは異なります(0または1として表示されます)。言い換えれば、ネットワークに供給されているものの半分は、同じクラスの画像のペアのペアであり、そのラベルは1、残りの半分は2つの異なるクラスの2つの異なる画像、ラベルは0です。画像はランダムに選択されます。最近、この概念は、実際のテスト画像を分類するために、各クラスに少数の画像を備えた多数のクラスを使用する問題に役立つことが証明されています。トレーニング画像はネットワークを介して供給され、640値の特徴ベクトルが抽出されます。その後、クラス内の画像のすべてのベクトルの平均が計算され、コンマ分離値(CSV)ファイルに保存されます。同じことがすべてのクラス(157)で行われます。新しいテスト画像のクラス番号を予測するために、それは同じネットワークに供給され、640値の機能ベクトルも抽出されます。これに続いて、各クラスから以前に抽出した機能ベクトルと以前に抽出されたものの間のL1距離を比較し、最小の5つの距離を上位5つの予測とみなします。 iOSアプリケーションはOpenMLを使用し、AndroidアプリケーションはTensorflowを使用します。
上位予測の精度は66%ですが、上位5つの予測の精度は88%です。

スクリーンショットとビデオはhttps://malaksadek.wordpress.com/2019/10/15/teeet-the-egyptian-microbus-experience/
アプリは次のとおりです。