project js textalyze Download - project js textalyze Quellcode Download

project js textalyze

Anderer Quellcode

1.0.0

Herunterladen

Analyse des Textes in JavaScript

Inhalt

Über dieses Projekt
Erste Schritte
- Dateien in diesem Repository
Warum wir das tun
Feedback anfordern
Iterationen

Über dieses Projekt

Wir schreiben eine Reihe einfacher Befehlszeilen -Tools, um grundlegende Statistiken zu einer Textdatei oder einer Reihe von Textdateien anzuzeigen. Einige grundlegende Statistiken umfassen ...

Charakterzahl, Wortzahl und Satzzahl
Brieffrequenz
Wortfrequenz, z. B. am häufigsten und am wenigsten gebräuchliche Wörter

Wir werden auch darauf hinarbeiten, die Fähigkeit hinzuzufügen, ...

Laden Sie Daten von einer willkürlichen URL herunter
Extrahieren Sie den Text von einer Webseite zur Analyse
Zeigen Sie die Ergebnisse in verschiedenen Formaten, z. B. Diagrammen, Histogrammen usw. an, usw.
Exportieren Sie die Ergebnisse in eine Tabelle

Hier ist ein Screenshot eines Programms, das den gesamten Text von Moby Dick von Project Gutenberg herunterlädt und ein Histogramm der Buchstabenfrequenzen ausdruckt.

Es stellt sich heraus, dass der Buchstabe "T" 9,25% aller Buchstaben in Moby Dick ausmacht.

Erste Schritte

Um loszulegen, müssen Sie ...

Geben Sie dieses Repository in Ihr eigenes Github -Konto
Öffnen Sie ein Terminal und klonen Sie dieses Repository an Ihren lokalen Computer
Navigieren Sie zum Repository auf Ihrem lokalen Computer
Öffnen Sie das Repository in Sublime Text 3, Atom, VS Code oder Ihren Herausgeber der Wahl.
Führen Sie npm install aus, um die erforderlichen Pakete zu installieren.
Lesen Sie das Warum machen wir das? Abschnitt
Arbeiten Sie an den Iterationen

Dateien in diesem Repository

textalyze.js ist der Quellcode für dieses Projekt
sample_data ist ein Verzeichnis, das Beispieltextdateien enthält, die analysiert werden, hauptsächlich aus Project Gutenberg.

Die mit diesem Repository gelieferte textalyze.js -Datei ist mit Kommentaren gefüllt, mit denen Sie beginnen sollen. Sie sollten sich gerne löschen, um das Programm leichter zu lesen.

Warum wir das tun

Denken Sie über die Fragen nach, die Sie benötigen, um zu beantworten, damit es funktioniert, dass es funktioniert:

Wie öffne und lese ich Daten, die in der Datei auf meinem Computer enthalten sind?
Wie kann ich die relevanten Statistiken berechnen, sobald ich die Daten (aus einer Datei oder anderswo) habe?
Wie zeige ich sie auf benutzerfreundliche Weise an, sobald ich die relevanten Statistiken berechnet habe?

Diese Fragen führen die Bandbreite von Nitty-Gritty Ruby bis Benutzererfahrung aus und beginnen uns gleichzeitig auf dem Weg, sich mit der Funktionsweise des Webs wohl zu fühlen.

Feedback anfordern

Um Feedback zu Ihrem Code anzufordern, verwenden Sie den Standard -Github -Flussprozess.

Geben Sie dieses Repository auf Ihr eigenes Konto.
Erstellen Sie für jede Iteration einen Feature -Zweig
Wenn Sie für Feedback bereit sind, senden Sie eine Pull -Anfrage von Ihrer Feature -Filiale an Ihre Master -Filiale.
Pingen Sie die Ausbilder auf Github oder Slack, um eine Bewertung zu erhalten.

Iterationen

Dieses Projekt ist als Abfolge von Iterationen strukturiert, von denen jedes auf früheren Iterationen aufbaut. Iterationen dienen drei wichtigen Rollen:

Modelle für gutes Engineering und Produktmanagement, dh, was bauen wir in welcher Reihenfolge und warum?
Natürliche Kontrollpunkte, um eine Codeüberprüfung oder ein anderes Feedback zu fragen
Die Fähigkeit, Studenten mit unterschiedlichen Interessen, Fähigkeiten und Zeitbeschränkungen aufzunehmen.

[V0.1] Basiszählungsstatistik

Schreiben Sie anhand hart codierter Beispiele eine Funktion, die ein Array mit willkürlichen und möglicherweise duplizierten Elementen als Eingabe nimmt und ein Object /Zählpaare zurückgibt. Wir haben einige geschrieben

Diese Iteration hat Tests für Sie geschrieben. Laufen

 npm test

um die fehlgeschlagenen Tests zu sehen. Denken Sie daran, zuerst npm install auszuführen!

Das heißt, wenn der Eingang 100 Einträge und 20 von ihnen der Buchstaben "A" sind, sollte sich dann das resultierende Object enthalten

 { 'a' : 20 }

"Sinnvoll" liegt bei Ihnen zu definieren, aber hier ist ein vorgeschlagenes Format, das vorgibt, dass wir den Eingang als ["a", "a", "a", "b", "b", "c"] hart codiert haben.

 user@host project-js-textalyze $ node textalyze.js
The counts for ["a", "a", "a", "b", "b", "c"] are...
a   3
b   2
c   1
user@host project-js-textalyze $

[v0.2] Zeichenfolge zu Zeichen

Schreiben Sie anhand hart codierter Beispiele eine Funktion, die eine willkürliche String als Eingabe nimmt und ein Array aller Zeichen in der Zeichenfolge, einschließlich Leerzeichen und Interpunktion, zurückgibt.

Füttern Sie dies in die Array-Countring-Funktion aus der vorherigen Iteration, um ein Object mit Buchstaben/Zählpaaren zu erhalten. Drucken Sie diese Paare vernünftig aus.

[v0.3] Grundlegender String -Sanitisierung

Erstellen Sie eine Datei lib/sanitize.js und definieren Sie eine Funktion namens sanitize . Wie in lib/itemCounts.js sollte die letzte Zeile sein

 module . exports = sanitize

Die sanitize sollte eine willkürliche String erfolgen-möglicherweise Spaces, Interpunktion, Linienbrüche usw.-und eine "sanitäre" Zeichenfolge zurückgeben, die alle Buchstaben in oberen Fällen durch ihr äquivalentes unteres Kapazität ersetzt. Dadurch wird sichergestellt, dass die Buchstaben 'A' und 'a' nicht als zwei unterschiedliche Buchstaben behandelt werden, wenn wir unseren Text analysieren. Wir werden Interpunktion und andere Bits in einer späteren Iteration bewältigen.

Es sollte so funktionieren

 sanitize ( 'This is a sentence.' )        // => 'this is a sentence.'
sanitize ( 'WHY AM I YELLING?' )          // => 'why am i yelling?'
sanitize ( 'HEY: ThIs Is hArD tO rEaD!' ) // => 'hey: this is hard to read!'

Glücklicherweise bietet JavaScript eine integrierte Funktion, um uns zu helfen: String.Prototype.tolowerCase.

Integrieren Sie diese Funktion in das aktuelle Programm, damit das Object der Ergebnisse z. B. enthält, z. B., z.

 { 'a' : 25 }

anstatt

 { 'a' : 19 , 'A' : 6 }

Einige Anmerkungen zur String -Desinfektion

Oft sind die von uns gewünschten Daten nicht in einem Format, das es einfach macht, zu analysieren. Der Prozess der Aufnahme von schlecht formatierten Daten und der Umwandlung in etwas, das wir nutzen können, wird als Bereinigung unserer Daten bezeichnet.

Was als "sanitisieren" gilt, hängt von den zugrunde liegenden Daten und unseren Bedürfnissen ab. Wenn wir beispielsweise den gesamten Text in einem HTML -Dokument betrachten wollten, möchten wir nicht alle HTML -Tags zählen. Wenn wir umgekehrt einen Bericht über die am häufigsten verwendeten Tags in einem HTML-Dokument wollten, möchten wir die Tags aufbewahren , den Text jedoch entfernen.

In unserem Fall haben wir unser Programm so gestaltet, dass es obere Fälle von Buchstaben und unteren Case-Buchstaben als verschiedene Buchstaben behandelt, dh unser Object könnte enthalten

 { 'a' : 20 , 'A' : 5 }

Aber wir würden wahrscheinlich lieber nur enthalten

 { 'a' : 25 }

Ebenso interessieren uns wahrscheinlich die Interpunktion (Perioden, Kommas, Bindestriche, Kolons usw.), obwohl dies schwieriger ist als Unterschiede zwischen Buchstaben in oberen Fällen und unteren Case.

[V0.4] Lesen Sie aus einer hartcodierten Datei

Das Basis -Repository enthält ein Verzeichnis namens sample_data , das eine Handvoll Textdateien enthält. Hartcode Der Name einer dieser Dateien in Ihr Programm und lesen Sie den Inhalt dieser Datei in eine Zeichenfolge. Geben Sie diese Zeichenfolge in Ihr aktuelles Programm ein, damit sie jetzt die Briefzählstatistiken für diese bestimmte Datei anstelle der hartcodierten Zeichenfolgen in der vorherigen Iteration ausdruiert.

Um den Inhalt einer Datei in eine Zeichenfolge zu lesen, siehe FS.Readfile und Fs.ReadFilesync.

[v1.0] Lesen Sie aus einer von Benutzer gelieferten Datei

Wir möchten unseren JavaScript -Code nicht jedes Mal bearbeiten, wenn wir die Datei ändern müssen, aus der wir Daten lesen. Ändern wir es so, dass der Benutzer, der das Programm ausführt, den Namen der Datei übergeben kann, aus der aus dem Lesen teilnehmen kann. Wir werden dies mit den Befehlszeilenargumenten tun.

Diese Iteration markiert v1.0 unseres Programms. So wie es aussieht, ist unser Programm-obwohl begrenzt-in sich geschlossen, dass Sie es einer anderen Person geben können, und sie könnten es verwenden, wie Sie es beabsichtigt haben, ohne zu wissen, wie man Javascript-Code bearbeitet.

Glückwunsch!

Befehlszeilenargumente

Betrachten Sie den folgenden Befehl aus dem Terminal:

 node some-program.js first_argument second_argument banana

Die Befehlszeilenargumente sind first_argument , second_argument und banana , wobei ein Raum die Trennung zwischen jedem Argument bezeichnet. first_argument ist das erste Argument für Befehlszeilen und banana ist das dritte Befehlszeilenargument.

[v1.1] Grundfrequenzstatistik

Schreiben Sie anhand hart codierter Beispiele eine Funktion, die ein Array mit willkürlichen und möglicherweise duplizierten Einträgen als Eingabe nimmt und ein Object /Frequenzpaare zurückgibt. Drucken Sie diese Paare vernünftig aus.

Das heißt, wenn der Eingang 100 Einträge und 20 von den sind Buchstaben "a" dann haben, dann sollte das zurückgegebene Object haben

 { 'a' : 0.20 }

Stretch -Ansatz

Sie haben bereits eine Funktion geschrieben, die ein Array übernimmt und ein Object mit Einstiegs-/Zählpaaren zurückgibt, und Sie benötigen diese Zählungen (auf die eine oder andere Weise), um die Gesamtfrequenz zu berechnen. Wenn Sie sich selbst ausdehnen möchten, versuchen Sie, Ihre Funktion "Frequenzstatistik" so zu schreiben, dass Sie Ihre Funktion "Zählstatistiken" verwenden, damit Sie nicht so viel Code oder in Ihrem Programm arbeiten müssen.

Dies ist ein "Stretch -Ansatz", was bedeutet, dass es für Sie absolut nicht erforderlich ist, Ihr Programm auf diese Weise zu schreiben. Wie wir gesagt haben, ist es viel besser, etwas zu schreiben und Feedback dazu zu erhalten, als zu stecken, während sie versuchen, einen "besseren", "schnelleren", "eleganten" usw. zu verwirklichen.

[v1.2] Pretty Histogramme

Drucken Sie ein Histogramm von Buchstabenfrequenzen aus, das ungefähr wie folgt aussieht:

Ziel ist es, eine nützliche, gut gestaltete Ausgabe zu erzeugen. Es muss nicht mit der obigen Ausgabe identisch aussehen.

Hinweis: Sie können die Frequenz für jedes Element verwenden, um die Länge des Histogramms zu skalieren.

[v2.0] Weitere Funktionen

Hier sind einige zusätzliche Funktionen, die Sie möglicherweise hinzufügen:

Installieren und verwenden Sie das Anforderungsmodul, um Unterstützung für das Übergeben von URLs sowie Dateinamen hinzuzufügen. Zum Beispiel, anstatt Moby Dick zuerst herunterladen zu müssen, könnten Sie rennen
```
 node textalyze.js http://www.gutenberg.org/cache/epub/2701/pg2701.txt
```
Fügen Sie Unterstützung für die Anzeige der 5 (oder N ) häufigsten Wörter anstelle von Buchstabenfrequenzen hinzu.
Fügen Sie Unterstützung für den Exportieren der Daten in einem Format hinzu, das Sie wie eine CSV -Datei in Excel laden können. Zu diesem Zweck können Sie das CSV-Writer-Modul installieren und verwenden.
Suchen Sie Texte aus mehreren Sprachen und vergleichen Sie die Buchstabenfrequenz zwischen Sprachen. Die Brieffrequenz einer Sprache fungiert als eine Art Fingerabdruck, und Sie hätten überrascht, wie wenig Text es braucht, um eine Sprache zu identifizieren, sobald Sie die Buchstabenfrequenzen kennen.
Verwenden Sie eine Diagrammbibliothek wie Anychart, um ein grafisches Histogramm zu exportieren.

Führen Sie zum Installieren eines Moduls den folgenden Befehl aus (ersetzen Sie nameOfModule durch den Namen des gewünschten Moduls):

 npm install --save nameOfModule

Dadurch wird package.json aktualisiert und das Modul als Abhängigkeit hinzugefügt. Lesen Sie die Dokumentation jedes Moduls, um zu sehen, wie sie require und verwenden Sie sie.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-19
Größe 1.59MB
Kommt von Github

Ähnliche Anwendungen

llvm project

2024-11-01
Projekt drei

2024-02-26
Projekt GAMM

2023-09-05
Projekt Mugen

2023-09-01
PROJEKT CMW

2023-08-28
Projektverstoß

2023-08-16

project js textalyze

Analyse des Textes in JavaScript

Inhalt

Über dieses Projekt

Erste Schritte

Dateien in diesem Repository

Warum wir das tun

Feedback anfordern

Iterationen

[V0.1] Basiszählungsstatistik

[v0.2] Zeichenfolge zu Zeichen

[v0.3] Grundlegender String -Sanitisierung

Einige Anmerkungen zur String -Desinfektion

[V0.4] Lesen Sie aus einer hartcodierten Datei

[v1.0] Lesen Sie aus einer von Benutzer gelieferten Datei

Befehlszeilenargumente

[v1.1] Grundfrequenzstatistik

Stretch -Ansatz

[v1.2] Pretty Histogramme

[v2.0] Weitere Funktionen

llvm project

Projekt drei

Projekt GAMM

Projekt Mugen

PROJEKT CMW

Projektverstoß

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express