Galileo Computing :: Linux - 8 Reguläre Ausdrücke

8.3 grep

Kommen wir nun zu einem weiteren Programm namens grep. Mit grep können Sie ähnlich wie mit sed Filterausdrücke aus einem Input-Stream filtern. Jedoch kann grep diese nicht manipulieren. Vielmehr liegen die Stärken von grep in der einfachen Handhabung und in der höheren Geschwindigkeit gegenüber sed.

Zum Filtern von Ausdrücken übergibt man grep einfach den gewünschten Ausdruck sowie entweder eine Eingabedatei oder den Input aus einer Pipe bzw. der Tastatur.

Listing 8.22 Das Programm grep

$ grep 'n$' Standorte
Bremen
Friedrichshafen
Aschersleben
Berlin
Essen
Furtwangen
Kehlen
Kempten

Filternegierung

Zudem kann man die Filtervorgabe negieren, womit grep alle Zeilen ausgibt, die nicht dem angegebenen Ausdruck entsprechen. Dies wird mit der Option -v bewerkstelligt.

Listing 8.23 grep -v

$ grep -v 'n$' Standorte
Augsburg
Bernburg
Halle
Krumbach
Osnabrueck

8.3.1 grep -E und egrep

Sehr hilfreich ist die Fähigkeit, mehrere Ausdrücke in einem Befehl zu filtern. Dabei verwendet man ein logisches ODER in Form eines Pipe-Zeichens zwischen den Ausdrücken sowie entweder grep mit der Option -E oder das Programm egrep.

Listing 8.24 egrep

$ egrep -v 'n$|k$' Standorte
Augsburg
Bernburg
Halle
Krumbach
$ grep -vE 'n$|k$' Standorte
Augsburg
Bernburg
Halle
Krumbach

[»]Ein Blick in die Manpage verrät uns das Geheimnis: egrep ist mit einem Aufruf von grep -E gleichzusetzen. Zudem findet man im Dateisystem, zumindest unter Slackware-Linux, den symbolischen Link /bin/egrep auf /bin/grep. Dies bedeutet, dass das Programm grep intern abfragt, ob der Programmname egrep oder nur grep lautet, und sein Verhalten der Option -E im Falle von egrep automatisch anpasst.

8.3.2 Geschwindigkeitsvergleich

Da wir einen Test auf einen regulären Ausdruck sowohl mit sed als auch mit grep durchführen können, interessiert uns natürlich, welches Programm das schnellere ist. Besonders Shellskripts, die große String-Mengen durchsehen müssen, können dadurch eventuell sinnvoll optimiert werden.

Zum Test haben wir eine 188 MB große Datei mit dem Namen TESTFILEB erzeugt, in der unterschiedlich lange Textstrings enthalten sind. Das Testsystem läuft unter Slackware-Linux 9.1 mit Kernel 2.4.22, einem AMD Athlon XP 2400+ und einer UDMA133-Platte. Hier nun die Testaufrufe sowie deren Ergebnisse:

sed -n '/n$/p' TESTFILEB >/dev/null
benötigte im Schnitt 9,358 Sekunden, um diese Datenmenge zu bewältigen.
grep 'n$' TESTFILEB >/dev/null
benötigte durchschnittlich nur 7,075 Sekunden.
Ein von uns speziell für diesen einen Filtervorgang entwickeltes, geschwindigkeitsoptimiertes, vom GNU-Compiler gcc-3.2.3 optimiertes, gestriptes C-Programm, in dem die darin verwendeten Standard-Libc-Funktionen strlen() und bzero() durch schnellere ersetzt wurden, benötigte übrigens nur noch 5,940 Sekunden. [Fn. Man könnte den Test noch schneller absolvieren, indem man beispielsweise auf Assembler zurückgreift, die Testdatei in eine virtuelle Partition im Hauptspeicher auslagert (oder komplett in den RAM einliest), eventuell eine andere Kernel-Version verwendet oder schlicht auf bessere Hardware zurückgreift.]

Exkurs: PDF-Files mit grep durchsuchen

Es ist möglich, mithilfe der poppler-utils (auch poppler-tools genannt), den Inhalt von PDF-Dateien in Textform auszugeben. Diese Textform kann dann wiederum mit Programmen wie grep durchsucht werden. Die poppler-utils stellen dazu das Programm pdftotext bereit. Übergeben wird dem Programm dabei zunächst ein Dateiname und als zweiter Parameter die Ausgabedatei oder ein »-« um zu signalisieren, dass der Inhalt der Datei auf die Standardausgabe geschrieben werden soll.

Listing 8.25 Eine PDF-Datei durchsuchen (Ausgabe gekürzt)

$ pdftotext CovertChannels.pdf – | grep portknocker
keywords : covert, channels, ... portknocker
It seems obvious that t... portknocker or ...
...

Die poppler-utils beinhalten übrigens auch einige weitere Programme wie etwa pdftohtml, mit dem der Inhalt von PDF-Dateien in HTML umgewandelt werden kann. Mit pdftops lassen sich die Dateien hingegen ins PostScript-Format konvertieren.

Listing 8.26 Eine PDF-Datei in HTML konvertieren

$ pdftohtml essay.pdf essay.html
Page-1
Page-2
...

Ihr Kommentar

Wie hat Ihnen das <openbook> gefallen? Wir freuen uns immer über Ihre freundlichen und kritischen Rückmeldungen.

Name
E-Mail
Ihr Kommentar