summaryrefslogtreecommitdiff
path: root/svtools/inc/svtools/parhtml.hxx
diff options
context:
space:
mode:
Diffstat (limited to 'svtools/inc/svtools/parhtml.hxx')
-rw-r--r--svtools/inc/svtools/parhtml.hxx297
1 files changed, 297 insertions, 0 deletions
diff --git a/svtools/inc/svtools/parhtml.hxx b/svtools/inc/svtools/parhtml.hxx
new file mode 100644
index 000000000000..a302b40d9d4b
--- /dev/null
+++ b/svtools/inc/svtools/parhtml.hxx
@@ -0,0 +1,297 @@
+/*************************************************************************
+ *
+ * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
+ *
+ * Copyright 2000, 2010 Oracle and/or its affiliates.
+ *
+ * OpenOffice.org - a multi-platform office productivity suite
+ *
+ * This file is part of OpenOffice.org.
+ *
+ * OpenOffice.org is free software: you can redistribute it and/or modify
+ * it under the terms of the GNU Lesser General Public License version 3
+ * only, as published by the Free Software Foundation.
+ *
+ * OpenOffice.org is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
+ * GNU Lesser General Public License version 3 for more details
+ * (a copy is included in the LICENSE file that accompanied this code).
+ *
+ * You should have received a copy of the GNU Lesser General Public License
+ * version 3 along with OpenOffice.org. If not, see
+ * <http://www.openoffice.org/license.html>
+ * for a copy of the LGPLv3 License.
+ *
+ ************************************************************************/
+
+#ifndef _PARHTML_HXX
+#define _PARHTML_HXX
+
+#include "svtools/svtdllapi.h"
+#include <tools/solar.h>
+#include <tools/string.hxx>
+#include <svl/svarray.hxx>
+#include <svtools/svparser.hxx>
+
+
+namespace com { namespace sun { namespace star {
+ namespace document {
+ class XDocumentProperties;
+ }
+} } }
+
+class Color;
+class SvNumberFormatter;
+class SvULongs;
+class SvKeyValueIterator;
+
+#define HTMLFONTSZ1_DFLT 7
+#define HTMLFONTSZ2_DFLT 10
+#define HTMLFONTSZ3_DFLT 12
+#define HTMLFONTSZ4_DFLT 14
+#define HTMLFONTSZ5_DFLT 18
+#define HTMLFONTSZ6_DFLT 24
+#define HTMLFONTSZ7_DFLT 36
+
+enum HTMLTableFrame { HTML_TF_VOID, HTML_TF_ABOVE, HTML_TF_BELOW,
+ HTML_TF_HSIDES, HTML_TF_LHS, HTML_TF_RHS, HTML_TF_VSIDES, HTML_TF_BOX };
+
+enum HTMLTableRules { HTML_TR_NONE, HTML_TR_GROUPS, HTML_TR_ROWS,
+ HTML_TR_COLS, HTML_TR_ALL };
+
+enum HTMLInputType
+{
+ HTML_IT_TEXT = 0x01,
+ HTML_IT_PASSWORD = 0x02,
+ HTML_IT_CHECKBOX = 0x03,
+ HTML_IT_RADIO = 0x04,
+ HTML_IT_RANGE = 0x05,
+ HTML_IT_SCRIBBLE = 0x06,
+ HTML_IT_FILE = 0x07,
+ HTML_IT_HIDDEN = 0x08,
+ HTML_IT_SUBMIT = 0x09,
+ HTML_IT_IMAGE = 0x0a,
+ HTML_IT_RESET = 0x0b,
+ HTML_IT_BUTTON = 0x0c
+};
+
+enum HTMLScriptLanguage
+{
+ HTML_SL_STARBASIC,
+ HTML_SL_JAVASCRIPT,
+ HTML_SL_UNKNOWN
+};
+
+struct HTMLOptionEnum
+{
+ const sal_Char *pName; // Wert einer HTML-Option
+ sal_uInt16 nValue; // und der dazugehoerige Wert eines Enums
+};
+
+// Repraesentation einer HTML-Option (=Atrribut in einem Start-Tag)
+// Die Werte der Optionen werden immer als String gespeichert.
+// Die Methoden GetNumber, ... duerfen nur aufgerufen werden, wenn
+// die Option auch numerisch, ... ist.
+
+class SVT_DLLPUBLIC HTMLOption
+{
+ String aValue; // der Wert der Option (immer als String)
+ String aToken; // der Name der Option als String
+ sal_uInt16 nToken; // und das entsprechende Token
+
+public:
+
+ HTMLOption( sal_uInt16 nTyp, const String& rToken, const String& rValue );
+
+ // der Name der Option ...
+ sal_uInt16 GetToken() const { return nToken; } // ... als Enum
+ const String& GetTokenString() const { return aToken; } // ... als String
+
+ // der Wert der Option ...
+ const String& GetString() const { return aValue; } // ... als String
+
+ sal_uInt32 GetNumber() const; // ... als Zahl
+ sal_Int32 GetSNumber() const; // ... als Zahl
+ void GetNumbers( SvULongs &rLongs, // ... als Zahlen
+ sal_Bool bSpaceDelim=sal_False ) const;
+ void GetColor( Color& ) const; // ... als Farbe
+
+ // ... als Enum pOptEnums ist ein HTMLOptionEnum-Array
+ sal_uInt16 GetEnum( const HTMLOptionEnum *pOptEnums,
+ sal_uInt16 nDflt=0 ) const;
+ BOOL GetEnum( sal_uInt16 &rEnum, const HTMLOptionEnum *pOptEnums ) const;
+
+ // ... und als ein par spezielle Enums
+ HTMLInputType GetInputType() const; // <INPUT TYPE=...>
+ HTMLTableFrame GetTableFrame() const; // <TABLE FRAME=...>
+ HTMLTableRules GetTableRules() const; // <TABLE RULES=...>
+ //SvxAdjust GetAdjust() const; // <P,TH,TD ALIGN=>
+};
+
+typedef HTMLOption* HTMLOptionPtr;
+SV_DECL_PTRARR(HTMLOptions,HTMLOptionPtr,16,16)
+
+class SVT_DLLPUBLIC HTMLParser : public SvParser
+{
+ BOOL bNewDoc : 1; // neues Doc lesen ?
+ BOOL bIsInHeader : 1; // scanne Header-Bereich
+ BOOL bIsInBody : 1; // scanne Body-Bereich
+ BOOL bReadListing : 1; // Lese Listings
+ BOOL bReadXMP : 1; // Lese XMP
+ BOOL bReadPRE : 1; // Lese preformatted Text
+ BOOL bReadTextArea : 1; // Lese TEXTAREA
+ BOOL bReadScript : 1; // Lesen von <SCRIPT>
+ BOOL bReadStyle : 1; // Lesen von <STYLE>
+ BOOL bEndTokenFound : 1; // </SCRIPT> oder </STYLE> gefunden
+
+ BOOL bPre_IgnoreNewPara : 1; // Flags fuers lesen von PRE-Absaetzen
+ BOOL bReadNextChar : 1; // TRUE: NextChar nochmals lesen (JavaScript!)
+ BOOL bReadComment : 1; // TRUE: NextChar nochmals lesen (JavaScript!)
+
+ sal_uInt32 nPre_LinePos; // Pos in der Line im PRE-Tag
+
+ HTMLOptions *pOptions; // die Optionen des Start-Tags
+ String aEndToken;
+
+protected:
+ String sSaveToken; // das gelesene Tag als String
+
+ int ScanText( const sal_Unicode cBreak = 0U );
+
+ int _GetNextRawToken();
+
+ // scanne das naechste Token,
+ virtual int _GetNextToken();
+
+ virtual ~HTMLParser();
+
+ void FinishHeader( BOOL bBody ) { bIsInHeader = FALSE; bIsInBody = bBody; }
+
+public:
+ HTMLParser( SvStream& rIn, int bReadNewDoc = TRUE );
+
+ virtual SvParserState CallParser(); // Aufruf des Parsers
+
+ BOOL IsNewDoc() const { return bNewDoc; }
+ BOOL IsInHeader() const { return bIsInHeader; }
+ BOOL IsInBody() const { return bIsInBody; }
+ BOOL IsValidSyntax() const { return TRUE; }
+ BOOL IsReadListing() const { return bReadListing; }
+ BOOL IsReadXMP() const { return bReadXMP; }
+ BOOL IsReadPRE() const { return bReadPRE; }
+ BOOL IsReadScript() const { return bReadScript; }
+ BOOL IsReadStyle() const { return bReadStyle; }
+
+ void SetReadNextChar() { bReadNextChar = TRUE; }
+
+ // PRE-/LISTING oder XMP-Modus starten/beenden oder Tags entsprechend
+ // filtern
+ inline void StartPRE( BOOL bRestart=FALSE );
+ void FinishPRE() { bReadPRE = FALSE; }
+ int FilterPRE( int nToken );
+
+ inline void StartListing( BOOL bRestart=FALSE );
+ void FinishListing() { bReadListing = FALSE; }
+ int FilterListing( int nToken );
+
+ inline void StartXMP( BOOL bRestart=FALSE );
+ void FinishXMP() { bReadXMP = FALSE; }
+ int FilterXMP( int nToken );
+
+ void FinishTextArea() { bReadTextArea = FALSE; }
+
+ // PRE-/LSITING- und XMP-Modus beenden
+ void FinishPREListingXMP() { bReadPRE = bReadListing = bReadXMP = FALSE; }
+
+ // Das aktuelle Token dem aktuellen Modus (PRE, XMP, ...) entsprechend
+ // Filtern und die Flags setzen. Wird von Continue aufgerufen, bevor
+ // NextToken gerufen wird. Wer eigene Schleifen implementiert bzw.
+ // selbst NextToken aufruft, sollte diese Methode vorher rufen.
+ int FilterToken( int nToken );
+
+ // Scannen eines Scripts beenden (sollte nur unmittelbar nach dem
+ // Lesen eines <SCRIPT> aufgerufen werden
+ void EndScanScript() { bReadScript = FALSE; }
+
+ void ReadRawData( const sal_Char *pEndToken ) { aEndToken.AssignAscii(pEndToken); }
+
+ // Token ohne \-Sequenzen
+ void UnescapeToken();
+
+ // Ermitteln der Optionen. pNoConvertToken ist das optionale Token
+ // einer Option, fuer die CR/LFs nicht aus dem Wert der Option
+ // geloescht werden.
+ const HTMLOptions *GetOptions( sal_uInt16 *pNoConvertToken=0 ) const;
+
+ // fuers asynchrone lesen aus dem SvStream
+// virtual void SaveState( int nToken );
+// virtual void RestoreState();
+ virtual void Continue( int nToken );
+
+
+protected:
+
+ static rtl_TextEncoding GetEncodingByMIME( const String& rMime );
+
+ /// template method: called when ParseMetaOptions adds a user-defined meta
+ virtual void AddMetaUserDefined( ::rtl::OUString const & i_rMetaName );
+
+private:
+ /// parse meta options into XDocumentProperties and encoding
+ bool ParseMetaOptionsImpl( const ::com::sun::star::uno::Reference<
+ ::com::sun::star::document::XDocumentProperties>&,
+ SvKeyValueIterator*,
+ const HTMLOptions*,
+ rtl_TextEncoding& rEnc );
+
+public:
+ /// overriding method must call this implementation!
+ virtual bool ParseMetaOptions( const ::com::sun::star::uno::Reference<
+ ::com::sun::star::document::XDocumentProperties>&,
+ SvKeyValueIterator* );
+
+ // Ist der uebergebene 0-terminierte String (vermutlich) der Anfang
+ // eines HTML-Files? Er sollte mind. 80 Zeichen lang sein.
+ // Mit Ausnahme des Falls, dass SwitchToUCS2==FALSE und
+ // SVPAR_CS_DONTKNOW uebergeben wird muss der String mit zwei(!)
+ // 0-Bytes an einer geraden(!) Position terminiert sein.
+ static FASTBOOL IsHTMLFormat( const sal_Char* pHeader,
+ BOOL bSwitchToUCS2 = FALSE,
+ rtl_TextEncoding eEnc=RTL_TEXTENCODING_DONTKNOW );
+
+ BOOL ParseScriptOptions( String& rLangString, const String&, HTMLScriptLanguage& rLang,
+ String& rSrc, String& rLibrary, String& rModule );
+
+ // Einen Kommentar um den Inhalt von <SCRIPT> oder <STYLE> entfernen
+ // Bei 'bFull' wird ggf. die gesammte Zeile hinter einem "<!--"
+ // entfernt (fuer JavaSript)
+ static void RemoveSGMLComment( String &rString, BOOL bFull );
+
+ static BOOL InternalImgToPrivateURL( String& rURL );
+ static rtl_TextEncoding GetEncodingByHttpHeader( SvKeyValueIterator *pHTTPHeader );
+ BOOL SetEncodingByHTTPHeader( SvKeyValueIterator *pHTTPHeader );
+};
+
+inline void HTMLParser::StartPRE( BOOL bRestart )
+{
+ bReadPRE = TRUE;
+ bPre_IgnoreNewPara = !bRestart;
+ nPre_LinePos = 0UL;
+}
+
+inline void HTMLParser::StartListing( BOOL bRestart )
+{
+ bReadListing = TRUE;
+ bPre_IgnoreNewPara = !bRestart;
+ nPre_LinePos = 0UL;
+}
+
+inline void HTMLParser::StartXMP( BOOL bRestart )
+{
+ bReadXMP = TRUE;
+ bPre_IgnoreNewPara = !bRestart;
+ nPre_LinePos = 0UL;
+}
+
+#endif