汎用性の高いファイル形式について解説します!

本記事では、様々な場面で汎用的に活用することができるファイル形式について詳しく解説します。
汎用性の高いファイル
汎用性の高いファイルとは、特定のアプリケーションやOSに依存しないファイル形式を持ったファイルのことです。汎用性の高いファイルは、基本的にどのようなソフトウェアでも、環境の異なるコンピューターでも、利用することができます。
例えば、テキストファイルやカンマ区切り、タブ区切りで出力したテキスト形式の表データは、フォントや罫線などの書式の情報は一切入っておらず、文字情報だけで構成されているので、汎用性が高いといえます。
汎用性の高いファイルは、以下の通り色々な種類がありますが、ここでは「PDF」と「マークアップ言語」について説明します。
文書データ | テキスト形式 | 文書属性や書式情報、特殊な制御コードなどを含まない、文字情報(文字コードと改行コード)のみで構成された文書形式。 |
Adobe Systems社によって開発された電子文書のファイル形式。 アプリケーションソフトで作成した文書の見栄えを保持し、原則内容の編集ができないようにした文書形式。表示するには専用のソフトウェアが必要だが、コンピューターの機種や環境に依存せず表示・印刷できる。 |
||
表形式データ | CSV | テキスト形式の一種。1レコード分のデータを1行に書き出し、データの種類(列)毎に半角カンマ(,)で区切るデータ形式。 |
タブ区切形式 | テキスト形式の一種。1レコード分のデータを1行に書き出し、データの種類(列)毎にタブ文字で区切るデータ形式。 | |
マークアップ言語 | SGML | Standard Generalized Markup Languageの略で、デジタル文書同士の互換性を提供するため、1986年にISOの国際規格に規定された汎用記述言語。独自のタグを定義できるため、あらゆるものを定義でき、他のマークアップ言語の源流に位置する。 しかし規格の巨大さゆえに処理に時間がかかる。またインターネット上での使用などは最初から考慮されていなかった。 |
HTML | Hyper Text Markup Languageの略で、SGMLの記述方法を簡素化し、Webページを記述するために開発された言語。文字や画像、音声、動画などを含むページを表現することが可能。 HTMLはタグが固定的で汎用性に乏しいものの、圧倒的な広まりを見せ、Webページを記述する際の標準フォーマットとなっているが、Webページ記述に特化しているため、多種多様な分野におけるデータ交換などの目的には対応できない。 |
|
XML | Extensible Markup Languageの略で、SGMLの記述方法を用いて、コンピューターにも人にも理解できる汎用的なデータ記述形式を目指し開発された言語。 SGMLと同様、独自のタグを定義することができる。SGMLに比べて扱いやすく、簡単にまた安価で開発できることから、多くの企業に採用され、開発技術の開発やサービスとの連動が行われている。 XMLデータの汎用性と使いやすさから、ウェブ関連のさまざまな分野でXMLが標準の文書形式となる。 |
PDF(Portable Document Format)は、Adobe Systems社によって開発され、ISOによって管理されている電子文書のファイル形式です。Office文書やフォーム、グラフィック、Webページなどを変換して作成したPDFは、コンピューターの機種や環境に関わらず、元のファイルを印刷したときと同じ体裁になります。また、紙媒体の文書もスキャニングすることでPDFに変換できるため、他のPDF文書と併せて統合的に管理することができます。
文字情報だけでなく、フォントや文字の大きさ、字飾り、内部のテキスト形式のデータも保存できるため、静止画像とは異なりPDF内の文字検索もできます。また、動画や音声、インターネットのリンク情報を扱うこともできるので、インターネット経由で配信される電子文書の標準的なファイル形式として普及しています。
パスワード保護などのセキュリティ機能を使用すれば、PDFを他人によるアクセス、コピー、編集、印刷から保護することが可能です。また、PDFのアクセシビリティ機能により運動障害や視覚障害などの障害を持つユーザーが使用できる文書を作成することもできます。例えば、テキストを音声に変換する読み上げ機能により視覚障害のあるユーザーもPDF文書を利用できるようになります。
PDFを閲覧する際はPDFが閲覧可能なソフトウェアを使用しますが、主なソフトウェアはAdobe Systems社の無償ソフト「Adobe Reader」を使用します。また、PDFを作成・編集するにはAdobe Systems社の「Adobe Acrobat」などの作成・編集が可能なソフトウェアがあります。
マークアップ言語で記述されたファイル
a.マークアップ言語とは
マークアップとは、文書内の一部がどのような要素(見出し、段落、箇条書きなど)なのか、文章に対してそれらを指定することです。マークアップ言語は、コンピューター言語の一種で、「タグ」と呼ばれる特別な文字列で文章の一部を囲うことにより、文章の構造(見出しやハイパーリンクなど)や装飾情報(文字の大きさや色など)を記述するための言語です。
マークアップ言語で作成した文書は、文字のみのテキストファイルなので、殆どのコンピューターにインストールされているテキストエディタ(Windowsシリーズの場合はメモ帳)での編集が可能です。
しかし、我々にマークアップ言語の知識がなければ、タグで囲まれた文章は読み解くことができても、タグは単なる文字の羅列になってしまいます。ところが、ブラウザで読み込めば、ブラウザがタグの意味を解釈し、レイアウトや装飾を整えて文章を表示してくれます。つまり、タグは文字ではなく機能として扱われます。この2面性がマークアップ言語の大きな特徴です。
ブラウザもテキストエディタと同様に殆どのコンピューターにインストールされています。つまり、マークアップ言語で作成した文書は、IT環境に依存することがなく汎用性が高い電子文書だといえます。ただし、ブラウザの種類やバージョンの違いによってタグの解釈が若干異なるため、文章やイラストなどの表示が違ってくる場合があります。
代表的なマークアップ言語には、SGMLやSGMLから発展したHTML、XMLがあります。
b.SGML
SGMLは、デジタル文書同士の互換性のなさを解消するために、1986年にISOの国際規格に制定された汎用記述言語です。文書の構造やレイアウト、装飾などをタグ付けによって記述できるように、タグ自体も定義する言語です。あらゆるものを定義でき、他のマークアップ言語の源流に位置します。
しかし、規格のあまりの巨大さゆえに非常に処理にも時間がかかり、インターネット上での使用は最初から考慮されていなかったため、広く普及するには至りませんでした。
c.HTML
HTML は、SGMLの記述方法を簡素化し、Webページを記述するために開発された言語で、画像や音声、動画などを含むWebページを表現することができます。HTMLはSGMLと異なり自由にタグを定義できず、決められたタグを使用しなければならないため汎用性には欠けますが、記述方法が簡単でファイルサイズも小さいのでインターネットの普及とともに圧倒的な広まりを見せました。現在HTMLはWebページを記述する際の標準フォーマットとなっています。
HTMLとは、ハイパーテキスト(Hyper Text)をマークアップした言語という意味で、HTMLをブラウザで開くと、ブラウザがマークアップを解釈して人間が閲覧しやすいように文章を表示します。また、ハイパーテキストとは、通常のテキストの機能を超えたテキストという意味で、文書の任意の場所に他の文書の位置情報(ハイパーリンク)を埋めこみ、複数の文書を相互に連結できる文書のことをいいます。
HTMLは、主に文章の論理構造を記述する言語でしたが、Webの普及が進むにつれて文書の見栄え(色やフォント指定など)に関する仕様が追加されました。その後、見栄えを記述する専用の言語としてスタイルシート(CSS : Cascading Style Sheet)が考案され、現在ではなるべく構造をHTMLで、見栄えはスタイルシートでと分けて記述するようになっています。
このようにHTMLはWebの普及に従って仕様が拡張されましたが、Webのページ記述に特化しているため、電子商取引など多種多様な分野におけるデータ交換などの用途には対応できません。そこで新たに開発された言語が次に解説するXMLです。
d.XML
◆XMLとは
XML は、SGMLの記述方法を用いて、コンピューターにも人にも理解出来る、汎用的なデータ記述形式を目指し開発された言語です。XMLはSGMLに比べて扱いやすく開発も簡単で安価なため、多くの企業で採用され色々なサービスとの連携が行われています。また、XMLデータの汎用性と使いやすさから、ウェブ関連の様々な分野でXMLが標準の文書形式となっています。
XMLでは、文書の構造をDTD(Document Type Definition:文書型定義)として記述することで、ユーザーが独自のタグを定義することができます。つまり、DTDはユーザーが定義したタグの文法書のようなもので、マークアップの構成要素やその順序(親子関係)、指定できる属性などの規則を定めたものです。
このようにタグの意味を規定していないSGMLやXMLなどをメタ言語といい、DTDのようにタグの意味を規定するものをスキーマ(文書構造定義)言語といいます。メタ言語はスキーマ言語とタグで記述されたテキストを組み合わせてマークアップ言語になります。なお、DTDはSGML用に規格されたスキーマ言語ですが、XMLには使いづらい面があることから、XML用に「XML Schema」(XMLスキーマ)が新しく規格されています。
XMLはデータの論理的な構造を記述するための言語なので、XML文書にはどんな体裁でブラウザに表示するのかを指示するレイアウト情報(スタイル情報)は含まれていません。XMLデータをHTML文書のようにブラウザで表示させるためには、
- XMLデータをブラウザで扱える形に変換する機能
- レイアウト情報を付加する機能
が必要になります。
この機能を実現するのがXMLのスタイルシートXSL(Extensible Stylesheet Language)です。
この中から 1 の変換機能を独立した規格として取り出したのがXSLT(Extensible Stylesheet Language Transformations)です。XSLTはXMLデータから、HTMLデータやテキスト、CSV、別フォーマットのXMLデータなどへの変換を実現します。この機能は、Webに表示するためにXMLデータをHTMLに変換したり、電子商取引を行うために社内データベース上のデータをXML形式のデータに変換したりする際の、汎用コンバージョンツールとして注目されています。
以上のことから、XMLでは「内容」(タグでマークアップされた部分。文書データ本体)と「構造」(DTD、XML Schemaなどのスキーマ言語によって定義)、「体裁」(XSL、CSSのスタイルシートにより記述)の3つの要素を分離して扱っていることが分かります。
◆XMLとHTMLの比較
XMLの「Extensible」は、タグを定義できるということから「拡張できる」という意味を表しており、タグが固定されているHTMLと大きな違いがあります。
HTMLではタグ名はあらかじめ決められたものしか使用できず、人間は、ブラウザに表示させることによって初めてその意味を確認することができます。つまり、HTMLのタグ名は表現情報(表示情報)であり、タグによってマークアップされている情報の意味は、人間が実際にブラウザで見て初めて認識できるのです。
一方、XMLはタグ名を自由に決めることができるので、目的に応じたタグを定義して使用することができます。例えば、「<price>2280円</price>」と記述した場合、"2280円"という文字列の意味をタグ名が与えます。これを人間が見れば"2280円"という情報が「定価」を表すものであることをタグ名から知ることができます。つまり、タグが意味情報をもつのです。このようにXMLを使用してマークアップすると、タグ名をHTMLのように表現情報として利用するのではなく、意味情報として利用することになります。これは、プログラムでデータを処理する際に大きな違いとなって現れます。データをXMLでマークアップしておけば、個々の情報に意味情報のタグがついているのでプログラムから正確にデータ処理をすることが可能となります。
また、HTMLはブラウザで表示するための言語ですが、XMLはXMLを読み込むアプリケーションも用途も決まりがありません。
以下の表でHTMLとXMLを比較しました。
HTML | XML | |
文書構造 |
|
|
見栄えの定義 |
|
|
アプリケーション |
|
|
データの処理 |
|
|
まとめ
今回は、汎用性の高いファイルであるPDFとマークアップ言語を詳しく紹介しました。これからは汎用性の高いファイルを活用し、フォーマット変換などの手間を省いて業務効率向上につなげましょう。
日本レコードマネジメントでは、電子文書管理の専門スタッフが豊富な経験を活かし、お客様のニーズに合った電子文書管理の構築をサポートいたします。お気軽にご相談ください。