Набор символов

Толкование Перевод

Набор символов: Набор символов (англ. character set) — таблица, задающая кодировку конечного множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько символов другого алфавита (точек и тире в коде Mорзе, сигнальных флагов на флоте, нулей и единиц (битов) в компьютере).

Содержание

1 Набор символов в компьютере

2 Автоматическое распознавание кодировок

3 Распространенные кодировки

4 См. также

5 Примечания

Набор символов в компьютере

Символы в компьютере обычно кодируются одним или нескольким байтами (группами из восьми битов).

Хотя термин «набор символов» (англ. character set, charset), узаконенный интернет-стандартом RFC 2278, сейчас является, пожалуй, наиболее авторитетным, предшествовавший ему термин «кодировка» (англ. encoding) по-прежнему используется в качестве синонима, в частности, в языках программирования Java^[1], Perl^[2] и XSLT^[3], а также в HTML^[4].

Нередко также вместо термина «набор символов» неправильно употребляют термин «кодовая страница», означающий на самом деле частный случай набора символов с однобайтным кодированием.

В настоящее время в основном используются кодировки трёх типов: совместимые с ASCII, совместимые с EBCDIC и основанные на Юникоде 16-битные, с подавляющим преобладанием первых. Представление UTF-8 Юникода совместимо с ASCII. Кодировки на базе EBCDIC (например, ДКОИ-8) используются только на некоторых мэйнфреймах. Первоначально в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов стандартизованы^[5], зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали.

В Википедии и других проектах Фонда Викимедиа используется Юникод UTF-8.

Автоматическое распознавание кодировок

Использование множества кодировок в современном ПО создаёт много неудобств не только программистам, но и пользователям. Согласно одной точке зрения, справиться с кракозябрами можно, если программы будут автоматически распознавать кодировку входящего текста.

Для однобайтных кодировок можно учитывать тот факт, что частота использования разных букв сильно различается (например, в русском часто используется «о», но редко «ъ»). Поэтому, зная язык текста, можно легко выбрать кодировку, в которой частота байтов лучше соответствует частоте букв данного языка.

Альтернативная точка зрения считает подобные эвристические алгоритмы определения кодировки текста вредными, поскольку современные информационные технологии располагают средствами недвусмысленно сопоставить тексту положенную ему кодовую страницу (см., например, MIME). Широкое же распространение эвристических анализаторов поощряет использование некачественных программ создания текстовых данных, нарушающих стандарты.

Распространенные кодировки

ISO 646

ASCII

BCDIC

EBCDIC

ISO 8859:

ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15

CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869

Кодировки Microsoft Windows:

Windows-1250 для языков Центральной Европы, которые используют латинское написание букв (польский, чешский, словацкий, венгерский, словенский, хорватский, румынский и албанский)

Windows-1251 для кириллических алфавитов

Windows-1252 для западных языков

Windows-1253 для греческого языка

Windows-1254 для турецкого языка

Windows-1255 для иврита

Windows-1256 для арабского языка

Windows-1257 для балтийских языков

Windows-1258 для вьетнамского языка

MacRoman, MacCyrillic

КОИ8 (KOI8-R, KOI8-U…), КОИ-7

Болгарская кодировка

ISCII

VISCII

Big5 (наиболее знаменитый вариант Microsoft CP950)

HKSCS

Guobiao

GB2312

GBK (Microsoft CP936)

GB18030

Shift JIS для японского языка (Microsoft CP932)

EUC-KR для корейского языка (Microsoft CP949)

ISO-2022 и EUC для китайской письменности

Кодировки UTF-8, UTF-16 и UTF-32 набора символов Юникод

См. также

Генетический код

Псевдографика

Примечания

↑ Перечень основных «кодировок» в руководстве по Java SE 6

↑ Обсуждение темы «кодировок» в документации по языку Perl

↑ Обсуждение темы «кодировок» в документации по технологии XSLT

↑ Обсуждение соотношения терминов «кодировка» и «набор символов» в документации по языку HTML

↑ Спецификации наборов символов на сайте IANA

Кодировки символов

Основы → алфавит • текст ( файл • данные ) • набор символов • конверсия

Исторические кодировки → Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646

совре-
менное
8-битное
представ-
ление символы → ASCII ( управляющие • печатные ) не-ASCII ( псевдографика )

8бит. код.стр. Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic

ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16

Windows → 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4

IBM&DOS → 437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ )

Много-
байтные Традиционные → DBCS ( GB2312 ) • HTML

Unicode → UTF-16 • UTF-8 • список символов ( кириллица )

Связанные
темы → интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение Утилиты: iconv • recode

Категория:
Компьютерные кодировки

Кодировки символов
Основы →	алфавит • текст ( файл • данные ) • набор символов • конверсия
Исторические кодировки →	Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2	Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646
совре- менное 8-битное представ- ление	символы →	ASCII ( управляющие • печатные )	не-ASCII ( псевдографика )
8бит. код.стр.	Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic
ISO 8859 →	1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows →	1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 \| WGL4
IBM&DOS →	437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ )
Много- байтные	Традиционные →	DBCS ( GB2312 ) • HTML
Unicode →	UTF-16 • UTF-8 • список символов ( кириллица )
Связанные темы →	интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение	Утилиты: iconv • recode

Игры ⚽ Поможем написать реферат

Полезное

Смотреть что такое "Набор символов" в других словарях:

набор символов — Набор различных знаков, предназначенных для решения определенных задач, которые могут отображаться на экране дисплея, печатающем устройстве или другом устройстве вывода. Может включать в себя буквы, цифры, разнообразные символы.… … Справочник технического переводчика
набор символов (OEM) — Значение символов с кодами от 128 до 255, представляемое производителем оборудования. Как правило, сюда включаются буквы национальных алфавитов, символы псевдографики и пр. [Е.С.Алексеев, А.А.Мячев. Англо русский толковый словарь по… … Справочник технического переводчика
набор символов ANSI — Разработанная ANSI 8 битовая кодовая таблица, используемая в Windows для представления 256 управляющих и алфавитно цифровых символов. [http://www.morepc.ru/dict/] Тематики информационные технологии в целом EN ANSI character set … Справочник технического переводчика
Набор символов ZX Spectrum — Набор символов ZX Spectrum это вариант ASCII, используемый в 8 разрядном компьютере ZX Spectrum, его вариациях и клонах. 0x 1x 2x 3x 4x 5x 6x 7x 8x 9x Ax Bx Cx Dx Ex Fx x0 INK 0 @ P £ p … Википедия
набор символов или знаков — Алфавит, с помощью которого информация преобразуется в кодированный поток данных в сети Telnet (описан в RFC 2066). [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М. Горностаева. Москва … Справочник технического переводчика
Набор символов Юникод — Юникод, или Уникод (англ. Unicode) стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium,… … Википедия
Переносимый набор символов — (англ. Portable Character Set) набор из 103 символов, которые, согласно стандарту POSIX, должны присутствовать в любой используемой кодировке. Включает в себя все печатные символы US ASCII и часть управляющих. Является базовым алфавитом для… … Википедия
двухбайтовый набор символов — Применяется в Unicode. [http://www.morepc.ru/dict/] Тематики информационные технологии в целом EN DBCSDouble Byte Character Set … Справочник технического переводчика
универсальный многобайтовый кодированный набор символов — (МСЭ Т Х.693). [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN universal multiple octet coded character setUCS … Справочник технического переводчика
универсальный набор символов — — [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN UCSUCS … Справочник технического переводчика

Словари и энциклопедии на Академике

Набор символов

Содержание

Набор символов в компьютере

Автоматическое распознавание кодировок

Распространенные кодировки

См. также

Примечания

Полезное

Смотреть что такое "Набор символов" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Набор символов

Содержание

Набор символов в компьютере

Автоматическое распознавание кодировок

Распространенные кодировки

См. также

Примечания

Полезное

Смотреть что такое "Набор символов" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: