Выбор кодировки текста при открытии и сохранении файлов
Как правило, при совместной работе с текстовыми файлами нет необходимости вникать в технические аспекты хранения текста. Однако при открытии или сохранении файла может потребоваться выбрать стандарт кодирования в следующих ситуациях:
- Предоставление общего доступа к текстовым файлам с людьми, работающими на других языках
- Скачивание текстовых файлов через Интернет
- Совместное использование текстовых файлов с другими компьютерными системами
Стандарты кодирования помогают Microsoft Word и другим программам определять способ представления текста, чтобы он был удобочитаемым. Это может потребоваться на компьютере с системным программным обеспечением на языке, отличном от языка, на котором был создан текст.
Чтобы узнать больше, можно развернуть и свернуть любой из следующих разделов.
Общие сведения о кодировке текста
То, что отображается в виде текста на экране, фактически сохраняется в текстовом файле в виде числовых значений. Компьютер преобразует числовые значения в видимые символы. Для этого используется стандарт кодирования.
Кодировка — это схема нумерации, согласно которой каждому текстовому символу в наборе соответствует определенное числовое значение. Кодировка может содержать буквы, цифры и другие символы. В различных языках часто используются разные наборы символов, поэтому многие из существующих кодировок предназначены для отображения наборов символов соответствующих языков.
‘
Различные кодировки для разных алфавитов
Сведения о кодировке, сохраняемые с текстовым файлом, используются компьютером для вывода текста на экран. Например, в кодировке «Кириллица (Windows)» знаку «Й» соответствует числовое значение 201. Когда вы открываете файл, содержащий этот знак, на компьютере, на котором используется кодировка «Кириллица (Windows)», компьютер считывает число 201 и выводит на экран знак «Й».
Однако если тот же файл открыть на компьютере, на котором по умолчанию используется другая кодировка, на экран будет выведен знак, соответствующий числу 201 в этой кодировке. Например, если на компьютере используется кодировка «Западноевропейская (Windows)», знак «Й» из исходного текстового файла на основе кириллицы будет отображен как «É», поскольку именно этому знаку соответствует число 201 в данной кодировке.
‘
Юникод: единая кодировка для разных алфавитов
Чтобы избежать проблем с кодированием и декодированием текстовых файлов, можно сохранять их в Юникоде. В состав этой кодировки входит большинство знаков из всех языков, которые обычно используются на современных компьютерах.
Так как Word работает на базе Юникода, все файлы в нем автоматически сохраняются в этой кодировке. Файлы в Юникоде можно открывать на любом компьютере с операционной системой на английском языке независимо от языка текста. Кроме того, на таком компьютере можно сохранять в Юникоде файлы, содержащие знаки, которых нет в западноевропейских алфавитах (например, греческие, кириллические, арабские или японские).
Выбор кодировки при открытии файла
Если в открытом файле текст искажен или выводится в виде вопросительных знаков либо квадратиков, возможно, Word неправильно определил кодировку. Вы можете указать кодировку, которую следует использовать для отображения (декодирования) текста.
- Откройте вкладку Файл.
- Нажмите кнопку Параметры.
- Выберите пункт Дополнительно.
- Перейдите к разделу Общие и установите флажокПодтверждать преобразование формата файла при открытии.
Примечание: Если установлен этот флажок, Word отображает диалоговое окно Преобразование файла при каждом открытии файла в формате, отличном от формата Word (то есть файла, который не имеет расширения DOC, DOT, DOCX, DOCM, DOTX или DOTM). Если вы часто работаете с такими файлами, но вам обычно не требуется выбирать кодировку, не забудьте отключить этот параметр, чтобы это диалоговое окно не выводилось.
Если почти весь текст выглядит одинаково (например, в виде квадратов или точек), возможно, на компьютере не установлен нужный шрифт. В таком случае можно установить дополнительные шрифты.
Чтобы установить дополнительные шрифты, сделайте следующее:
- Нажмите кнопку Пуск и выберите пункт Панель управления.
- Выполните одно из указанных ниже действий. В Windows 7
- На панели управления выберите раздел Удаление программы.
- В списке программ щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.
В Windows Vista
- На панели управления выберите раздел Удаление программы.
- В списке программ щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.
В Windows XP
- На панели управления щелкните элемент Установка и удаление программ.
- В списке Установленные программы щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.
Совет: При открытии текстового файла в той или иной кодировке в Word используются шрифты, определенные в диалоговом окне Параметры веб-документа. (Чтобы вызвать диалоговое окно Параметры веб-документа, нажмите кнопку Microsoft Office, затем щелкните Параметры Word и выберите категорию Дополнительно. В разделе Общие нажмите кнопку Параметры веб-документа.) С помощью параметров на вкладке Шрифты диалогового окна Параметры веб-документа можно настроить шрифт для каждой кодировки.
Выбор кодировки при сохранении файла
Если не выбрать кодировку при сохранении файла, будет использоваться Юникод. Как правило, рекомендуется применять Юникод, так как он поддерживает большинство символов большинства языков.
Если документ планируется открывать в программе, которая не поддерживает Юникод, вы можете выбрать нужную кодировку. Например, в операционной системе на английском языке можно создать документ на китайском (традиционное письмо) с использованием Юникода. Однако если такой документ будет открываться в программе, которая поддерживает китайский язык, но не поддерживает Юникод, файл можно сохранить в кодировке «Китайская традиционная (Big5)». В результате текст будет отображаться правильно при открытии документа в программе, поддерживающей китайский язык (традиционное письмо).
Примечание: Так как Юникод — это наиболее полный стандарт, при сохранении текста в других кодировках некоторые знаки могут не отображаться. Предположим, например, что документ в Юникоде содержит текст на иврите и языке с кириллицей. Если сохранить файл в кодировке «Кириллица (Windows)», текст на иврите не отобразится, а если сохранить его в кодировке «Иврит (Windows)», то не будет отображаться кириллический текст.
Если выбрать стандарт кодировки, который не поддерживает некоторые символы в файле, Word пометит их красным. Вы можете просмотреть текст в выбранной кодировке перед сохранением файла.
При сохранении файла в виде кодированного текста из него удаляется текст, для которого выбран шрифт Symbol, а также коды полей.
‘Выбор кодировки
- Откройте вкладку Файл.
- Нажмите кнопку Сохранить как. Чтобы сохранить файл в другой папке, найдите и откройте ее.
- В поле Имя файла введите имя нового файла.
- В поле Тип файла выберите Обычный текст.
- Нажмите кнопку Сохранить.
- Если появится диалоговое окно Microsoft Office Word — проверка совместимости, нажмите кнопку Продолжить.
- В диалоговом окне Преобразование файла выберите подходящую кодировку.
- Чтобы использовать стандартную кодировку, выберите параметр Windows (по умолчанию).
- Чтобы использовать кодировку MS-DOS, выберите параметр MS-DOS.
- Чтобы задать другую кодировку, установите переключатель Другая и выберите нужный пункт в списке. В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.
Примечание: Чтобы увеличить область отображения документа, можно изменить размер диалогового окна Преобразование файла.
Поиск стандартов кодирования, доступных в Word
Word распознает несколько кодировок и поддерживает кодировки, которые входят в состав системного программного обеспечения.
Ниже приведен список письменностей и связанных с ними кодировок (кодовых страниц).
Система письменности
Используемый шрифт
Юникод (UCS-2 с прямым и обратным порядком байтов, UTF-8, UTF-7)
Стандартный шрифт для стиля «Обычный» локализованной версии Word
Windows 1256, ASMO 708
Китайская (упрощенное письмо)
GB2312, GBK, EUC-CN, ISO-2022-CN, HZ
Китайская (традиционное письмо)
BIG5, EUC-TW, ISO-2022-TW
Windows 1251, KOI8-R, KOI8-RU, ISO8859-5, DOS 866
Английская, западноевропейская и другие, основанные на латинице
Windows 1250, 1252-1254, 1257, ISO8859-x
Статьи -> Как поменять кодировку текстового файла, .txt, .doc
Время от времени возникает потребность изменения кодировки текстового файла. Например, при создании сайтов или разработке программного обеспечения на PHP. К слову файл системный файл .htaccess, отвечающий за некоторые настройки веб-сервера должен иметь кодировку UTF-8.
Изменить кодировку текстового файла, создаваемого в Windows можно легко с помощью встроенной программы «Блокнот». Для этого достаточно открыть требуемый файл и нажать «Файл» -> «Сохранить как». В выпавшем меню выбрать требуемую кодировку и сохранить текстовой файл.
В Microsoft Word 2003 эта манипуляция несколько сложнее. Открываем требуемый .doc файл. Переходим на вкладку «Параметры». В открывшемся окне нажимаем кнопку «Параметры веб-документа». В следующем окне выбираем вкладку «Кодировка», где уже и может выбрать кодировку символов в сохраняемом файле.
В Linux Ubuntu все предсказуемо. Открываем редактируемый файл редактором gedit. Выбираем вкладку «Файл» -> «Сохранить как». В выпавшем окне открываем вкладку «Кодировка символов». Там же, кстати, можно добавить кодировку, если нужной не было в списке.
Что делать, если в текстовом файле неверная кодировка (каракули)?
Рассмотрим в данной инструкции, что делать, если Вы открыли или загружаете файл, а там «каракули»?
Файл с неверной кодировкой выглядит примерно так (рис.1):
Рисунок 1.
Причина этому неверная кодировка, поэтому кодировку файла надо изменить. Для этого нам понадобится перейти на сайт Notepad++ и скачать последнюю актуальную версию программы. На текущий момент актуальная версия 8.1.4, скачиваем программу и устанавливаем (рис.2).
Рисунок 2.
Далее кликом правой клавиши мыши откройте Ваш файл через Notepad++ и через меню «Кодировки»- «Преобразовать в UTF-8» или «Encoding» -«Convert to UTF-8» преобразуйте кодировку файла, далее сохраните файл (рис. 3.).
«Преобразовать в UTF-8″ исправляем кодировку файла» />
Рисунок 3.Готово. Мы рассмотрели, что делать, если Ваш файл имеет неверную кодировку.
Другие статьи по теме
- Договор и документы
- Дополнительные сервисы
- Можно ли выкупить магазин в облаке/купить лицензию для магазина в облаке?
- На каком языке программирования реализован магазин?
- Через какое время сайт появится в поисковых системах?
Изменить кодировку файла TXT?
Из wmic создается текстовый файлик, с кодировкой Юникод (utf-16).
При чтении в веб браузере (utf-8) непонятные символы, если же txt файл через «Сохранит как..» выбрать кодировку utf-8, то все работает исправно, но как можно автоматизировать этот процесс через python или php?- Вопрос задан более двух лет назад
- 1301 просмотр
7 комментариев
Простой 7 комментариев
То что в программе Виндоуз называется «Unicode», в нормальных программах обозначается как UTF-16LE
а дальше iconv или mb_convert_encoding()Begginer_serg @Begginer_serg Автор вопроса
FanatPHP,
читаем описание функции ещё раз
Begginer_serg @Begginer_serg Автор вопроса'wmic /node:' + ip +' /user:Администратор /output:D:\\temp\\file.txt .
Сергей Кузнецов @sergey-kuznetsov
Begginer_serg, а если перед командой добавить переключение кодировки консоли?
chcp 65001Begginer_serg, поменяйте местами аргументы в mb_convert_encoding.
Ну нельзя быть настолько беспомощным, гуглится же за секунды по названию функции.wisgest, он там уже есть
Решения вопроса 0
Ответы на вопрос 2Если задача только в том, чтобы браузер отображал верно файлы txt, наляпанные вами в неизвестной виндовской кодировке, то ее решение — не в РНР, а в настройке того сервера, на котором крутится этот сайт.
Чтобы он для *.txt подставлял заголовокContent-Type: text/plain; charset=
Ответ написан более двух лет назад
Нравится 1 11 комментариев
Begginer_serg @Begginer_serg Автор вопроса
Куда следует добавить данную строчку?Begginer_serg, повторяю медленно и печально: в настройках сервера должна быть выделена обработка файлов с расширением .txt, и для них должен добавляться такой заголовок.
Если, конечно, я верно понял, что эти файлы генерируются для того, чтобы они открывались по ссылке.
Если же вы открываете их браузером сами просто потому, что не знаете, чем еще посмотреть — можете не обращать внимания.Adamos, это слишком сложно для его неокрепшего мозга 🙂
не говоря уже о том что как бы совсем не обязательно, что ВСЕ txt файлы на сервере лежат в кривой кодировкеFanatPHP, на веб-сервере вообще редко встречаются голые txt-файлы, так что конкретно эту настройку можно, думаю, заточить под этот конкретный юзкейс.
Begginer_serg @Begginer_serg Автор вопроса
FanatPHP, а вы очень добры(:
Нет чтобы подсказать, если уж Вы специалист в этой области, но лучше выбрать вариант с хамством)Я УЖЕ ПОДСКАЗАЛ!
надо не ныть 2 часа по комментариям, а СДЕЛАТЬ что сказано
и уж тем более не разевать свой нежный ротик за то что в него не положили кашку, не пожевали, не проглотили, и еще потом попку не вытерли беспомощной дитятке!Begginer_serg @Begginer_serg Автор вопроса
FanatPHP, печально наблюдать за вашими комментариями, но мне сейчас совсем не до спора что, как, и зачем вы так общаетесь, есть вопрос — обратился за помощью, то что скинули вы — и сам прекрасно в гугле нашел.
Дополнительно информирую: $text = mb_detect_encoding($text); выдает UTF-8ASCII
Вопрос всё еще актуален.печально наблюдать за клоуном, который, получив ответ на свой вопрос, не осилил написать 1 (одну ) функцию РНР, причем ни с первого раза, ни после того как ему было указано на ошибку.
или скорее не печально, а смешно 🙂
особенно эти наскоки. давайте, расскажите, в чем ещё я перед вами виноват. я внимательно выслушаю 🙂Begginer_serg @Begginer_serg Автор вопроса
FanatPHP, функцию написал — результата нет, прислал скриншот, а в ответ — читайте функцию, не проще закончить это всё и указать на ошибку явно?
сорян, я только сейчас разглядел, что никнейм «попрошайка серг», а не «начинающий серг», как я подумал сначала
если бы сразу увидел, то вообще бы писать не стал