Как работать с char в c
Перейти к содержимому

Как работать с char в c

  • автор:

Строки в си. Введение

Э то вводная статья по строкам в си. Более подробное описание и примеры будут, когда мы научимся работать с памятью и указателями. В компьютере все значения хранятся в виде чисел. И строки тоже, там нет никаких символов и букв. Срока представляет собой массив чисел. Каждое число соответствует определённому символу, который берётся из таблицы кодировки. При выводе на экран символ отображается определённым образом.
Для хранения строк используются массивы типа char. Ещё раз повторюсь – тип char – числовой, он хранит один байт данных. Но в соответствии с таблицей кодировки каждое из этих чисел связано с символом. И в обратную сторону – каждый символ определяется своим порядковым номером в таблице кодировки. Например

#include #include void main()

Мы создали две переменные, одна типа char, другая int. Литера ‘A’ имеет числовое значение 65. Это именно литера, а не строка, поэтому окружена одинарными кавычками. Мы можем вывести её на печать как букву

printf("display as char %c\n", c);

Тогда будет выведено
A Если вывести её как число, то будет 65 Точно также можно поступить и с числом 65, которое хранится в переменной типа int.
Спецсимволы также имеют свой номер

#include #include void main()

Здесь будет сначала «выведен» звуковой сигнал, затем его числовое значение, затем опять звуковой сигнал. Строка в си – это массив типа char, последний элемент которого хранит терминальный символ ‘\0’. Числовое значение этого символа 0, поэтому можно говорить, что массив оканчивается нулём.
Например

#include #include void main() < char word[10]; word[0] = 'A'; word[1] = 'B'; word[2] = 'C'; word[3] = '\0'; //word[3] = 0; эквивалентно printf("%s", word); getch(); >

Для вывода использовался ключ %s. При этом строка выводится до первого терминального символа, потому что функция printf не знает размер массива word.
Если в этом примере не поставить

word[3] = '\0';

то будет выведена строка символов произвольной длины, до тех пор, пока не встретится первый байт, заполненный нулями.

#include #include void main() < char word[10] = "ABC"; char text[100] = ; printf("%s\n", word); printf("%s", text); getch(); >

В данном случае всё корректно. Строка «ABC» заканчивается нулём, и ею мы инициализируем массив word. Строка text инициализируется побуквенно, все оставшиеся символы, как следует из главы про массивы, заполняются нулями.

Чтение строк

Д ля того, чтобы запросить у пользователя строку, необходимо создать буфер. Размер буфера должен быть выбран заранее, так, чтобы введённое слово в нём поместилось. При считывании строк есть опасность того, что пользователь введёт данных больше, чем позволяет буфер. Эти данные будут считаны и помещены в память, и затрут собой чужие значения. Таким образом можно провести атаку, записав нужные байты, в которых, к примеру, стоит переход на участок кода с вредоносной программой, или логгирование данных.

#include #include void main()

В данном случае количество введённых символов ограничено 19, а размер буфера на 1 больше, так как необходимо хранить терминальный символ. Напишем простую программу, которая запрашивает у пользователя строку и возвращает её длину.

#include #include void main() < char buffer[128]; unsigned len = 0; scanf("%127s", buffer); while (buffer[len] != '\0') < len++; >printf("length(%s) == %d", buffer, len); getch(); >

Так как числовое значение символа ‘\0’ равно нулю, то можно записать

while (buffer[len] != 0)
while (buffer[len])

Теперь напишем программу, которая запрашивает у пользователя два слова и сравнивает их

#include #include /* Результатом сравнения будет число 0 если слова равны 1 если первое слово больше второго в лексикографическом порядке -1 если второе слово больше */ void main() < char firstWord[128]; //Первое слово char secondWord[128]; //Второе слово unsigned i; //Счётчик int cmpResult = 0; //Результат сравнения scanf("%127s", firstWord); scanf("%127s", secondWord); for (i = 0; i < 128; i++) < if (firstWord[i] >secondWord[i]) < //Больше даже если второе слово уже закончилось, потому что //тогда оно заканчивается нулём cmpResult = 1; break; >else if (firstWord[i] < secondWord[i]) < cmpResult = -1; break; >> printf("%d", cmpResult); getch(); >

Так как каждая буква имеет числовое значение, то их можно сравнивать между собой как числа. Кроме того, обычно (но не всегда!) буквы в таблицах кодировок расположены по алфавиту. Поэтому сортировка по числовому значению также будет и сортировкой по алфавиту.

ru-Cyrl 18- tutorial Sypachev S.S. 1989-04-14 sypachev_s_s@mail.ru Stepan Sypachev students

email

Всё ещё не понятно? – пиши вопросы на ящик

char (Справочник по C#)

Ключевое слово типа char — это псевдоним для типа структуры System.Char .NET, представляющий символ UTF-16 в Юникоде.

Тип Диапазон Размер Тип .NET
char От U+0000 до U+FFFF 16 разрядов System.Char

Значение по умолчанию для типа char — \0 , то есть U+0000.

Тип char поддерживает сравнение, проверку равенства, а также операции инкремента и декремента. Кроме того, для операндов char арифметические и побитовые логические операторы выполняют операцию с соответствующими кодами символов и создают результат типа int .

Тип string представляет текст как последовательность значений char .

Литералы

Значение char можно указать следующим образом:

  • символьный литерал;
  • escape-последовательность Юникода, то есть символы \u , за которыми следует шестнадцатеричное представление кода символа из четырех символов;
  • шестнадцатеричная escape-последовательность, то есть символы \x , за которыми следует шестнадцатеричное представление кода символа.
var chars = new[] < 'j', '\u006A', '\x006A', (char)106, >; Console.WriteLine(string.Join(" ", chars)); // output: j j j j 

Как показано в предыдущем примере, можно также привести значение кода символа к соответствующему значению char .

В случае escape-последовательности Юникода необходимо указать все четыре шестнадцатеричные цифры. То есть \u006A — допустимая escape-последовательность, а \u06A и \u6A нет.

В случае шестнадцатеричной escape-последовательности начальные нули можно опустить. То есть \x006A , \x06A и \x6A — допустимые escape-последовательности, соответствующие одному символу.

Преобразования

Тип char неявно преобразуется в следующие целочисленные типы: ushort , int , uint , long и ulong . Он также может быть неявно преобразован во встроенные числовые типы с плавающей запятой: float , double и decimal . Он явно преобразуется в целочисленные типы sbyte , byte и short .

Неявные преобразования из других типов в тип char не предусмотрены. Но любой целочисленный тип или числовой тип с плавающей запятой явно преобразуется в char .

Спецификация языка C#

Дополнительные сведения см. в разделе Целочисленные типы в статье Спецификации языка C#.

См. также

  • Типы значений
  • Строки
  • System.Text.Rune
  • Кодировка символов в .NET

Совместная работа с нами на GitHub

Источник этого содержимого можно найти на GitHub, где также можно создавать и просматривать проблемы и запросы на вытягивание. Дополнительные сведения см. в нашем руководстве для участников.

Ввод и вывод символьных строк в Си

Итак, строки в языке Си. Для них не предусмотрено отдельного типа данных, как это сделано во многих других языках программирования. В языке Си строка – это массив символов. Чтобы обозначить конец строки, используется символ ‘\0’ , о котором мы говорили в прошлой части этого урока. На экране он никак не отображается, поэтому посмотреть на него не получится.

Создание и инициализация строки

Так как строка – это массив символов, то объявление и инициализация строки аналогичны подобным операциям с одномерными массивами.

Следующий код иллюстрирует различные способы инициализации строк.

char str[10]; char str1[10] = ; char str2[10] = "Hello!"; char str3[] = "Hello!";

Объявление и инициализация строк

Рис.1 Объявление и инициализация строк

В первой строке мы просто объявляем массив из десяти символов. Это даже не совсем строка, т.к. в ней отсутствует нуль-символ \0 , пока это просто набор символов.

Вторая строка. Простейший способ инициализации в лоб. Объявляем каждый символ по отдельности. Тут главное не забыть добавить нуль-символ \0 .

Третья строка – аналог второй строки. Обратите внимание на картинку. Т.к. символов в строке справа меньше, чем элементов в массиве, остальные элементы заполнятся \0 .

Четвёртая строка. Как видите, тут не задан размер. Программа его вычислит автоматически и создаст массив символов нужный длины. При этом последним будет вставлен нуль-символ \0 .

Как вывести строку

Дополним код выше до полноценной программы, которая будет выводить созданные строки на экран.

#include int main(void) < char str[10]; char str1[10] = ; char str2[10] = "Hello!"; char str3[] = "Hello!"; for(int i = 0; i

Различные способы вывода строки на экран

Рис.2 Различные способы вывода строки на экран

Как видите, есть несколько основных способов вывести строку на экран.

  • использовать функцию printf со спецификатором %s
  • использовать функцию puts
  • использовать функцию fputs , указав в качестве второго параметра стандартный поток для вывода stdout .

Единственный нюанс у функций puts и fputs . Обратите внимание, что функция puts переносит вывод на следующую строку, а функция fputs не переносит.

Как видите, с выводом всё достаточно просто.

Ввод строк

С вводом строк всё немного сложнее, чем с выводом. Простейшим способом будет являться следующее:

#include int main(void)

Функция gets приостанавливает работу программы, читает строку символов, введенных с клавиатуры, и помещает в символьный массив, имя которого передаётся функции в качестве параметра.
Завершением работы функции gets будет являться символ, соответствующий клавише ввод и записываемый в строку как нулевой символ.
Заметили опасность? Если нет, то о ней вас любезно предупредит компилятор. Дело в том, что функция gets завершает работу только тогда, когда пользователь нажимает клавишу ввод. Это чревато тем, что мы можем выйти за рамки массива, в нашем случае — если введено более 20 символов.
К слову, ранее ошибки переполнения буфера считались самым распространенным типом уязвимости. Они встречаются и сейчас, но использовать их для взлома программ стало гораздо сложнее.

Итак, что мы имеем. У нас есть задача: записать строку в массив ограниченного размера. То есть, мы должны как-то контролировать количество символов, вводимых пользователем. И тут нам на помощь приходит функция fgets :

#include int main(void)

Функция fgets принимает на вход три аргумента: переменную для записи строки, размер записываемой строки и имя потока, откуда взять данные для записи в строку, в данном случае — stdin . Как вы уже знаете из 3 урока, stdin – это стандартный поток ввода данных, обычно связанный с клавиатурой. Совсем необязательно данные должны поступать именно из потока stdin , в дальнейшем эту функцию мы также будем использовать для чтения данных из файлов.

Если в ходе выполнения этой программы мы введем строку длиннее, чем 10 символов, в массив все равно будут записаны только 9 символов с начала и символ переноса строки, fgets «обрежет» строку под необходимую длину.

Обратите внимание, функция fgets считывает не 10 символов, а 9 ! Как мы помним, в строках последний символ зарезервирован для нуль-символа.

Давайте это проверим. Запустим программу из последнего листинга. И введём строку 1234567890 . На экран выведется строка 123456789 .

Пример работы функции fgets

Рис.3 Пример работы функции fgets

Возникает вопрос. А куда делся десятый символ? А я отвечу. Он никуда не делся, он остался в потоке ввода. Выполните следующую программу.

#include int main(void)

Вот результат её работы.

Непустой буфер stdin

Рис.4 Непустой буфер stdin

Поясню произошедшее. Мы вызвали функцию fgets . Она открыла поток ввода и дождалась пока мы введём данные. Мы ввели с клавиатуры 1234567890\n ( \n я обозначаю нажатие клавиша Enter ). Это отправилось в поток ввода stdin . Функция fgets , как и полагается, взяла из потока ввода первые 9 символов 123456789 , добавила к ним нуль-символ \0 и записала это в строку str . В потоке ввода осталось ещё 0\n .

Далее мы объявляем переменную h . Выводим её значение на экран. После чего вызываем функцию scanf . Тут-то ожидается, что мы можем что-то ввести, но т.к. в потоке ввода висит 0\n , то функция scanf воспринимает это как наш ввод, и записывается 0 в переменную h . Далее мы выводим её на экран.

Это, конечно, не совсем такое поведение, которое мы ожидаем. Чтобы справиться с этой проблемой, необходимо очистить буфер ввода после того, как мы считали из него строку, введённую пользователем. Для этого используется специальная функция fflush . У неё всего один параметр – поток, который нужно очистить.

Исправим последний пример так, чтобы его работа была предсказуемой.

#include int main(void) < char str[10]; fgets(str, 10, stdin); fflush(stdin); // очищаем поток ввода puts(str); int h = 99; printf("do %d\n", h); scanf("%d",&h); printf("posle %d\n", h); return 0; >

Теперь программа будет работать так, как надо.

Сброс буфера stdin функцией fflush

Рис.4 Сброс буфера stdin функцией fflush

Подводя итог, можно отметить два факта. Первый. На данный момент использование функции gets является небезопасным, поэтому рекомендуется везде использовать функцию fgets .

Второй. Не забывайте очищать буфер ввода, если используете функцию fgets .

На этом разговор о вводе строк закончен. Идём дальше.

Сохрани в закладки или поддержи проект.

Практика

Решите предложенные задачи:

Для удобства работы сразу переходите в полноэкранный режим

Исследовательские задачи для хакеров

  1. Проверьте как ведет себя ваш компилятор в случае переполнения буфера.

Дополнительные материалы

  1. пока нет

Переменная типа char в C++ для начинающих и как с ней работать

При написании прошлой статьи по обработке файла мною была использована переменная типа char
У меня как у начинающего изучение сразу возникли некоторые трудности обработки этой переменной. Самый первый вопрос передо мной встал так – а как вывести переменную char на экран. Почему-то при поиске я натыкался на подробное описание переменной и какие-то мудренные примеры обработки. Хотя меня первым делом интересовала информация, как в C++ вывести на экран переменную, содержащую, например, только одну букву.
Для присвоения переменной типа char какого-то значения внутри кода программы используют знак умножения * – этим переменная типа char отличается от численных значений.
Например, мне нужно в коде программы указать, что на каком-то этапе работы программы, переменная s1 должна принять значение Буква y. (Именно буква)
Я стал пробовать работать s1 как с обычными переменными и написал где-то там внутри кода:
char s1;
s1=”y”;
На что при попытке выполнить программу – мне было объявленно, что в этом месте кода ошибка.
Я стал рыскать, что я делаю не так и нашел много разнообразного материала, но всё почему-то было не то. Возможно я не умею искать, но найденные примеры были очень разнообразны
Примеры с указателями, различными преобразованиями и хитрыми функциями
Такие примеры мне не нравятся. Простота – вот то, что мне нужно.

Оказалось, что всё очень просто:
Привожу пример кода, выводящий на экран введенную букву y

#include
int main()

clrscr(); //Очищаем экран
char s1; //Объявляем переменную s1
s1[0]=*”y” //Присвоение переменной s1 значения
coutВыводим букву y на экран
return 0;
>
Настолько всё оказалось просто, перед знаком = нужно было поставить знак * и нужнобыло объявить номер элемента (ноль соответствет первому)

Но переменную char чаще используют как массив каких-то символьных значений. Знакомство с простым массивом было изложено в статье
Одномерный массив в C++ для начинающих

Для работы с массивами часто необходимо использовать циклы. В прошлой статье был использован цикл for. Про ккотрый описано в статье
Цикл for в С++ для начинающих

Т.е. часто символьную переменную объявляют как набор одинарных символов. Даже строковая переменная, о которой я когда-нибудь тоже напишу – это не более чем набор значений типа char

Первоначально лучше изучить как работать и как использовать именно символьную переменную типа char, а потом уже изучать строковую. Посимвольное считывание из каких-то источников очень часто используется в программировании, поэтому это важный этап.

Есть много технической литературы, где правильно и глубоко описывается принцип работы и главная идея переменной char , но я считаю, углубляться пока не особо нужно. Но важно знать как при необходимости присваивать значения переменной.

Второй вопрос передо мной встал как – а как обнулить переменную типа char в C++ ?, при поиске я почему-то натыкался на исходник целой функции, которая была написана не самым понятным для новичков языком. На этот вопрос я легко смог ответить, когда понял как такой переменной присваивать значения.
т.е. Если у нас переменная s1 равна Буква y, но нам нужно её очистить, то мы это делаем так
s1=*””

Ставим знак равенства, ставим звездочку и ставим две двойные кавычки подряд
Две двойные кавычки подряд соответсвтуют обнулению значения в символьных переменных.

Так как переменную типа char часто используют как массив, то определяют количество возможных значений.
Например, код

int main()

char s1 [100]; //Объявляем переменную s1
return 0;
>
Почти равносилен тому, что мы объявили строку, состоящую из 101 символа.
Если не понимаете почему 101, а не 100 – лучше изучайте массивы. Напоминаю пример простого массива приведен в одной из прошлых статей Одномерный массив в C++ для начинающих

Есть небольшой нюанс при обработке массива. Так как для обработки мы используем цикл, то если объявленный нами символьный Массив типа char в 101 символ, содержит, например, 5 символов, то неразумно использовать цикл пока мы не достигнем конца нашего массива. – Потомучто если в программе будут тысячи таких операций – это существенно замедлит скорость работы программы

При объявлении любой переменной, переменной отводится какой-то участок памяти и память эта может уже содержать какое-то значение. Это значение не обязательно пустое или ноль и по умолчанию очень легко присвоится нашей переменной.
Поэтому любые переменные при объявлении правильно обнулять.

Для того, чтобы обнулить наш символьный массив s1 типа Char на языке программирования C++, после его объявления мы пишем такой код

===============
Программа обнуления массива типа char

int main()

char s1 [100]; //Объявляем переменную s1
(for int i=0;i <=100;i++) s1[i]=*””;
return 0;
>
==============
Преимущество этого кода в том, что теперь мы можем определить окончание заполненных ячеек массива, независимо от того, сколько их объявлено. Для этого мы должны указывать условие, что если ячейка пустая, то значит можно прекращать работу с этим массивом и перехоить к дальнейшим действиям. Соответственно количество операций и нагрузка на процессор существенно уменьшаются.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *