µÚ5ÕÂ

PandasÎÄ±¾ÓëÈÕÆÚ






5.1×Ö·û´®´¦Àí
5.1.1×Ö·û´®´¦ÀíÁ÷³Ì



ÔÚPythonÊý¾Ý·ÖÎö¹ý³ÌÖÐ£¬¾­³£Òª¶Ô×Ö·û´®Êý¾Ý½øÐÐ´¦Àí£¬ÀýÈç¶Ô×Ö·û´®µÄÉ¾³ý¡¢²ð·Ö¡¢×éºÏ¡¢²éÕÒ¡¢Æ¥Åä¡¢Ìæ»»¡¢¼ÆÊýµÈÓ¦ÓÃ£¬ÕâÆäÖÐµÄºÜ¶àÓ¦ÓÃ¾ß±¸ÕýÔò±í´ïÊ½µÄ¹¦ÄÜ¡£µ±Ïà¹Ø×Ö·û´®·½·¨ÒÑÖª¿ÉÓÃÕýÔò±í´ïÊ½Ê±ËüµÄÄ¬ÈÏ²ÎÊýÎªregex=True£¬¿ÉÓÃregex=False¹ØµôÕýÔò±í´ïÊ½¡£PandasÖÐ×Ö·û´®·½·¨µÄÕûÌåÊ¹ÓÃÁ÷³Ì¼°ËµÃ÷ÈçÍ¼5ª²1ËùÊ¾¡£




Í¼5ª²1PandasÖÐ×Ö·û´®·½·¨µÄÕûÌåÊ¹ÓÃÁ÷³Ì¼°ËµÃ÷


ÔÚPandasÖÐÖ÷ÒªÊÇÒÔSeriesÎªµ¥Î»À´´¦Àí×Ö·û´®µÄ£¬ËüµÄÓï·¨ÎªSeries.str.str·½·¨()¡£ÀýÈçSeries.str.split()£¬´ú±íµÄÊÇPandasÖÐÒÔÄ³ÁÐÎªµ¥Î»½øÐÐ×Ö·û´®²ð·Ö¡£ÔÚSeriesÖÐ£¬Ö±½Ó¶ÔÁÐÓÃsplit()À´·ÖÁÐÊÇ²»ÔÊÐíµÄ£¨ÏµÍ³»á±¨´íAttributeError: 'Series' object has no attribute 'Split'£©£¬µ«Èç¹ûÏÈÓÃ.str½«ÕâÒ»ÁÐ×ª»»ÎªÀàËÆ×Ö·û´®µÄ¸ñÊ½£¬Ôò²»»áÓÐÎÊÌâ¡£¼ÙÈçÒª½«ÕâÒ»ÁÐ×ª»»ÎªÊýÖµÁÐ£¬Ö±½Ó¶ÔÊýÖµÁÐ½øÐÐstrµÄÏà¹Ø²Ù×÷Ò²»á±¨´í£¬±ØÐëÏÈÖ´ÐÐastype(str)£¬È»ºó½øÐÐ¶ÔÓ¦µÄ×Ö·û´®²Ù×÷£¬ÕâÑù¾Í²»»áÓÐÎÊÌâÁË£¬¼´Series.astype(str).str.str·½·¨()¡£

ÔÚSeries.strµÄstr·½·¨ÖÐ£¬strÊÇ×ª»»Æ÷¡£ÔÚPandasÖÐ£¬ÓÐ3¸ö¹¦ÄÜÇ¿´óµÄ×ª»»Æ÷£¨»ò³Æ·ÃÎÊÆ÷£©£º str¡¢dt¡¢cat¡£str×ª»»Æ÷ÓÃÓÚ´¦Àí×Ö·û´®¶ÔÏó£¬ºóÃæ³£ÓÃÓÚÁ¬½Ó×Ö·û´®·½·¨£» dt×ª»»Æ÷ÓÃÓÚ´¦ÀíÊ±¼ä¶ÔÏó£¬ºóÃæ³£ÓÃÓÚÁ¬½ÓÊ±¼äÊôÐÔ£» cat×ª»»Æ÷ÓÃÓÚ´¦Àí·ÖÀà¶ÔÏóµÄÊý¾Ý¡£ÔÚPandasÖÐ£¬³ýreplace()·½·¨ÒÔDataFrame¼°SeriesÎª´¦Àí¶ÔÏóÍâ£¬ÆäËûµÄ×Ö·û´®´¦Àí·½·¨Ò»°ãÒÔSeriesÎª´¦Àí¶ÔÏó¡£


str×ª»»Æ÷Ïà¹Ø·½·¨¼û±í5ª²1¡£


±í5ª²1str×ª»»Æ÷Ïà¹Ø·½·¨




·½·¨Óï ·¨ Ëµ Ã÷×÷ÓÃ
str.isdigit()ÊÇ·ñÖ»ÓÉÊý×Ö×é³ÉÅÐ¶ÏÊÇ·ñ
str.isdecimal()ÊÇ·ñÖ»°üº¬Ê®½øÖÆ×Ö·ûÅÐ¶ÏÊÇ·ñ
str.isnumeric()ÊÇ·ñÖ»ÓÉÊý×Ö×é³ÉÅÐ¶ÏÊÇ·ñ
str.isalnum()ÊÇ·ñÓÉ×ÖÄ¸ºÍÊý×Ö×é³ÉÅÐ¶ÏÊÇ·ñ
str.isalpha()×Ö·û´®ÖÁÉÙ°üº¬Ò»¸ö×Ö·ûÇÒËùÓÐ×Ö·û¶¼ÊÇ×ÖÄ¸(ºº×Ö)ÅÐ¶ÏÊÇ·ñ
str.islower()ÖÁÉÙ°üº¬Ò»¸öÐ¡Ð´×ÖÄ¸,ÇÒ²»°üº¬´óÐ´×ÖÄ¸ÅÐ¶ÏÊÇ·ñ
str.isupper()ÖÁÉÙ°üº¬Ò»¸ö´óÐ´×ÖÄ¸,ÇÒ²»°üº¬Ð¡Ð´×ÖÄ¸ÅÐ¶ÏÊÇ·ñ
str.istitle()ËùÓÐµ¥´ÊÒÔ´óÐ´×ÖÄ¸¿ªÍ·£¬ÆäÓàÐ¡Ð´ÅÐ¶ÏÊÇ·ñ
str.isspace()Ö»°üº¬¿Õ°×·ûÅÐ¶ÏÊÇ·ñ
str.startswith()ÒÔÄ³Ö¸¶¨µÄ×Ö·û»ò×Ö·û´®¿ªÍ·ÅÐ¶ÏÊÇ·ñ
str.endswith()ÒÔÄ³Ö¸¶¨µÄ×Ö·û»ò×Ö·û´®½áÎ²ÅÐ¶ÏÊÇ·ñ
str.get._dummiesÓÃÓÚÊý¾ÝµÄÀëÉ¢ÌØÕ÷È¡Öµ£¬·µ»ØµÄÖµÎª0»ò1ÊýÖµ¼ÆËã
str.len()¼ÆËã×Ö·û´®ÖÐÃ¿¸öÔªËØµÄ³¤¶ÈÊýÖµ¼ÆËã
str.index()¼ÆËã×Ö·û´®Ê×´Î³öÏÖµÄË÷ÒýÎ»ÖÃÎ»ÖÃ¼ÆËã
str.rindex()¼ÆËã×Ö·û´®×îºóÒ»´Î³öÏÖµÄÎ»ÖÃÎ»ÖÃ
str.find()ÕÒµ½×Ö·û´®Ê×´Î³öÏÖµÄË÷ÒýÎ»ÖÃ£¬Èç¹ûÎ´ÕÒµ½£¬Ôò·µ»Ø-1Î»ÖÃ
str.rfind()ÕÒµ½×Ö·û´®Ê×´Î³öÏÖµÄË÷ÒýÎ»ÖÃ£¬Èç¹ûÎ´ÕÒµ½£¬Ôò·µ»Ø-1Î»ÖÃ
str.get()´Ó×Ö·û´®ÖÐÌáÈ¡ÔªËØÌáÈ¡
str.strip()É¾³ý×Ö·û´®×óÓÒÁ½±ßµÄ¿Õ°××Ö·û£¨º¬»»ÐÐ·û£©¼ôÇÐ
str.lstrip()É¾³ý×Ö·û´®×ó±ßµÄ¿Õ°××Ö·û£¨º¬»»ÐÐ·û£©¼ôÇÐ
str.rstrip()É¾³ý×Ö·û´®ÓÒ±ßµÄ¿Õ°××Ö·û£¨º¬»»ÐÐ·û£©¼ôÇÐ
str.slice()°´ÏÂ±ê½ØÈ¡×Ö·û´®¼ôÇÐ
str.slice_replace()°´ÏÂ±êÌæ»»¼ôÇÐ
str.removeprefix()É¾³ý×Ö·û´®ÖÐµÄÇ°×º¼ôÇÐ
str.removesuffix()É¾³ý×Ö·û´®ÖÐµÄºó×º¼ôÇÐ
str.repeat()°´Ö¸¶¨µÄ´ÎÊýÖØ¸´×Ö·û´®ÖØ¸´
str.partition()ÔÚ·Ö¸ô·ûµÚ1´Î³öÏÖµÄµØ·½²ð·Ö×Ö·û´®²ð·Ö
str.rpartition()ÔÚ·Ö¸ô·û×îºó³öÏÖµÄµØ·½²ð·Ö×Ö·û´®²ð·Ö
str.join()ÒÔÖ¸¶¨µÄ×Ö·û´®Îª·Ö¸ô·û²¢Éú³ÉÒ»¸öÐÂµÄ×Ö·û´®Æ´½Ó
str.cat()ºÏ²¢¶àÁÐµÄ×Ö·û´®Æ´½Ó
str.capitalize()Ê××ÖÄ¸´óÐ´×ª»»
str.title()£¨ÓÐ·Ö¸ô·û·Ö¸ôÊ±£©×Ö·û´®ÄÚËùÓÐµ¥´ÊµÄÊ××ÖÄ¸´óÐ´×ª»»
str.lower()×ÖÄ¸È«²¿Ð¡Ð´×ª»»
str.upper()×ÖÄ¸È«²¿´óÐ´×ª»»
str.swapcase()´óÐ¡Ð´»¥»»×ª»»
str.swap()°´Ö¸¶¨µÄÐÐ¿í»»ÐÐ×Ö·û´®×ª»»
str.casefold()½«Ö¸¶¨µÄ×Ö·û´®×ª»»Îª´óÐ¡Ð´ÕÛµþ×ª»»
str.translate()Í¨¹ý¸ø¶¨µÄÓ³Éä±íÓ³Éä×Ö·û´®ÖÐµÄËùÓÐ×Ö·û×ª»»
str.normalize()·µ»Ø×Ö·û´®µÄUnicode±ê×¼ÐÎÊ½×ª»»
str.pad()×Ö·û´®µÄ×óÓÒ²¹ÆëÌî³ä
str.center()×Ö·û´®¾ÓÖÐÌî³äÌî³ä
str.ljust()×Ö·û´®×ó¶ÔÆëÌî³äÌî³ä
str.rjust()×Ö·û´®ÓÒ¶ÔÆëÌî³äÌî³ä
str.zfill()ÔÚ×Ö·û´®Ç°ÃæÌî³äÌî³ä
str.repeat()¶Ô×Ö·û´®Ö¸¶¨ÖØ¸´µÄ´ÎÊýÌî³ä
str.warp()ÔÚÖ¸¶¨µÄÎ»ÖÃ¼Ó»Ø³µ·ûÌî³ä
str.decode()Ê¹ÓÃÖ¸¶¨µÄ±àÂë½âÂë×Ö·û´®½âÂë
str.encode()Ê¹ÓÃÖ¸¶¨µÄ±àÂë¶Ô×Ö·û´®½øÐÐ±àÂë±àÂë


ÒÔstr.cat()µÄÓ¦ÓÃÎªÀý¡£PandasÖÐµÄstr.cat()µÄÓÃ·¨ÈçÏÂ£º 



Series.str.cat(others=None, sep=None, na_rep=None, join='left')



Í¼5ª²2cat()·½·¨µÄ³£¼ûÓÃ·¨


²ÎÊýËµÃ÷£º others²ÎÊýÎªSeries¡¢Index¡¢DataFrame¡¢np.ndarray»òlistª²like£» sep²ÎÊýÎªstr,Ä¬ÈÏÖµÎª' '¡£na_rep²ÎÊýÎªstr»òNone,Ä¬ÈÏÖµÎªNone¡£join²ÎÊýÎª'left'¡¢'right'¡¢'outer'¡¢'inner'£¬Æ´½Ó·½Ê½µÄÄ¬ÈÏÖµÎªleft¡£


str.cat()ÖÐothers²ÎÊýµÄ³£¼ûÓÃ·¨£¬ÈçÍ¼5ª²2ËùÊ¾¡£



ÒÔÆ´½Ó¶à¸öÁÐÎªÀý£¬´úÂëÈçÏÂ£º 




#ch05d001.ipynb

import pandas as pd

df = pd.read_excel(


r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\ÎÄ±¾´¦Àí.xlsx',

sheet_name=1

).head(3)







df£Û'ºÏ²¢ÁÐ'£Ý=df£Û'ÔËµ¥±àºÅ'£Ý.str.cat(£Ûdf£Û'³ÇÊÐ'£Ý,df£Û'Â¥ÅÆºÅ'£Ý£Ý,sep='¡¢')

df.iloc£Û:,£Û0,4£Ý£Ý

·µ»ØµÄÖµÈçÏÂ£º 



ÔËµ¥±àºÅºÏ²¢ÁÐ

0YD001YD001¡¢±±¾©¡¢AA02´±02Â¥201

1YD003YD003¡¢ÉÏº£¡¢aA03´±03Â¥301

2YD006YD006¡¢¹ãÖÝ¡¢Aa04´±04Â¥401 


ÒÔÆ´½ÓDataFrameÎªÀý£¬´úÂëÈçÏÂ£º 



df1= df.iloc£Û:,£Û0,4£Ý£Ý

df£Û'ºÏ²¢ÁÐ1'£Ý=df£Û'×Ö·û±êÊ¶'£Ý.str.cat(df1,sep='¡¢')

df.iloc£Û:,£Û0,5£Ý£Ý

·µ»ØµÄÖµÈçÏÂ£º 



ÔËµ¥±àºÅºÏ²¢ÁÐ1

0YD001ABC123¡¢YD001¡¢YD001¡¢±±¾©¡¢AA02´±02Â¥201

1YD003b1A32C¡¢YD003¡¢YD003¡¢ÉÏº£¡¢aA03´±03Â¥301

2YD0061c2a3abb¡¢YD006¡¢YD006¡¢¹ãÖÝ¡¢Aa04´±04Â¥401 


5.1.2ÕýÔò±í´ïÊ½

ÕýÔòÊÇRegular Expression£¨ÕýÔò±í´ïÊ½£©µÄ¼òÐ´£¬ÕýÔò±í´ïÊ½Í¨¹ýÒ»Ð©ÌØ¶¨µÄÔª×Ö·ûÊµÏÖÇ¿´ó¡¢±ã½ÝÓë¸ßÐ§µÄÎÄ±¾Æ¥Åä¡¢²éÕÒ¡¢Ìæ»»µÈ¹¦ÄÜ£¬Òò´Ë£¬ÕýÔò±í´ïÊ½ÒÑ¾­³ÉÎªËùÓÐÖ÷Á÷±à³ÌÓïÑÔµÄ±Ø±¸Ïî¡£ºÜÖµµÃÈ¥ÈÏÕæÑ§Ï°ÓëÁË½â¡£

ÕýÔò±í´ïÊ½ÓÉ¡°Ôª×Ö·û¡±ºÍÆäËû¡°ÆÕÍ¨ÎÄ±¾×Ö·û¡±Á½²¿·Ö×é³É£¬ÆäÖÐ£¬ÕýÔò±í´ïÊ½ÖÐµÄ¡°Ôª×Ö·û¡±Ö÷Òª·ÖÎª»ù±¾Ôª×Ö·û¡¢Êý×ÖÔª×Ö·û¡¢Î»ÖÃÔª×Ö·û¡¢ÌØÊâÔª×Ö·ûµÈ¡£

1. »ù±¾Ôª×Ö·û

»ù±¾Ôª×Ö·û¼°ÆäÓï·¨ËµÃ÷¼û±í5ª²2¡£


±í5ª²2»ù±¾Ôª×Ö·û¼°Óï·¨ËµÃ÷




Ôª×Ö·ûÓï ·¨ Ëµ Ã÷
.(³ý»»ÐÐ·ûÒÔÍâµÄ)ÈÎÒâ×Ö·û
|Âß¼­»ò
£Û£Ý×Ö·û¼¯ºÏÖÐµÄÈÎÒ»×Ö·û
£Û^£Ý²»ÊÇ×Ö·û¼¯ºÏÖÐµÄÈÎÒ»×Ö·û
-Çø¼ä¶¨Òå
\\×ªÒå·û
()Éú³É×Ó±í´ïÊ½


2. Êý×ÖÔª×Ö·û

³£¼ûµÄÊý×ÖÔª×Ö·û¼°ÆäÓï·¨ËµÃ÷¼û±í5ª²3¡£


±í5ª²3Êý×ÖÔª×Ö·û¼°ÆäÓï·¨ËµÃ÷




Ôª×Ö·ûÓï ·¨ Ëµ Ã÷
*Áã´Î»ò¶à´Î(Ì°À·Ä£Ê½)
*£¿*µÄÀÁ¶èÄ£Ê½
+Ò»´Î»ò¶à´Î(Ì°À·Ä£Ê½)
+?+µÄÀÁ¶èÄ£Ê½
?Ç°Ò»×Ö·ûµÄÁã´Î»òÒ»´Î
{n}n´ÎÖØ¸´
{m,n}ÖØ¸´mµ½n´Î
{n,}ÖØ¸´n´Îµ½¸ü¶à´Î
{n,}?{n,} µÄÀÁ¶èÄ£Ê½

3. ÌØÊâÔª×Ö·û

ÌØÊâÔª×Ö·û¼°ÆäÓï·¨ËµÃ÷¼û±í5ª²4¡£


±í5ª²4ÌØÊâÔª×Ö·û¼°ÆäÓï·¨ËµÃ÷





Ôª×Ö·ûÓï ·¨ Ëµ Ã÷
\\dÈÎÒâÊý×Ö£¬µÈ¼ÛÓÚ£Û0ª²9£Ý
\\D²»ÊÇÊý×Ö£¬µÈ¼ÛÓÚ£Û^0ª²9£Ý
\\s¿Õ°××Ö·û£¬µÈ¼ÛÓÚ£Û\\n\\r\\t\\v£Ý
\\S²»ÊÇ¿Õ°××Ö·û£¬µÈ¼ÛÓÚ£Û^\\n\\r\\t\\v£Ý
\\wÈÎÒâ×ÖÄ¸¡¢Êý×Ö»òÏÂ»­Ïß£¬µÈ¼ÛÓÚ£Ûaª²zAª²Z0ª²9_£Ý
\\W²»ÊÇÈÎÒâ×ÖÄ¸¡¢Êý×Ö»òÏÂ»­Ïß£¬µÈ¼ÛÓÚ£Û^aª²zAª²Z0ª²9_£Ý
\\f»»Ò³·û
\\n»»ÐÐ·û
\\r»Ø³µ·û
\\tÖÆ±í·û


4. Î»ÖÃÔª×Ö·û

Î»ÖÃÔª×Ö·û¼°ÆäÓï·¨ËµÃ÷¼û±í5ª²5¡£


±í5ª²5Î»ÖÃÔª×Ö·û¼°ÆäÓï·¨ËµÃ÷




Ôª×Ö·ûÓï ·¨ Ëµ Ã÷
^¿ªÊ¼
$½áÊø
\\A×Ö·û´®µÄ¿ªÍ·£¨ºöÂÔre.M£©
\\Z×Ö·û´®µÄ½áÎ²£¨ºöÂÔre.M£©
\\bµ¥´ÊµÄ±ß½ç
\\B²»ÊÇ\\b

5. ×·ËÝÓë²éÕÒ

¸÷ÀàÕýÔò¶ÏÑÔ¾ùÊôÓÚ·Ö×é²»²¶»ñ£¬Æ¥ÅäµÄ½á¹ûÎª£¨Áã¿í¶ÈµÄ£©Î»ÖÃ£¬Æä×÷ÓÃÊÇ¸øÖ¸¶¨Î»ÖÃÌí¼ÓÏÞ¶¨µÄÌõ¼þ£¬ÈçÍ¼5ª²3ËùÊ¾¡£




Í¼5ª²3ÕýÔò¶ÏÑÔ


×·ËÝÓë²éÕÒÔª×Ö·û¼°Ïà¹ØÓï·¨ËµÃ÷¼û±í5ª²6¡£


±í5ª²6×·ËÝÓë²éÕÒÔª×Ö·û¼°Ïà¹ØÓï·¨ËµÃ÷




Ôª×Ö·ûÓï ·¨ Ëµ Ã÷
?=Ãû³Æ£º ÕýÏòÏÈÐÐ¶ÏÑÔ(ÕýÇ°Õ°)

Óï·¨£º £¨?=pattern£©

×÷ÓÃ£º  Æ¥Åäpattern±í´ïÊ½Ç°ÃæµÄÄÚÈÝ£¬²»·µ»Ø±¾Éí

¾ÙÀý£º a(?=b)£¬ÏÈÐÐ¶ÏÑÔ£¬a Ö»ÓÐÔÚ b Ç°Ãæ²ÅÆ¥Åä
?!Ãû³Æ£º ¸ºÏòÏÈÐÐ¶ÏÑÔ£¨¸ºÇ°Õ°£©

Óï·¨£º £¨?!pattern£©

×÷ÓÃ£º Æ¥Åä·Ç pattern ±í´ïÊ½Ç°ÃæµÄÄÚÈÝ£¬²»·µ»Ø±¾Éí

¾ÙÀý£º a(?!b)£¬ÏÈÐÐ·ñ¶¨¶ÏÑÔ£¬a Ö»ÓÐ²»ÔÚ b Ç°Ãæ²ÅÆ¥Åä
?<=Ãû³Æ£º ÕýÏòºóÐÐ¶ÏÑÔ(Õýºó¹Ë)

Óï·¨£º £¨?<=pattern£©

×÷ÓÃ£º  Æ¥Åäpattern±í´ïÊ½ºóÃæµÄÄÚÈÝ£¬²»·µ»Ø±¾Éí

¾ÙÀý£º (?<=b)a£¬ºóÐÐ¶ÏÑÔ£¬a Ö»ÓÐÔÚ b ºóÃæ²ÅÆ¥Åä
?<!Ãû³Æ£º ¸ºÏòºóÐÐ¶ÏÑÔ£¨¸ººó¹Ë£©

Óï·¨£º £¨?<!pattern£©

×÷ÓÃ£º Æ¥Åä·Ç pattern ±í´ïÊ½ºóÃæµÄÄÚÈÝ£¬²»·µ»Ø±¾Éí¡£

¾ÙÀý£º (?<!b)a£¬ºóÐÐ·ñ¶¨¶ÏÑÔ£¬a Ö»ÓÐ²»ÔÚ b ºóÃæ²ÅÆ¥Åä

5.1.3ÎÄ±¾ÕýÔòÓ¦ÓÃ
1. °üº¬


PandasÖÐµÄstr.contains()ÓÃ·¨£º 




Series.str.contains(pat, case=True, flags=0, na=None, regex=True)

²ÎÊýËµÃ÷£º pat²ÎÊýÎª×Ö·û´®»òÕýÔò±í´ïÊ½¡£case²ÎÊýµÄÄ¬ÈÏÖµÎªTrue(¶Ô´óÐ¡Ð´Ãô¸Ð)¡£flags²ÎÊýµÄÄ¬ÈÏÖµÎª0£¬¿ÉÓÃÖµÎªre.I¡¢re.M¡¢re.S¡¢re.U¡¢re.AµÈ¡£na²ÎÊýµÄÄ¬ÈÏÖµÎªNone£¬ÓÃÓÚnaÖµµÄÌæ»»¡£regexµÄÄ¬ÈÏÖµÎªTrue(ÆôÓÃÕýÔò±í´ïÊ½)¡£·µ»ØµÄÖµÎªTrue»òFalse¡£


ÔÚÊÕ»õµØÖ·ÁÐ²é¿´ÊÇ·ñ´æÔÚ3¸öÁ¬ÐøµÄÊý×Ö£¬´úÂëÈçÏÂ£º 



#ch05d002.ipynb

import pandas as pd

df = pd.read_excel(r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\ÎÄ±¾´¦Àí.xlsx').head(3)

df£Û'ÊÕ»õµØÖ·'£Ý.str.contains('\\d{3}')

·µ»ØµÄÖµÈçÏÂ£º 



0True

1True

2True

Name:ÊÕ»õµØÖ·, dtype: bool

²¼¶ûÖµÓÃ×÷£Û£Ý·ÃÎÊÆ÷µÄÉ¸Ñ¡Ìõ¼þ·µ»ØDataFrame¡£Ó¦ÓÃ¾ÙÀý£¬´úÂëÈçÏÂ£º 



df£Ûdf£Û'ÊÕ»õµØÖ·'£Ý.str.contains('\\d{3}')£Ý

·µ»ØµÄÖµÈçÏÂ£º 



ÔËµ¥±àºÅÊÕ»õµØÖ·×Ö·û±êÊ¶

0YD001±±¾©Â·AA02´±02Â¥201ABC123

1YD003ÉÏº£Â·aA03´±03Â¥301b1A32C

2YD006¹ãÖÝÂ·Aa04´±04Â¥4011c2a3abb

2. Æ¥Åä

str.match()ÔÚ×Ö·û´®µÄ¿ªÊ¼½øÐÐÆ¥Åä£¬str.fullmatch()¶Ô×Ö·û´®´ÓÍ·Æ¥Åäµ½Î²£¬Èç¹ûÆ¥Åä³É¹¦£¬Ôò·µ»ØÕýÔò±í´ïÊ½¶ÔÏó£¬Óï·¨ÈçÏÂ£º 



Series.str.match(pat, case=True, flags=0, na=None)

#Series.str.fullmatch(pat, case=True, flags=0, na=None)

²ÎÊýËµÃ÷£º pat²ÎÊýÎª×Ö·û´®»òÕýÔò±í´ïÊ½¡£case²ÎÊýµÄÄ¬ÈÏÖµÎªTrue¡£flags²ÎÊýµÄÄ¬ÈÏÖµÎª0£¬na²ÎÊýµÄÄ¬ÈÏÖµÎªNone¡£·µ»ØµÄÖµÎªTrue»òFalse¡£


×Ö·û´®Æ¥Åä¡£Ó¦ÓÃ¾ÙÀýÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.match('\\w{3}')

·µ»ØµÄÖµÈçÏÂ£º 



0True

1True

2True

Name:ÊÕ»õµØÖ·, dtype: bool

3. ¼ÆÊý

PandasÖÐµÄstr.count()µÄÓÃ·¨ÈçÏÂ£º 



Series.str.count(pat, flags=0)

²ÎÊýËµÃ÷£º patÎª×Ö·û´®»òÕýÔò±í´ïÊ½£¬flags²ÎÊýµÄÄ¬ÈÏÖµÎª0¡£ÓÃÓÚÍ³¼ÆSeries»òIndexÖÐËùÆ¥ÅäµÄ×Ö·û³öÏÖµÄ´ÎÊý¡£


ÔÚÊÕ»õµØÖ·ÁÐÍ³¼ÆÈýÎ»ÊýµÄÊýÖµ¸öÊý£¬´úÂëÈçÏÂ£º 



df = pd.read_excel(r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\ÎÄ±¾´¦Àí.xlsx').head(3)

df£Û'¸öÊýÍ³¼Æ'£Ý= df£Û'ÊÕ»õµØÖ·'£Ý.str.count('\\d{3}')

df

·µ»ØµÄÖµÈçÏÂ£º 



ÔËµ¥±àºÅÊÕ»õµØÖ·×Ö·û±êÊ¶¸öÊýÍ³¼Æ

0YD001±±¾©Â·AA02´±02Â¥201ABC1231

1YD003ÉÏº£Â·aA03´±03Â¥301b1A32C1

2YD006¹ãÖÝÂ·Aa04´±04Â¥4011c2a3abb1

4. ²ð·Ö

PandasÖÐµÄstr.split()µÄÓÃ·¨ÈçÏÂ£º 



Series.str.split(pat=None, n=-1, expand=False)

²ÎÊýËµÃ÷£º patÎª×Ö·û´®»òÕýÔò±í´ïÊ½¡£nµÄÄ¬ÈÏÖµÎª-1£¬°´×î´ó¿É²ð·Ö´ÎÊý½øÐÐ²ð·Ö¡£expandµÄÄ¬ÈÏÖµÎªFalse£» µ±expand=TrueÊ±£¬·µ»ØµÄÖµÎªDataFrame¡£Óësplit()µÄÓÃ·¨ÀàËÆ£¬µ«·½ÏòÏà·´µÄÊÇrsplit()£¬²ð·ÖµÄ·½ÏòÓÉÓÒÏò×ó¡£


°´·Ö¸ô·û²ð·Ö¡£ÒÔ¡°Â·¡±Îª·Ö¸ô·û£¬´úÂëÈçÏÂ£º 



#ch05d003.ipynb

import pandas as pd

df = pd.read_excel(r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\ÎÄ±¾´¦Àí.xlsx').head(3)

df£Û'ÊÕ»õµØÖ·'£Ý.str.split('Â·')

·µ»ØµÄÖµÈçÏÂ£º 



0£Û±±¾©, AA02´±02Â¥201£Ý

1£ÛÉÏº£, aA03´±03Â¥301£Ý

2£Û¹ãÖÝ, Aa04´±04Â¥401£Ý

Name:ÊÕ»õµØÖ·, dtype: object

Èç¹ûÐèÒªÀ©Õ¹µ½DataFrame²¢ÃüÃûÁÐÃû£¬Ôò´úÂëÈçÏÂ£º 



s = df£Û'ÊÕ»õµØÖ·'£Ý.str.split('Â·', expand=True)

df£Û'³ÇÊÐ'£Ý = s£Û0£Ý

df£Û'Â¥ÅÆºÅ'£Ý = s£Û1£Ý

df

»òÕß²ÉÓÃÒÔÏÂ×Ô¶¨Òåº¯ÊýµÄÐ´·¨£¬´úÂëÈçÏÂ£º 



def y(x):





x£Û'³ÇÊÐ'£Ý,x£Û'Â¥ÅÆºÅ'£Ý=x£Û'ÊÕ»õµØÖ·'£Ý.split('Â·')

return x

df = df.apply(y,axis=1)

df

apply()º¯Êýµ÷ÓÃµÄÓï·¨ËµÃ÷¼ûÏÂÒ»ÕÂ½Ú¡£ÒÔÉÏ´úÂë·µ»ØµÄÖµÈçÏÂ£º 



ÔËµ¥±àºÅÊÕ»õµØÖ·×Ö·û±êÊ¶³ÇÊÐÂ¥ÅÆºÅ

0YD001±±¾©Â·AA02´±02Â¥201ABC123±±¾©AA02´±02Â¥201

1YD003ÉÏº£Â·aA03´±03Â¥301b1A32CÉÏº£aA03´±03Â¥301

2YD006¹ãÖÝÂ·Aa04´±04Â¥4011c2a3abb¹ãÖÝAa04´±04Â¥401


ÒÔ×ÖÄ¸Îª·Ö¸ô·û£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.split('£Ûa-zA-Z£Ý+', expand=True)

·µ»ØµÄÖµÈçÏÂ£º 



01

0±±¾©Â·02´±02Â¥201

1ÉÏº£Â·03´±03Â¥301

2¹ãÖÝÂ·04´±04Â¥401


Power Query²Ëµ¥ÖÐµÄ¼¸ÖÖ²ð·ÖÓ¦ÓÃ¡£²ÉÓÃPandasÕýÔò²ð·ÖÁÐ¡°°´×Ö·ûÊý¡±£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.split('(?<=...)',1) 

²ð·ÖÁÐ·½Ê½¡°°´Î»ÖÃ¡±£¬´úÂëÈçÏÂ£º  



df£Û'ÊÕ»õµØÖ·'£Ý.str.split('...',1)

²ð·ÖÁÐ·½Ê½¡°´ÓÐ¡Ð´µ½´óÐ´¡±£¬´úÂëÈçÏÂ£º  



df£Û'ÊÕ»õµØÖ·'£Ý.str.split('(?<=£Ûa-z£Ý)(?=£ÛA-Z£Ý)')

²ð·ÖÁÐ·½Ê½¡°´Ó´óÐ´µ½Ð¡Ð´¡±£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.split('(?<=£ÛA-Z£Ý)(?=£Ûa-z£Ý)')

²ð·ÖÁÐ·½Ê½¡°·ÇÊý×Öµ½Êý×Ö¡±£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.split('(?<=\\D)(?=\\d)')

²ð·ÖÁÐ·½Ê½¡°Êý×Öµ½·ÇÊý×Ö¡±£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.split('(?<=\\d)(?=\\D)')

5. ²éÕÒÈ«²¿

PandasÖÐµÄstr.findall()µÄÓÃ·¨ÈçÏÂ£º 



Series.str.findall(pat, flags=0)

²ÎÊýËµÃ÷£º str.findall()·µ»ØµÄÖµÎªÁÐ±í¡£²ÎÊýflagsÊÇÕýÔò±í´ïÊ½µÄÆ¥Åä·½Ê½£¬ÀýÈçre.I¡¢re.M¡¢re.S¡¢re.U¡¢re.AµÈ¡£


²ÉÓÃ³£¹æÆ¥Åä·½Ê½£¬»ñÈ¡ÊÕ»õµØÖ·ÖÐµÄ´±¡¢Â¥ÐÅÏ¢£¬´úÂëÈçÏÂ£º 



#ch05d004.ipynb

import pandas as pd

df = pd.read_excel(r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\ÎÄ±¾´¦Àí.xlsx').head(3)

df£Û'ÊÕ»õµØÖ·'£Ý.str.findall('\\d+\\D+')

·µ»ØµÄÖµÈçÏÂ£º 



0£Û02´±, 02Â¥£Ý

1£Û03´±, 03Â¥£Ý

2£Û04´±, 04Â¥£Ý

Name:ÊÕ»õµØÖ·, dtype: object


Ìí¼ÓÒ»¸ö²¶»ñ×é£¬½«·Ö×éÄÚµÄÄÚÈÝ·µ»ØÁÐ±í£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.findall('(\\d+)\\D+')

·µ»ØµÄÖµÈçÏÂ£º 



0£Û02, 02£Ý

1£Û03, 03£Ý

2£Û04, 04£Ý

Name:ÊÕ»õµØÖ·, dtype: object


Ìí¼Ó¶à¸ö²¶»ñ×é£¬·µ»ØµÄÊÇÓÉÔª×é×é³ÉµÄÁÐ±í£¬Ã¿¸öÔª×éÖÐµÄÔªËØÊÇÃ¿¸ö·Ö×éËù·µ»ØµÄÖµ£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.findall('(\\d+)(\\D+)')

·µ»ØµÄÖµÈçÏÂ£º 



0£Û(02,´±), (02, Â¥)£Ý

1£Û(03,´±), (03, Â¥)£Ý

2£Û(04,´±), (04, Â¥)£Ý

Name:ÊÕ»õµØÖ·, dtype: object

6. ÌáÈ¡

PandasÖÐµÄstr.extract()µÄÓÃ·¨ÈçÏÂ£º 



Series.str.extract(pat, flags=0, expand=True)

²ÎÊýËµÃ÷£º pat²ÎÊýÎª×Ö·û´®»òÕýÔò±í´ïÊ½¡£²ÎÊýflagsÊÇÕýÔò±í´ïÊ½µÄÆ¥Åä·½Ê½£¬ÀýÈçre.I¡¢re.M¡¢re.S¡¢re.U¡¢re.AµÈ¡£expandµÄÄ¬ÈÏÖµÎªTrue£¬µ±expand=TrueÊ±·µ»ØDataFrame£¬Ã¿¸ö²¶»ñ×éÓÐÒ»ÁÐ£» µ±expand=FalseÊ±£¬Èç¹ûÓÐÒ»¸ö²¶»ñ×é£¬Ôò·µ»ØÒ»¸öSeries/Index;Èç¹ûÓÐ¶à¸ö²¶»ñ×é£¬Ôò·µ»ØDataFrame¡£


µ¼ÈëÊý¾Ý£¬ÌáÈ¡ÊÕ»õµØÖ·ÖÐµÄµÚ1×éÊýÖµ£¬´úÂëÈçÏÂ£º 



#ch05d005.ipynb

import pandas as pd

df = pd.read_excel(r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\ÎÄ±¾´¦Àí.xlsx').head(3)

df£Û'ÊÕ»õµØÖ·'£Ý.str.extract('(\\d+)\\D+')

·µ»ØµÄÖµÈçÏÂ£º 



0

002

103

204


ÌáÈ¡ÊÕ»õµØÖ·ÖÐµÚ1×éÊýÖµÓëµÚ1×éÎÄ±¾£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.extract('(\\d+)(\\D+)')

·µ»ØµÄÖµÈçÏÂ£º 



01

002´±

103´±

204´±

ÔÚ·Ö×éÄÚÌí¼Ó·Ö×éÃüÃû¡£ÃüÃû·Ö×éÊÇPythonÖÐÕýÔòµÄÒ»ÖÖÓÃ·¨£¬ÆäÓï·¨½á¹¹Îª¡°(?P<Ãû³Æ>ÕýÔò±í´ïÊ½)¡±¡£Ó¦ÓÃ¾ÙÀý£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.extract('(?P<´±Êý>\\d+)(?P<´±>\\D+)')

·µ»ØµÄÖµÈçÏÂ£º 



´±Êý´±

002´±

103´±

204´±

²ÉÓÃÃüÃû·Ö×éÐÎÊ½£¬ÌáÈ¡ÊÕ»õµØÖ·ÖÐµÄ´±¡¢Â¥ÐÅÏ¢£» Î´±»ÃüÃûµÄ·Ö×é»áÒÔÊýÖµµÄÐÎÊ½ÏÔÊ¾£¬´úÂëÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.extract('(?P<´±Êý>\\d+)(?P<´±>\\D+)(\\d+)(\\D+)(\\d+)')

·µ»ØµÄÖµÈçÏÂ£º 



´±Êý´±234

002´±02Â¥201

103´±03Â¥301

204´±04Â¥401

7. ÌáÈ¡È«²¿

PandasÖÐµÄstr.extractall()µÄÓÃ·¨ÈçÏÂ£º 



Series.str.extractall(pat, flags=0)


str.extract()·½·¨ÓÃÓÚÏòÁÐ·½ÏòÀ©Õ¹¡£str.extractall()·½·¨ÓÃÓÚÏòÐÐ·½ÏòÀ©Õ¹¡£Ó¦ÓÃ¾ÙÀýÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.extractall('(?P<Êý×Ö>\\d+)(?P<ÎÄ±¾>\\D+)')

·µ»ØµÄÖµÈçÏÂ£º 



Êý×Ö ÎÄ±¾

match

0 002´±

102Â¥

1 003´±

103Â¥

2 004´±

104Â¥ 

8. Ìæ»»

PandasÖÐµÄstr.replace()µÄÓÃ·¨ÈçÏÂ£º 



Series.str.replace(pat, repl, n=- 1, case=None, flags=0, regex=None)

str.replace()·½·¨ÓÃÓÚÌæ»»×Ö·û´®ÖÐ³öÏÖµÄÃ¿¸öÄ£Ê½»òÕýÔò±í´ïÊ½£¬µÈ¼ÛÓÚstr.replace()»òre.sub()¡£


Ó¦ÓÃ¾ÙÀýÈçÏÂ£º 



df£Û'ÊÕ»õµØÖ·'£Ý.str.replace('Â·\\w{5}','Ò»Ïß³ÇÊÐ')

·µ»ØµÄÖµÈçÏÂ£º 



0±±¾©Ò»Ïß³ÇÊÐ02Â¥201

1ÉÏº£Ò»Ïß³ÇÊÐ03Â¥301


2¹ãÖÝÒ»Ïß³ÇÊÐ04Â¥401

Name:ÊÕ»õµØÖ·, dtype: object 




5.2ÈÕÆÚºÍÊ±¼ä

Pandas¼Ì³ÐÁËNumPy¿âºÍdatetime¿âµÄÊ±¼äÏà¹ØÄ£¿é£¬Ìá¹©ÁËTimestamp¡¢Period¡¢ Timedelta¡¢DatetimeIndex¡¢PeriodIndex¡¢TimedeltaIndexÕâ6ÖÖÊ±¼äÏà¹ØµÄÀà£¬Ê¹ÆäÄÜ¸ü¸ßÐ§µØ´¦ÀíÊ±¼äÐòÁÐÊý¾Ý¡£PandasÖ§³ÖÊ±Çø£¬Ê¹ÓÃµÄÊÇdatetime64£Ûns£ÝÊý¾ÝÀàÐÍ£¬¿ÉÒÔ¾«È·µ½ºÁÃë¡¢ÄÉÃë£¬ÄÜ¹»ÇáËÉ´¦Àí½ðÈÚµÈ¶ÔÊ±¼ä¾«¶ÈÓÐÒªÇóµÄÐÐÒµ¡£

ÔÚÕâ6¸öÀàÖÐ£¬TimestampÊÇPandasÖÐ×î»ù´¡µÄ£¬Ò²ÊÇ×î³£ÓÃµÄÊ±¼äÐòÁÐÀàÐÍ£¬ËüÊÇÒÔÊ±¼ä´ÁÎªË÷ÒýµÄSeries¡£µ±´´½¨Ò»¸ö´øÓÐDatetimeIndexµÄSeriesÊ±£¬Pandas¾Í»áÖªµÀ¶ÔÏóÊÇÒ»¸öÊ±¼äÐòÁÐ¡£

PandasÖÐÕâ6¸öÊ±¼äÐòÁÐÀàÐÍµÄÊý¾Ý½á¹¹ÓëÊý¾ÝÀàÐÍµÄ¶ÔÕÕ¼û±í5ª²7¡£


±í5ª²7PandasÊ±¼äÐòÁÐÊý¾Ý½á¹¹




¸ÅÄî±êÁ¿ÀàÊý ¾Ý Àà ÐÍË÷Òý´´ ½¨ ·½ ·¨
Ê±¼äµãTimestampdatetime64£Ûns£Ý,

datetime64£Ûns,tz£ÝDatetimeIndexpd.to_datetime¡¢

pd.date_range
Ê±¼ä¶ÎPeriodperiod£Ûfreq£ÝPeriodIndexdf.to_period¡¢

pd.period_range
Ê±¼ä²îTimedeltaTimedelta64£Ûns£ÝTimedeltaIndexpd.to_timedelta¡¢

pd.timedelta_range
Ê±¼äÆ«ÒÆDateOffsetNoneNonepd.DateOffset


ÒÔÏÂÊÇ±í5ª²7µÄÄÚÈÝËµÃ÷¡£

£¨1£© Ê±¼äµã£¨Datetime£©£¬Ò²¿ÉÒÔ³ÆÎªÊ±¼ä´Á£¨Timestamp£©¡£Ò»ÏµÁÐµÄÊ±¼ä´Á¹¹³ÉÁËDatetimeIndex¡£ÔÚSeriesÖÐÕâÐ©Êý¾ÝµÄÀàÐÍÎªdatetime64£Ûns£Ý£¬Èç¹û´æÔÚÊ±ÇøÉèÖÃ£¬ÔòÔÚSeriesÖÐÕâÐ©Êý¾ÝµÄÀàÐÍÎªdatetime64£Ûns,tz£Ý¡£

£¨2£© ³ÖÐøµÄÊ±¼ä¶Î£¨Period£©¶¼ÓÉstartºÍendÁ½²¿·Ö×é³É¡£Ò»ÏµÁÐµÄÊ±¼ä¶Î¹¹³ÉÁËPeriodIndex¡£

£¨3£© Á½¸öÊ±¼äµãµÄ²îÖµ´ú±íµÄÊÇÊ±¼ä²î£¨Timedelta£©£¬´ú±íµÄÊÇÄ³ÊÂ¼þµÄ³ÖÐøÊ±¼ä¡£Ò»ÏµÁÐµÄÊ±¼ä´Á¹¹³ÉÁËTimedeltaIndex¡£

£¨4£© Èç¹ûÐèÒªÔÚÄ³Ò»ÈÕÆÚµÄ»ù´¡ÉÏ½øÐÐÎ´ÖªÈÕÆÚµÄ¼ÆËã£¬Ôò¿ÉÒÔ²ÉÓÃÈÕÆÚÆ«ÒÆ£¨DateOffset£©¡£

PandasÖÐÊ±Ðò·ÖÎö³£ÓÃµÄÁ÷³ÌÈçÍ¼5ª²4ËùÊ¾¡£




Í¼5ª²4PandasÖÐÊ±Ðò·ÖÎö³£ÓÃµÄÁ÷³Ì


5.2.1Ê±¼äµã
1. Ê±¼ä´Á



ÔÚPandasÖÐ£¬¿ÉÓÃpd.Timestamp()½øÐÐ½âÎö¡¢×ª»»¡¢´´½¨µ¥¸öÊ±¼ä´Á¡£ÒÔpd.TimestampÎªÀý£¬´úÂëÈçÏÂ£º 





#ch05d006.ipynb

import pandas as pd

pd.Timestamp(2022,12,13)

#pd.Timestamp('2022/12/13')

#pd.Timestamp(year=2022,month=12,day=13)

#pd.Timestamp(1670889600,unit='s')

Ò»¸öÍêÕûµÄÊ±¼ä´ÁÊÇÓÉÄê¡¢ÔÂ¡¢ÈÕ¡¢Ê±¡¢·Ö¡¢ÃëµÈ×é³É£¬·µ»ØµÄÖµÈçÏÂ£º 



Timestamp('2022-12-13 00:00:00')


ÀûÓÃpd.Timestamp()»ñÈ¡µ±Ç°Ê±¼äµã£¬´úÂëÈçÏÂ£º 



pd.Timestamp('now')

pd.Timestamp('today')

ÀûÓÃpd.Timestamp()»ñÈ¡µ±ÈÕÈÕÆÚ¡¢µ±Ç°Ê±¼ä¼°ÐÇÆÚ¡£Ó¦ÓÃ¾ÙÀý£¬´úÂëÈçÏÂ£º 



pd.Timestamp('now').date()

pd.Timestamp('today').time()

pd.Timestamp('today').day_name()

2. ´´½¨ÈÕÆÚÊ±¼ä

ÔÚPandasÖÐ£¬¿ÉÓÃpd.to_datetime()´´½¨ÈÕÆÚÊ±¼ä¡£pd.to_datetimeµÄµÚ1¸ö²ÎÊý¿ÉÎªstr¡¢int¡¢float¡¢datetime¡¢list¡¢1ª²d array¡¢Series¡¢DataFrame¡¢dictª²like¡¢tupleµÈ¡£ÒÔÁÐ±íÖÐµÄ×Ö·û´®È«²¿×ª»»ÎªÈÕÆÚÊ±¼äÎªÀý£¬´úÂëÈçÏÂ£º 



pd.to_datetime(£Û'2022-12-13','12/13/2022','2022.12.13','13/12/2022','Dec 13, 2022'£Ý)

ÁÐ±íÖÐ´æÔÚ¶à¸öÊ±¼ä´ÁÖµ£¬´Ó¶ø¹¹³ÉÁËÒ»¸öDatetimeIndex£¬Êý¾ÝÀàÐÍÎªdatetime64£Ûns£Ý£¬freqÎªNone£¬·µ»ØµÄÖµÈçÏÂ£º 



DatetimeIndex(£Û'2022-12-13', '2022-12-13', '2022-12-13', '2022-12-13',

'2022-12-13'£Ý, dtype='datetime64£Ûns£Ý', freq=None)

3. ÈÕÆÚ·¶Î§

pd.date_range()¡¢pd.bdate_range()ÓÃÓÚÉú³ÉÖ¸¶¨³¤¶ÈµÄDatetimeIndex£» ¶þÕßµÄÇø±ðÔÚÓÚÊÇ·ñ°üº¬ÖÜÁù¡¢ÖÜÈÕ¡£4¸öÖ÷Òª²ÎÊýÈç±í5ª²8ËùÊ¾¡£


±í5ª²8date_rangeµÄ²ÎÊýËµÃ÷




²ÎÊý²Î Êý Ëµ Ã÷
Start¿ªÊ¼ÈÕÆÚ£¬¿ÉÊ¡
End½áÊøÈÕÆÚ£¬¿ÉÊ¡
Periods¹Ì¶¨Ê±ÆÚ£¬È¡ÖµÎªÕûÊý»òNone
FreqÈÕÆÚÆ«ÒÆÁ¿(ÆµÂÊ)£¬È¡ÖµÎªstring»òDateOffset


ÀûÓÃpd.date_range()º¯Êý´´½¨5¸öÈÕÆÚÁÐ£¬´úÂëÈçÏÂ£º 



#ch05d007.ipynb

import pandas as pd

df = pd.DataFrame(

{

'Date1':pd.date_range(start = '2022-12-12',periods=3),

'Date2':pd.date_range(end = '2022-12-15',periods=3, freq='D'),

'Date3':pd.date_range(end = '2022-12-15',periods=3, freq='A'),

'Date4':pd.date_range(end = '2022-12-15',periods=3, freq='QS'),

'Date5':pd.date_range(end = '2022-12-15',periods=3, freq='MS'),

}

)

df

pd.date_range()ÀàËÆÓÚPower QueryÖÐList.Dates()µÄ¹¦ÄÜ£¬ÓÃÓÚÉú³ÉÒ»¸ö¸ø¶¨¿ªÊ¼Ê±¼äºÍ³ÖÐøÊ±³¤µÄÈÕÆÚÁÐ±í¡£·µ»ØµÄÖµÈçÏÂ£º 



Date1Date2Date3Date4Date5

0 2022-12-122022-12-13 2019-12-31 2022-04-01 2022-10-01

1 2022-12-132022-12-14 2020-12-31 2022-07-01 2022-11-01

2 2022-12-142022-12-15 2021-12-31 2022-10-01 2022-12-01

ÀûÓÃdtypesÊôÐÔ²é¿´¸÷ÁÐµÄÊý¾ÝÀàÐÍ£¬´úÂëÈçÏÂ£º 



df.dtypes

·µ»ØµÄÖµÈçÏÂ£º 



Date1datetime64£Ûns£Ý

Date2datetime64£Ûns£Ý

Date3datetime64£Ûns£Ý

Date4datetime64£Ûns£Ý

Date5datetime64£Ûns£Ý

dtype: object


ÔÚDataFrameÖÐÀûÓÃpd.date_range()´´½¨DatetimeIndex£¬´úÂëÈçÏÂ£º 



#ch05d008.ipynb

import pandas as pd

df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','²úÆ·','¶©µ¥Êý'£Ý,





index_col='½Óµ¥Ê±¼ä'

).head(3)



pd.date_range(df.index.min(),df.index.max(),freq='4M')

·µ»ØµÄfreqÎª'4M'£¬·µ»ØµÄÖµÈçÏÂ£º 



DatetimeIndex(£Û'2020-04-30', '2020-08-31', '2020-12-31', '2021-04-30',

'2021-08-31'£Ý,dtype='datetime64£Ûns£Ý', freq='4M')




ÔÚÒÔÉÏ´úÂëÖÐfreq²ÎÊýµÄ¶ÔÕÕ±í¼û±í5ª²9¡£


±í5ª²9Ê±¼äÐòÁÐÆµÂÊ¶ÔÕÕ±í




±ðÃûÓ¢ ÎÄ Ãè ÊöÖÐ ÎÄ Ãè Êö
D/BDay/BusinessDayÈÕÀúÈÕµÄÃ¿Ìì/¹¤×÷ÈÕµÄÃ¿Ìì
H/T(»òMin)/SHour/Minute/SecondÊ±/·Ö/Ãë
M/BMMonthEnd/BusinessMonthEndÈÕÀúÈÕµÄÔÂÄ©/¹¤×÷ÈÕµÄÔÂÄ©
MS/BMSMonthStart/BusinessMonthStartÈÕÀúÈÕµÄÔÂ³õ/¹¤×÷ÈÕµÄÔÂ³õ
Wª²MONWeekª²MondayÃ¿ÖÜ´ÓÐÇÆÚÒ»¿ªÊ¼¼ÆËã£¬ÆäËûµÄÓÐWª²TUE¡­¡­
WOMª²1MONWeekOfMonthÔÚ±¾ÔÂµÄµÚ1ÖÜ´´½¨°´ÖÜ·Ö¸ôµÄÈÕÆÚ£¬ÀýÈçWOMª²3FRI´ú±íÃ¿ÔÂµÄµÚ3¸öÐÇÆÚÎå
Qª²JAN/BQª²JANQuarterEnd/BusinessQuarterEndJAN±íÊ¾ÔÂ·Ý½áÊøµÄ¼¾¶È£¬Ò²¿ÉÒÔÊÇFEB¡­¡­
QSª²JAN/QBSª²JANQuarterStart/ BusinessQuarterStartJAN±íÊ¾ÔÂ·Ý½áÊøµÄ¼¾¶È£¬Ò²¿ÉÒÔÊÇFEB¡­¡­
Aª²JAN/BAª²JANBusinessYearEnd/YearStartJAN±íÊ¾ÔÂ·Ý½áÊøµÄ¼¾¶È£¬Ò²¿ÉÒÔÊÇFEB¡­¡­
ASª²JAN/BASª²JANYearStart/BusinessYearStartJAN±íÊ¾ÔÂ·Ý½áÊøµÄ¼¾¶È£¬Ò²¿ÉÒÔÊÇFEB¡­¡­


±í5ª²9ÖÐµÄ¸÷ÀàÆµÂÊ×éºÏ£¬¿ÉÓÃÍ¼5ª²5¼ÓÉîÀí½âÓë¼ÇÒä¡£ÀýÈçA/Q/Mµ¥×ÖÄ¸Ê±´ú±íµÄÊÇÆä¶ÔÓ¦ÆµÂÊµÄEnd£¬¼ÓÉÏsÊ±ÔòÎªÆä¶ÔÓ¦ÆµÂÊµÄstart¡£




Í¼5ª²5Ê±¼äÆµÂÊ×éºÏ¹æÂÉËµÃ÷


Îª¼ÓÉîÀí½â£¬ÈÔÒÔ2022ª²12ÎªÀý£¬±í5ª²10ÊÇM¡¢BM¡¢MS¡¢BMSµÄ¶ÔÕÕËµÃ÷¡£


±í5ª²10Ê±¼äÐòÁÐÆµÂÊ¶ÔÕÕ±í




±ðÃû´ú±íµÄÆµÂÊ£¨2022ª²12£©¾ÙÀý
MÔÂÄ©2022ª²12ª²31
BMÔÂÄ©µÄ¹¤×÷ÈÕ2022ª²12ª²30
MSÔÂ³õ2022ª²12ª²1
BMSÔÂ³õ¹¤×÷ÈÕ2022ª²12ª²1


4. ½âÎöÈÕÆÚ

ÔÚPandasÖÐ£¬ÔÚpd.read_excel()¶ÁÈ¡¹ý³ÌÖÐ£¬¿ÉÍ¨¹ýparse_datesÊÖ¶¯ÉèÖÃ»òÏµÍ³×Ô¶¯½âÎö£¬½«¶ÔÓ¦µÄÎÄ±¾ÐÍÈÕÆÚÊ±¼äÊý¾Ý½âÎöÎªÈÕÆÚÊ±¼äÊý¾Ý£» ÉõÖÁ¿ÉÒÔ½«µ¼ÈëDataFrameµÄÈÕÆÚÊ±¼äÊý¾ÝÉèÖÃÎªË÷ÒýÁÐ£¬´úÂëÈçÏÂ£º 




#ch05d009.ipynb

import pandas as pd

df = pd.read_excel(


r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','²úÆ·','¶©µ¥Êý'£Ý,

#parse_dates=True,

index_col='½Óµ¥Ê±¼ä'

).head(3)

df.index

Éú³ÉDatetimeIndex£¬dtypeÎªdatetime64£Ûns£Ý£¬freqÎªNone¡£Èç¹ûÒÔÉÏ´úÂë·µ»ØµÄÊý¾ÝÀàÐÍÎªObject£¬Ôò¿ÉÒÔÆôÓÃparse_dates=True½øÐÐÈÕÆÚ½âÎö£¬·µ»ØµÄÖµÈçÏÂ£º 



DatetimeIndex(£Û'2020-04-28', '2020-05-31', '2020-06-30'£Ý, dtype='datetime64£Ûns£Ý', name='½Óµ¥Ê±¼ä', freq=None)


½«Êý¾Ýµ¼ÈëDataFrameÊ±£¬ÈÕÆÚÊ±¼äÊý¾Ý»á±»×Ô¶¯½âÎöÎªdatetime64£Ûns£Ý£¬´úÂëÈçÏÂ£º 



df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

#parse_dates=True,

usecols=£Û'½Óµ¥Ê±¼ä','²úÆ·','¶©µ¥Êý'£Ý,)

df.dtypes

²é¿´Êý¾ÝÀàÐÍ£¬·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ädatetime64£Ûns£Ý

²úÆ·object

¶©µ¥Êýint64

dtype: object

½«½Óµ¥Ê±¼äÁÐÉèÖÃÎªË÷ÒýÁÐ²¢²é¿´Ë÷ÒýÁÐ£¬´úÂëÈçÏÂ£º 



df1 = df.set_index(df£Û'½Óµ¥Ê±¼ä'£Ý)

df1.head(3).index

DatetimeIndexµÄfreqÎªNone£¬·µ»ØµÄÖµÈçÏÂ£º 



DatetimeIndex(£Û'2020-04-28', '2020-05-31', '2020-06-30'£Ý, dtype='datetime64£Ûns£Ý', name='½Óµ¥Ê±¼ä', freq=None)


ÔÚPandasÖÐ£¬¿ÉÊ¹ÓÃdt×ª»»Æ÷·ÃÎÊdatetime¶ÔÏó²¢¶Ôyear¡¢month¡¢day¡¢hour¡¢minute¡¢second¡¢quarterµÈÊôÐÔ½øÐÐ·ÃÎÊ£¬¼û±í5ª²11¡£



±í5ª²11PandasÊ±¼ä´ÁÊôÐÔ




Ï¸·ÖÄÚÈÝ
³£ÓÃyear¡¢month¡¢day¡¢hour¡¢minute¡¢second¡¢value
Å¼ÓÃasm8¡¢day_of_week¡¢day_of_year¡¢dayofweek¡¢dayofyear¡¢days_in_month¡¢daysinmonth¡¢freq¡¢fold¡¢freqstr¡¢is_leap_year¡¢is_month_end¡¢is_month_start¡¢is_quarter_end¡¢is_quarter_start¡¢is_year_end¡¢is_year_start¡¢microsecond¡¢nanosecond¡¢quarter¡¢tz¡¢week¡¢weekofyear¡¢start_time¡¢end_time

ÒÔis¿ªÍ·µÄÊôÐÔ¾ùÎªÅÐ¶ÏÊÇ·ñÂú×ãÌõ¼þ£¬·µ»ØµÄÖµÎªTrue»òFalse¡£


ÔÚPandasÖÐ£¬¿ÉÊ¹ÓÃdt×ª»»Æ÷·ÃÎÊdatetime¶ÔÏó²¢¶ÔÆäÏÔÊ¾¸ñÊ½½øÐÐÉèÖÃ¡£PythonÖÐdatetimeµÄ³£¼û¸ñÊ½ËµÃ÷¼û±í5ª²12¡£


±í5ª²12datetimeµÄ³£¼û¸ñÊ½ËµÃ÷




ÀàÐÍ¸ñ Ê½ Ëµ Ã÷
%F%Yª²%mª²%dµÄ¼òÐ´£¬½âÎöµ½ÄÉÃë
%D%m%d%yµÄ¼òÐ´
%YËÄÎ»µÄÄê·Ý
%yÁ½Î»µÄÄê·Ý
%mÁ½Î»µÄÔÂ·Ý
%dÁ½Î»µÄÈÕÆÚ
%H24hÖÆµÄÐ¡Ê±
%I12hÖÆµÄÐ¡Ê±
%MÁ½Î»µÄ·ÖÖÓ
%SÃë
%wÐÇÆÚ¼¸£¨ÐÇÆÚÌìÎª0£©
%WÒ»ÄêÖÐµÚ¼¸ÖÜ(ÐÇÆÚÒ»ÎªÃ¿ÖÜµÄµÚÒ»Ìì)
%UÒ»ÄêÖÐµÚ¼¸ÖÜ(ÐÇÆÚÌìÎªÃ¿ÖÜµÄµÚÒ»Ìì)
%zÒÔ+HHMM»ò-HHMMµÄUTCÊ±ÇøÆ«ÒÆ£¬Èç¹ûÃ»ÓÐÊ±Çø£¬ÔòÎª¿Õ


£¨1£© ÀûÓÃdt×ª»»Æ÷½øÐÐÊôÐÔ·ÃÎÊ¡£ÀûÓÃassign()·½·¨´´½¨Á¬ÐøµÄ¶àÁÐ£¬´úÂëÈçÏÂ£º 




df = df.assign(

ÄêÔÂ=df.½Óµ¥Ê±¼ä.dt.strftime('%Y-%m'),

Äê=df.½Óµ¥Ê±¼ä.dt.year,

¼¾=df.½Óµ¥Ê±¼ä.dt.quarter,

ÔÂ=df.½Óµ¥Ê±¼ä.dt.month

).head(3)

df

µ±Ðè½âÎöµÄÊ±¼äÊý¾ÝÒòÄ³Ð©Ô­ÒòÎÞ·¨ÕýÈ·½âÎöÊ±£¬¿É²ÉÓÃstrftime()µÄ²ÎÊý½øÐÐÇ¿ÖÆ¸ñÊ½×ª»»£¬·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä²úÆ·¶©µ¥ÊýÄêÔÂÄê¼¾ÔÂ

0 2020-04-28µ°¸âÖ½22020-04202024

1 2020-05-31µ°¸âÖ½22020-05202025

2 2020-06-30Æ»¹û´×22020-06202026 


(2) ÀûÓÃdt×ª»»Æ÷µÄÁ¬½Ó·½·¨¡£¼ÌÐø´´½¨¶àÁÐ£¬´úÂëÈçÏÂ£º 



df = df.assign(

ÔÂÃû=df.½Óµ¥Ê±¼ä.dt.month_name(),

ÐÇÆÚ=df.½Óµ¥Ê±¼ä.dt.day_name())

df

·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä²úÆ·¶©µ¥ÊýÄêÔÂÄê¼¾ÔÂÔÂÃûÐÇÆÚ

0 2020-04-28µ°¸âÖ½22020-04202024AprilTuesday

1 2020-05-31µ°¸âÖ½22020-05202025MaySunday

2 2020-06-30Æ»¹û´×22020-06202026JuneTuesday

5. ÈÕÆÚÊ±¼äË÷Òý

DatetimeIndex¾ß±¸ÒÔÏÂÓÅµã£º ¢Ù¿ÉÒÔÍ¨¹ýÇÐÆ¬·½Ê½¿ìËÙË÷Òý£» ¢Ú¿ÉÒÔÍ¨¹ýË÷ÒýµÄÊôÐÔ¿ìËÙ·ÃÎÊÊý¾Ý£» ¢ÛÍ¬ÆµÂÊÊý¾ÝµÄ¿ìËÙºÏ²¢µÈ¡£

(1) µ±´´½¨Ò»¸ö´øÓÐDatetimeIndexµÄSeriesÊ±£¬Pandas¾Í»áÖªµÀ¶ÔÏóÊÇÒ»¸öÊ±¼äÐòÁÐ£¬¿ÉÒÔ½øÐÐÓëË÷ÒýÏà¹Ø²Ù×÷£¬´úÂëÈçÏÂ£º 



#ch05d010.ipynb

import pandas as pd

df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','²úÆ·','¶©µ¥Êý'£Ý,

#parse_dates=True,

)



df = df.set_index(pd.to_datetime(df£Û'½Óµ¥Ê±¼ä'£Ý))

#df = df.set_index(df£Û'½Óµ¥Ê±¼ä'£Ý)



df.sort_index().loc£Û'2020'£Ý.count()

ÐèÒªÌáÐÑµÄÊÇ£º ÎªÁË±ÜÃâË÷ÒýÁÐÖÐÊý¾Ý¿ÉÄÜ´æÔÚµÄÂÒÐòÇéÐÎ£¬ÔÚË÷ÒýÓëÇÐÆ¬Ö®Ç°ÏÈ¶ÔDatetimeIndex½øÐÐË÷ÒýÅÅÐò£¬·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä13

²úÆ·13


¶©µ¥Êý13

dtype: int64

Ò²¿ÉÒÔ¶Ô¾ßÌåµÄÄêÔÂ½øÐÐ·ÃÎÊ£¬´úÂëÈçÏÂ£º 



df = df.set_index(pd.to_datetime(df£Û'½Óµ¥Ê±¼ä'£Ý))

#df = df.set_index(df£Û'½Óµ¥Ê±¼ä'£Ý)

df.sort_index().loc£Û'2020-10'£Ý

·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä²úÆ·¶©µ¥Êý

½Óµ¥Ê±¼ä

2020-10-02 2020-10-02ÓÍÆá9

2020-10-04 2020-10-04°ü×°Éþ7

2020-10-04 2020-10-04¸Ö»¯Ä¤11

»ò¶Ô¾ßÌåµÄÈÕÆÚ½øÐÐ·ÃÎÊ£¬´úÂëÈçÏÂ£º 



df = df.set_index(pd.to_datetime(df£Û'½Óµ¥Ê±¼ä'£Ý))

#df = df.set_index(df£Û'½Óµ¥Ê±¼ä'£Ý)

df.loc£Û'2020-10-4'£Ý

·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä²úÆ·¶©µ¥Êý

½Óµ¥Ê±¼ä

2020-10-04 2020-10-04°ü×°Éþ7

2020-10-04 2020-10-04¸Ö»¯Ä¤11

¶ÔµÚ4¼¾µÄÊý¾Ý½øÐÐË÷Òý£¬´úÂëÈçÏÂ£º 



df.loc£Û'2020Q4'£Ý

·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä²úÆ·¶©µ¥Êý

½Óµ¥Ê±¼ä

2020-10-02 2020-10-02ÓÍÆá9

2020-10-04 2020-10-04°ü×°Éþ7

2020-10-04 2020-10-04¸Ö»¯Ä¤11

(2) µ±²»´æÔÚÊ±¼äË÷ÒýÁÐÊ±£¬Ò²¿ÉÒÔÀûÓÃdt×ª»»Æ÷½øÐÐ·ÃÎÊ£¬´úÂëÈçÏÂ£º 



df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','¶©µ¥Êý','Èë¿âÊý'£Ý,

parse_dates=True,

)

df.loc£Û(df.½Óµ¥Ê±¼ä.dt.year==2020) & (df.½Óµ¥Ê±¼ä.dt.quarter==4) £Ý

ÒÔÉÏ´úÂë·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä¶©µ¥ÊýÈë¿âÊý

10 2020-10-0299

11 2020-10-0477

12 2020-10-041111

5.2.2Ê±¼ä¶Î
1. ÆÚ¼ä



pd.Period()ÓÃÓÚ´´½¨Ò»¸ö¾ßÌåµÄÊ±¶Î£¬´úÂëÈçÏÂ£º 



pd.Period(2021,freq='A-Feb')

·µ»ØµÄÖµÈçÏÂ£º 



Period('2021', 'A-FEB')

ÒÔQÎªÆµÂÊ£¬´úÂëÈçÏÂ£º 



pd.Period('2022-12-13', freq = "Q")

·µ»ØµÄÖµÈçÏÂ£º 



Period('2022Q4', 'Q-DEC')

2. ´´½¨ÆÚ¼ä

ÔÚPandasÖÐÓÐSeries.to_period()ºÍDataFrame.to_period()Á½ÖÖ³£¼ûÓÃ·¨£¬s.to_period()»òdf.to_period()ÓÃÓÚÃèÊö¸ÃÈÕÆÚ´¦ÓÚÄÄ¸öÊ±ÆÚ¡£SeriesµÄÖ÷Òª²ÎÊýÎªfreq£¬DataFrameÖÐ»¹ÓÐaxis²ÎÊý¡£s.to_period()ÓÃ·¨µÄÓ¦ÓÃ¾ÙÀý£¬´úÂëÈçÏÂ£º 



A = pd.date_range('2022-12-12',periods=3,freq='3M')

A.to_period()

·µ»ØµÄÖµÈçÏÂ£º 



PeriodIndex(£Û'2022-12', '2023-03', '2023-06'£Ý, dtype='period£Û3M£Ý')


df.to_period()ÓÃ·¨µÄÓ¦ÓÃ¾ÙÀý£¬ÒÔÊ±¼ä¶ÎÎª·Ö×é¼ÆËãÒÀ¾Ý£¬´úÂëÈçÏÂ£º  



df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','¶©µ¥Êý','Èë¿âÊý'£Ý,

parse_dates=True,

index_col='½Óµ¥Ê±¼ä'

)

df.to_period('Q').head(3)

·µ»ØµÄÖµÈçÏÂ£º 



¶©µ¥ÊýÈë¿âÊý

½Óµ¥Ê±¼ä

2020Q222

2020Q222

2020Q222

ÀûÓÃË÷Òý¼°ÆäÊôÐÔ×÷Îª·Ö×éµÄÒÀ¾Ý£¬È»ºó¼ÆËã¶©µ¥ÓëÈë¿âÊý£¬´úÂëÈçÏÂ£º 



df.groupby(df.index.year).sum()

»òÕßÀûÓÃto_period()µÄÆµÂÊ(ÆµÂÊÎªÄêµÄ¼òÂëÎªA), ´úÂëÈçÏÂ£º 



df.to_period('A').reset_index().groupby('½Óµ¥Ê±¼ä').sum()


·µ»ØµÄÖµÈçÏÂ£º 



¶©µ¥ÊýÈë¿âÊý

½Óµ¥Ê±¼ä

20206157

2021 4140

3. ÆÚ¼ä·¶Î§

pd.period_range(start=None, end=None, periods=None, freq=None,name=None)ÓÃÓÚ´´½¨¹Ì¶¨ÆµÂÊµÄPeriodIndex¡£´´½¨Ò»¸öPeriod_range£¬´úÂëÈçÏÂ£º 



A = pd.period_range('2022/7/1',periods=3,freq='M')

A

Éú³ÉPeriodIndex£¬·µ»ØµÄÖµÈçÏÂ£º 



PeriodIndex(£Û'2022-07', '2022-08', '2022-09'£Ý, dtype='period£ÛM£Ý')

ÓëDatetimeIndexµÄÊôÐÔÀàËÆ£¬ÔÚPeriodIndexÖÐ£¬ËüÒ²ÓÐyear¡¢quarter¡¢month¡¢day¡¢hour¡¢ minute¡¢ second¡¢ weekday¡¢weekofyear¡¢dayofyearµÈÊôÐÔ¡£ÒÔyearÊôÐÔÎªÀý£¬´úÂëÈçÏÂ£º 



A.year

·µ»ØµÄÖµÈçÏÂ£º 



Int64Index(£Û2020, 2020, 2020£Ý, dtype='int64')

ÒÔdayofweekÊôÐÔÎªÀý£¬´úÂëÈçÏÂ£º 



A.dayofweek

·µ»ØµÄÖµÈçÏÂ£º 



Int64Index(£Û4, 0, 2£Ý, dtype='int64')

ÒÔend_timeÊôÐÔÎªÀý£¬´úÂëÈçÏÂ£º 



A.end_time

·µ»ØµÄÖµÈçÏÂ£º 



DatetimeIndex(£Û'2020-07-31 23:59:59.999999999',

'2020-08-31 23:59:59.999999999',

'2020-09-30 23:59:59.999999999'£Ý,

dtype='datetime64£Ûns£Ý', freq=None)

4. ÆÚ¼äË÷Òý

µ±´´½¨Ò»¸ö´øÓÐDatetimeIndexµÄSeriesÊ±£¬¿ÉÒÔ½øÐÐÓëË÷ÒýÏà¹Ø²Ù×÷£¬´úÂëÈçÏÂ£º 



#ch05d011.ipynb

import pandas as pd

df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','²úÆ·','¶©µ¥Êý'£Ý,

index_col='½Óµ¥Ê±¼ä'

).to_period('Q')

df.head(3).index

·µ»ØµÄÖµÈçÏÂ£º 



PeriodIndex(£Û'2020Q2', '2020Q2', '2020Q2'£Ý, dtype='period£ÛQ-DEC£Ý', name='½Óµ¥Ê±¼ä')

¶Ô2020Q4Öµ½øÐÐÉ¸Ñ¡£¬±í´ïÊ½ÈçÏÂ£º 



df.loc£Û'2020Q4'£Ý

·µ»ØµÄÖµÈçÏÂ£º 



²úÆ·¶©µ¥Êý

½Óµ¥Ê±¼ä

2020Q4ÓÍÆá9

2020Q4°ü×°Éþ7

2020Q4¸Ö»¯Ä¤11

5.2.3Ê±¼ä²î
1. Ê±¼ä²î



TimedeltaÓÃÓÚ´´½¨»ò¼ÆËãÊ±¼ä²î£¬³£ÓÃµÄÊ±¼äµ¥Î»ÓÐÖÜ¡¢ÈÕ¡¢Ê±¡¢·Ö¡¢ÃëµÈ¡£µ¼ÈëÊý¾Ý£¬´úÂëÈçÏÂ£º 



#ch05d012.ipynb

import pandas as pd

df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'Èë¿âÈÕÆÚ',£Ý,nrows=3)

df£Û'Ê±²î'£Ý = df£Û'Èë¿âÈÕÆÚ'£Ý- df£Û'Èë¿âÈÕÆÚ'£Ý.min()

df

·µ»ØµÄÖµÈçÏÂ£º 



Èë¿âÈÕÆÚÊ±²î

0 2020-05-26 13:54:240 days 00:00:00

1 2020-06-03 06:49:227 days 16:54:58

2 2020-07-03 00:03:21 37 days 10:08:57

²é¿´Êý¾ÝÀàÐÍ£¬´úÂëÈçÏÂ£º 



df.dtypes

·µ»ØµÄÖµÈçÏÂ£º 



Èë¿âÈÕÆÚdatetime64£Ûns£Ý

Ê±²îtimedelta64£Ûns£Ý

dtype: object


pd.Timedelta()µÄ²ÎÊýÓÐ¶àÖÖ´«µÝ·½Ê½£¬ÀûÓÃassign()´´½¨¶àÁÐ£¬´úÂëÈçÏÂ£º 



df = df.assign(

Ê±²î1=pd.Timestamp(2022,12,13)- pd.to_datetime(df£Û'Èë¿âÈÕÆÚ'£Ý),

Ê±²î2=pd.to_datetime(df£Û'Èë¿âÈÕÆÚ'£Ý)-pd.Timedelta('3 days 3 hours 3 minutes'),

Ê±²î3=pd.to_datetime('2022.12.13')-pd.Timedelta(5,unit='d'),

Ê±²î4=pd.to_datetime('2022.12.13')-pd.Timedelta(days=5),

)

df

TimedeltaÊ±¼ä²î¹¦ÄÜÓëÓÃ·¨ÀàËÆÓÚPower QueryÖÐµÄDuration¡£Ö§³ÖµÄÔËËãÓÐÓë±êÁ¿ÖµÏà³Ë¡¢ÓëÊ±¼ä´Á¼Ó¼õ£¬ÒÔ¼°Ê±¼ä²îÖ®¼äµÄ¼Ó¡¢¼õ¡¢³Ë¡¢³ý¡£·µ»ØµÄÖµÈçÍ¼5ª²6ËùÊ¾¡£




Í¼5ª²6Ê±¼ä²î


ÔÚÒÔÉÏ´úÂëÖÐÊ±¼ä²îfreq²ÎÊýµÄ³£ÓÃµ¥Î»¼û±í5ª²13¡£


±í5ª²13Ê±¼ä²îÆµÂÊ¶ÔÕÕ±í




ÆµÂÊ´úÂë
ÖÜW¡¢w¡¢weeks¡¢week
ÌìD¡¢d¡¢days¡¢day
Ê±H¡¢h¡¢hours¡¢hour
·ÖT¡¢m¡¢minutes¡¢minute
ÃëS¡¢s¡¢seconds¡¢second
ºÁÃëI¡¢milli¡¢millis¡¢millisecond¡¢milliseconds
Î¢ÃëU¡¢micro¡¢micros¡¢microsecond¡¢microseconds
ÄÉÃëN¡¢ns¡¢nano¡¢nanos¡¢nanosecond¡¢nanoseconds

ºÁÃë¡¢Î¢Ãë¡¢ÄÉÃëµÈ¸ß¾«¶Èµ¥Î»ÔÚ½ðÈÚµÈÐÐÒµÓ¦ÓÃ½Ï¶à£¬ÕâÑùµÄ¾«¶ÈÊÇExcelËù²»¾ß±¸µÄ¡£

²é¿´DataFrameÖÐ¸÷ÁÐµÄÊý¾ÝÀàÐÍ£¬´úÂëÈçÏÂ£º 



df.dtypes

·µ»ØµÄÖµÈçÏÂ£º 



Èë¿âÈÕÆÚdatetime64£Ûns£Ý

Ê±²îtimedelta64£Ûns£Ý

Ê±²î1timedelta64£Ûns£Ý

Ê±²î2datetime64£Ûns£Ý





Ê±²î3datetime64£Ûns£Ý

Ê±²î4datetime64£Ûns£Ý

dtype: object

2. Ê±¼ä²î·¶Î§

pandas.timedelta_range(start=None, end=None, periods=None, freq=None, name=None, closed=None)£¬·µ»Ø¹Ì¶¨ÆµÂÊµÄTimedeltaIndex£¬Ä¬ÈÏÎªÌìÊý¡£Ó¦ÓÃ¾ÙÀýÈçÏÂ£º 



A = pd.timedelta_range(start='1 day', end='2 days', freq='16H')

A

freqÎª16H£¬·µ»ØµÄÖµÈçÏÂ£º 



TimedeltaIndex(£Û'1 days 00:00:00', '1 days 16:00:00'£Ý, dtype='timedelta64£Ûns£Ý', freq='16H')

3. Ê±¼ä²îË÷Òý

¶Ô"Ê±²î1"ÁÐÖÐµÄÐÅÏ¢½øÐÐÌáÈ¡£¬´úÂëÈçÏÂ£º 



df£Û'Ïà²îÌìÊý'£Ý=pd.TimedeltaIndex(df£Û'Ê±²î1'£Ý).days

df£Û'¼ä¸ôÌìÊý'£Ý=df£Û'Ê±²î1'£Ý.dt.days

df.iloc£Û:,£Û0,2,6,7£Ý£Ý

³£ÓÃµÄÊ±¼ä²îÊôÐÔÓÐdays¡¢secondsµÈ£¬·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼äÊ±²î1Ïà²îÌìÊý¼ä¸ôÌìÊý

0 2020-04-28 28 days 13:54:242828

1 2020-05-313 days 06:49:2233

2 2020-06-303 days 00:03:2133

5.2.4Ê±¼äÆ«ÒÆ
1. ÈÕÆÚÆ«ÒÆ



pd.DateOffset()ËùÊµÏÖµÄ¹¦ÄÜÀàËÆÓÚpd.Timedelta()£¬µ«¶þÕßÊµÏÖµÄ·½Ê½ÓÐËù²»Í¬¡£Ó¦ÓÃ¾ÙÀýÈçÏÂ£º 



#ch05d013.ipynb

import pandas as pd

df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','Èë¿âÈÕÆÚ'£Ý,nrows=3)

df£Û'ºóÒÆÒ»Ìì'£Ý = df£Û'½Óµ¥Ê±¼ä'£Ý + pd.DateOffset(days=1)

df£Û'ºóÒÆ¶þÔÂ'£Ý = df£Û'½Óµ¥Ê±¼ä'£Ý + pd.DateOffset(months=2)

df.head(3)

·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼äÈë¿âÈÕÆÚºóÒÆÒ»ÌìºóÒÆ¶þÔÂ

0 2020-04-28 2020-05-26 13:54:24 2020-04-29 2020-06-28

1 2020-05-31 2020-06-03 06:49:22 2020-06-01 2020-07-31

2 2020-06-30 2020-07-03 00:03:21 2020-07-01 2020-08-30

2. Æ«ÒÆ

pd.offsetsºóÃæ¿É½ÓµÄ·½·¨½ÏÎª·±¶à¡£¼òµ¥Ó¦ÓÃ¾ÙÀý£¬´úÂëÈçÏÂ£º 



df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'Èë¿âÈÕÆÚ'£Ý,nrows=3)

df£Û'ºóÒÆÒ»ÖÜ'£Ý = df£Û'Èë¿âÈÕÆÚ'£Ý + pd.offsets.Week()

df£Û'ºóÒÆÈýÌì'£Ý = df£Û'Èë¿âÈÕÆÚ'£Ý + pd.offsets.Day(3)

df£Û'ºóÒÆÎåÊ±'£Ý = df£Û'Èë¿âÈÕÆÚ'£Ý + pd.offsets.Hour(5)

df£Û'ºóÒÆÒ»¿Ì'£Ý = df£Û'Èë¿âÈÕÆÚ'£Ý + pd.offsets.Minute(15)

df

·µ»ØµÄÖµÈçÍ¼5ª²7ËùÊ¾¡£



Í¼5ª²7·µ»ØµÄÖµ


5.2.5ÆµÂÊ×ª»»
1. ½µ²ÉÑù



½µ²ÉÑù(resample)ÓÃÓÚ½«¸ßÆµÂÊÊý¾Ý¾ÛºÏµ½µÍÆµÂÊ£¬²ÉÑùµÄÇ°ÌáÊÇindex±ØÐëÎªÊ±¼äÐòÁÐ¡£ÔÚ½µ²ÉÑùÖÐ£¬Ä¿±êÆµÂÊ±ØÐëÊÇÔ´ÆµÂÊµÄ×ÓÊ±ÆÚ(subperiod)¡£ÒÔÏÂ´´½¨µÄDataFrameÓÃÓÚ½µ²ÉÑù¼°Éý²ÉÑù£¬´úÂëÈçÏÂ£º 



#ch05d014.ipynb

import pandas as pd

df = pd.DataFrame(

data = {"Num":range(1,7)},

index=pd.date_range('2022/12/9',periods=6, freq='2d'))

df

ÒÔÉÏÊý¾ÝÓµÓÐ¹Ì¶¨µÄÆµÂÊ¡£ÔÚÊµ¼Ê½µ²ÉÑù¹ý³ÌÖÐ£¬´ý¾ÛºÏµÄÊý¾Ý¿ÉÒÔ¾ßÓÐ²»¹Ì¶¨µÄÆµÂÊ£¬Pandas»áÒÀ¾Ý½µ²ÉÑùÆµÂÊ×Ô¶¯¶¨Òå¾ÛºÏÃæÔªµÄ±ß½ç£¬·µ»ØµÄÖµÈçÏÂ£º 



Num

2022-12-091

2022-12-112

2022-12-133

2022-12-154

2022-12-175

2022-12-196

ÖØÐÂ²ÉÑùµÄÆµÂÊÎªW£¬ÀàËÆÓÚÒÔW(ÖÜ)Îªµ¥Î»µÄgroup by¶ÔÏó£¬¿É¶ÔÆä¾ÛºÏÔËËã£¬´úÂëÈçÏÂ£º 



df.resample('w').sum()

2022ª²12ª²11¶ÔÓ¦µÄÖÜ·¶Î§Îª2022ª²12ª²5µ½2020ª²12ª²11£¬2020ª²12ª²18¶ÔÓ¦µÄÖÜ·¶Î§Îª2020ª²12ª²12µ½2020ª²12ª²18£¬2022ª²12ª²25¶ÔÓ¦µÄÖÜ·¶Î§Îª2022ª²12ª²19µ½2022ª²12ª²25£¬·µ»ØµÄÖµÈçÏÂ£º 



Num

2022-12-113

2022-12-1812

2022-12-256


PandasÖÐ³£¼ûµÄ¾ÛºÏº¯ÊýÓë·½·¨ÓÐcount()¡¢sum()¡¢mean()¡¢max()/min()¡¢cummax()/cummin()¡¢idxmax()/argmax()µÈ¡£µ±DataFrame»òSeriesÖÐ´æÔÚÊ±¼äË÷ÒýÁÐÊ±£¬¿ÉÔËÓÃresample()·½·¨¶ÔÆä½øÐÐ¾ÛºÏÔËËã£¬ÆäÔ­ÀíÀàËÆÓÚDataFrame»òSeries¶ÔÏóºó½Ógroupby()¡£µ±Éæ¼°¶àÖÖ¾ÛºÏÔËËãÊ±£¬Í¬Ñù¿ÉÔËÓÃagg()·½·¨¡£Ó¦ÓÃ¾ÙÀý£¬´úÂëÈçÏÂ£º 



df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'¶©µ¥Êý','½Óµ¥Ê±¼ä'£Ý,

index_col='½Óµ¥Ê±¼ä'

)

df.resample('Q').agg(£Û'count','sum','mean','max','min'£Ý)

¸ü¶àÓÐ¹Øagg()·½·¨µÄÓ¦ÓÃ¼ûºóÐøgroupby()ÕÂ½Ú£¬·µ»ØµÄÖµÈçÏÂ£º 



¶©µ¥Êý

countsummeanmaxmin

½Óµ¥Ê±¼ä

2020-06-30362.0000002.02.0

2020-09-307284.0000009.01.0

2020-12-313279.00000011.07.0

2021-03-3100NaNNaNNaN

2021-06-30252.5000003.02.0

2021-09-30121179.75000017.02.0

2021-12-313227.3333339.04.0


µ±Ïà¹ØÈÕÆÚ²»ÊÇÊ±¼äË÷ÒýÁÐÊ±£¬¿ÉÍ¨¹ýresample£¨£©ÖÐµÄon²ÎÊý½øÐÐÖ¸¶¨£¬´úÂëÈçÏÂ£º 



df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'¶©µ¥Êý','½Óµ¥Ê±¼ä'£Ý,)

df.resample('4M',on='½Óµ¥Ê±¼ä').agg(£Û'count','sum','mean'£Ý)

·µ»ØµÄÖµÈçÏÂ£º 



¶©µ¥Êý

countsummean

½Óµ¥Ê±¼ä

2020-04-30122.000000

2020-08-315112.200000

2020-12-317486.857143

2021-04-3000NaN





2021-08-31131114.538462

2021-12-314334.250000

2. Éý²ÉÑù

Éý²ÉÑù(asfreq)ÓÃÓÚ½«µÍÆµÂÊÊý¾Ý×ª»»Îª¸ßÆµÂÊÊý¾Ý£» ÔÚÉý²ÉÑùÖÐ£¬Ä¿±êÆµÂÊ±ØÐëÊÇÔ´ÆµÂÊµÄ³¬Ê±ÆÚ(superperiod)¡£

ÀûÓÃasfreq¶Ôperiod¶ÔÏó½øÐÐÆµÂÊ×ª»»£¬´úÂëÈçÏÂ£º 



a = pd.Period(2021,freq='A-Feb')

a.asfreq('M',how='start')#½«×ª»»ÆµÂÊÎª2019-03

ÔËÐÐ´úÂë£¬Êä³öµÄ½á¹ûÈçÏÂ£º 



Period('2020-03', 'M')

¶Ô±Èhow='start'Óëhow='end'ÔËÐÐ½á¹ûµÄ²î±ð£¬´úÂëÈçÏÂ£º 



a.asfreq('M',how='end')#½«ÆµÂÊ×ª»»Îª2020-02

ÔËÐÐ´úÂë£¬Êä³öµÄ½á¹ûÈçÏÂ£º 



Period('2021-02', 'M')

ÀûÓÃasfreq£¬¶ÔÍ¬Ò»ÆµÂÊµÄ²»Í¬ÇÐ¸îµã½øÐÐÇÐ»»£¬´úÂëÈçÏÂ£º 



a = pd.Period(2021,freq='A-Feb')

a.asfreq('A-JUN')

Êä³öµÄ½á¹ûÈçÏÂ£º 



Period('2021', 'A-JUN')


¼ÌÐø¾ÙÀý£¬´úÂëÈçÏÂ£º 



#ch05d015.ipynb

import pandas as pd

df = pd.read_excel(

r'D:\\Êý¾ÝÔ´\\BÎÄ¼þ\\¶©µ¥±í.xlsx',

usecols=£Û'½Óµ¥Ê±¼ä','²úÆ·','¶©µ¥Êý'£Ý,

index_col='½Óµ¥Ê±¼ä'

).head(10)



df.resample('Q').last().resample('M').asfreq()

ÒÔÉÏ´úÂë×îºóÒ»ÐÐ²ÉÓÃµÄÊÇÁ´Ê½Ð´·¨£¬ÆäÖÐµÄlast()·½·¨ÊÇÊ±¼äË÷ÒýÊý¾ÝÖÐµÄ×îºóÊ±¶Î£¬·µ»ØµÄÖµÈçÏÂ£º 



½Óµ¥Ê±¼ä

2020-06-30Æ»¹û´×2.0

2020-07-31NaNNaN

2020-08-31NaNNaN

2020-09-30ÒìÐÎ¼þ9.0

¶Ô±ÈÔ­Ê¼Êý¾Ýºó»á·¢ÏÖ£º 2020ª²6ª²30µÄ¶©µ¥Êý2Ëù²ÉÓÃµÄÊÇ2020/6/30µÄÊý¾Ý£» 2020ª²9ª²30µÄ¶©µ¥Êý9Ëù²ÉÓÃµÄÊÇ2020/9/27µÄÊý¾Ý¡£Èç¹û»»³Éfirst()£¬Ôò´ú±íÊ±¼äË÷ÒýÊý¾ÝÖÐµÄ³õÊ¼Ê±¶Î£¬´úÂëÈçÏÂ£º 



df.resample('Q').first().resample('M').asfreq()

·µ»ØµÄÖµÈçÏÂ£º 



²úÆ·¶©µ¥Êý

½Óµ¥Ê±¼ä

2020-06-30µ°¸âÖ½2.0

2020-07-31NaNNaN

2020-08-31NaNNaN

2020-09-30¸Ö»¯Ä¤1.0

¶Ô±ÈÔ­Ê¼Êý¾Ýºó»á·¢ÏÖ£º 2020ª²6ª²30µÄµ°¸âÖ½²úÆ·µÄ¶©µ¥Êý2Ëù²ÉÓÃµÄÊÇ2020/4/28µÄÊý¾Ý£» 2020ª²9ª²30µÄ¸Ö»¯Ä¤²úÆ·µÄ¶©µ¥Êý1Ëù²ÉÓÃµÄÊÇ2020/7/28µÄÊý¾Ý¡£