681/* 682 * Get the lock to a page atomically. 683 */ 684struct page * __find_lock_page (struct address_space *mapping, 685 unsigned long offset, struct page **hash) 686{ 687 struct page *page; 688 689 /* 690 * We scan the hash list read-only. Addition to and removal from 691 * the hash-list needs a held write-lock. 692 */ 693repeat: 694 spin_lock(&pagecache_lock); 695 page = __find_page_nolock(mapping, offset, *hash); 696 if (page) { 697 page_cache_get(page); 698 spin_unlock(&pagecache_lock); 699 700 lock_page(page); 701 702 /* Is the page still hashed? Ok, good.. */ 703 if (page->mapping) 704 return page; 705 706 /* Nope: we raced. Release and try again.. */ 707 UnlockPage(page); 708 page_cache_release(page); 709 goto repeat; 710 } 711 spin_unlock(&pagecache_lock); 712 return NULL; 713}
代码如上, 30来行, 很简单。
这段代码反映了页面管理中的一个很重要的标志位 PG_locked, 也就是 lock_page(page) 那一句。 下面注释在没有背景的情况下, 比较难理解, 什么叫 still hashed, 什么时候又回不 hashed 呢? 从第一遍看相关代码时疑问就一直存在, 到现在, 至少也有3年了吧, 幸好这次貌似有点明白了, 赶紧记下来; 但也有可能是错误的。
PG_locked 的解释一直找不到权威的, 就网上搜到的观点看, 这个位表明这个页面在处于 IO 当中,所以应当不要修改之类的, 英文叫 don't touch, 中文不知怎么翻译了。 就现在理解似乎这个说法是正确的。 需要整体解释下面代码片段:
697 page_cache_get(page); 698 spin_unlock(&pagecache_lock); 699 700 lock_page(page); 701 702 /* Is the page still hashed? Ok, good.. */ 703 if (page->mapping) 704 return page;
首先将页面引用计数加一, 这个是在 pagecache_lock 保护下做的, 由于 pagecache 本身会保持页面的一个引用, 因此, 在这里肯定可以放心大胆加引用, 而加引用的目的, 则可以将 page 握在手里, 防止它回归伙伴系统。 那么怎么会回归呢? 要回归, 肯定是 cache 的引用没有了, 那么就是发生在 spin_unlock(&pagecache_lock) 之后, 如果没有提前 page_cache_get(page) 的话。 但这个引用只能保护 page 不回归伙伴系统, 不能保护别的, 至少从 pagecache 中脱离是保护不了的, page->mapping 正是 page 位于 pagecache 的一个标志; 于是可以明白, 在 lock_page 期间, 这个页面是有可能从 pagecache 中脱离的。
lock_page 可能会睡眠, 他的实现逻辑为, 尝试设定 page 的 PG_locked 位, 如果发现已经设置了, 则睡眠等待这个标志位被清空, 然后唤醒, 再次尝试设置后, 如果发现又有人捷足先登, 则接着睡眠, 否则设置该位后返回。
PG_locked 位是 IO 的标志, 表明这个页面正处于 IO 过程中, 那么很可能 IO 处理的一部分就包括 page 的脱 pagecache, 降低引用计数, 而后回归伙伴系统(如果没有其他引用的话), 既然回归伙伴系统, 则表明这个页面的数据已经不需要了, 为何不需要了, 因为之前的 IO 已经将数据写到存储上了。 这样理解, 貌似整体脉络就清楚了。
page 涉及IO, 刚刚想了一下, 就目前我所读代码而言, 没有太多发起的情景, 似乎只有两个:
1. 通过 mmap 之类调用被映射到用户空间的页面, 一般是通过页交换逻辑, 逐渐的从各个进程的页表中脱离, 而后从内核的 active lru 队列进入到 inactive 队列, 经过一段时间缓冲后, 通过 page->mapping->a_op->writepage 函数将数据写到存储
2. sys_write 系统调用最终会通过 address_space_operations 的 prepare_write/commit_write 将页面写到存储。
在写的过程中, 肯定会 lock_page, 写完毕后, 则 unlock 之, 并尝试释放页面到伙伴系统; 哦, 不对, 应该是先尝试释放页面到伙伴系统, 而后 unlock 页面, 否则, 上面 703 行的判断就有问题了。
无论如何, 如果到达 704 行, 则页面在 700 行被锁定的情况下, 也就不担心从 pagecache 中脱离了, 可以安全返回, 这里的一个推论是, 所有脱离 pagecache 的操作, 定然是在页面被锁定的情况下进行的。
而一旦到达 705 行, 则表明在 page_lock 成功之前, 这个页面就已经成功在另一个 page_lock 的保护下脱离 pagecache 了, 那么这个页面貌似也不能咬了, 只好放弃锁定, 重试一遍, 很显然, 重试多半失败, 除非在重试之前, 又有谁将这个页面又从存储读到了内存, 并加入了 pagecache 中, 那么失败后, 则返回 NULL, 由调用者逻辑来做处理。
最后尝试找一下 IO 完毕后的释放 page 的代码, 看看推断是否正确, 结果是, 找到了一点线索, 但是貌似是驱动框架里面又有辗转, 驱动目前不熟, 只能到此为止, 不算成功。
这是 rw_swap_page_base 中的一段, 这个函数是页面交换到 swap 分区中的启动硬件 IO 的那个函数:
77 if (!wait) { 78 SetPageDecrAfter(page); 79 atomic_inc(&nr_async_pages); 80 } 81 82 /* block_size == PAGE_SIZE/zones_used */ 83 brw_page(rw, page, dev, zones, block_size); 84 85 /* Note! For consistency we do all of the logic, 86 * decrementing the page count, and unlocking the page in the 87 * swap lock map - in the IO completion handler. 88 */ 89 if (!wait) 90 return 1;
最后一段注释, 貌似在说, 这些工作又交给 IO completion 例程了, 这个东西应该就是 linux aio 完毕后的通知用户相关的玩意